图像视频技术-USB迷|专注于互联网分享

2024年3月29日发(作者：镜安民)

图像视频技术

这篇文章，主要是从宏观上或者说是从商业应用上总结一下现阶段图像视频底层技术的发

展及应用点，从一个图像视频算法研究人员的角度谈一谈对这个领域的认识。图像视频领域

的商业应用，集中在多媒体娱乐、互联网、智能监控、工业机器视觉、OCR、生物特征识

别、医学图像处理以及军事国防几个领域。

多媒体领域主要集中了MicroSoft、Adobe、MITSUBISHI、Cyberlink、Muvee、Autodesk、

Corel、Sony、2D3、MotionDSP等一批公司，这些公司都有自己的图像视频算法的研究团队，

以及跟世界知名大学研究机构的密切合作。PAMI、IJCV、CVPR、ICCV、ECCV、SIGRAPH

上的很多论文很多出自他们之手，他们也可以很快的把这些新的研究成果商品化。这个领域

的研究人员，在关注上面说的几大会议和期刊的同时，也应该不断跟踪这几家公司的研究成

果。

多媒体领域的研究方向比较杂，包括但不限于下面几类，视频智能编辑、视频感兴趣区、

图像视频场景分析、图像视频修复及后处理、人脸系列技术、非真实感渲染（NPL）系列技

术、3D系列技术、人机交互技术等。

视频智能编辑，主要包括视频镜头边界检测以及在此基础上的视频自动故事片生成、视频

广告检测、视频废镜头检测等。视频镜头边界检测在经历了一段时间的发展之后，检测率也

达到一定的程度，目前基本上不再有新的文章出现。视频自动故事片生成往往需要音视频技

术的结合，并且由于缺乏有效的评级机制，最近几年已经不是研究的热点，但是相信各个视

频编辑领域的公司仍在研究或者开发过程之中。视频中的广告检测作为其中的一个小的分支，

可能因为没有很大的商业价值，研究的并不多，但想要真正实现高的检测率，仍然有很多值

得研究的地方。视频废镜头检测其实是视频修复的一部分，包括检测视频中的抖动片段、模

糊片段、过曝过暗片段等，从而达到视频修复的目的。

视频感兴趣区的研究，最近是一个热点方向，感兴趣区提取和跟踪可以用来做视频智能缩

放，可以用来指导视频编辑中的精彩视频片段选择，还可以在片源采集时就用来指导摄像机

捕捉精彩片段。人脸、人物、车辆、小动物、房屋、花草树木等在特定的场景下等都可以作

为感兴趣区，感兴趣区提取的方式方法也比较多，但除了人脸、人物检测技术上还比较成熟

之外，其他目标的检测很难达到满意的准确度。人物检测基础上的精细分割抠像技术，也是

图像领域的一个基础研究方向，准确的抠像，是换背景等智能化效果的基础。

图像视频场景分析，主要用在视频管理和视频按场景选择和编辑。通过对不同的场景的特

征进行分析设计分类器进行分类，对于视频管理这种不要求很高精度的应用点可以满足要求。

照片和视频按场景内容管理，跟基于人脸识别技术的照片管理，是基于内容管理的两个方式，

相信今后的多媒体编辑和管理软件都会逐步增加这个功能。

图像视频的修复及后处理，主要包括视频抖动修复、图像视频去模糊、视频过曝过暗修复、

视频去雾化、老电影旧照片修复、马赛克修复、视频图像超分辨率、视频图像智能变比例缩

放、视频帧插值、图像视频去噪等。

视频抖动修复关键是摄像机轨迹的检测，确定了摄像机的移动轨迹，视频修复就有了基础

的指导。通过寻找视频中的特征点，然后对特征点进行跟踪，通过分析每个特征点的轨迹，

确定摄像机的整体轨迹。如果假定视频中的内容都是一个平面上，只考虑摄像机在2D平面

的轨迹，事情要容易的多，但事实上摄像机的轨迹应该是3D的，这就变成了一个“Structure

from Motion”的问题，处理起来就比较复杂，但如果想得到理想的稳像效果，得出摄像机3D

轨迹是必须的。另外，摄像机3D轨迹的求取，也是其他基于3D的视频应用的基础，这个

后面再讲。

图像视频去模糊，这个的关键是寻找模糊核，也就是拍摄的瞬间摄像机或相机的运动轨迹，

在这个运动轨迹上反卷积，就可以恢复摄像机不动情况下拍摄的视频、图像，也就是不模糊

的视频、图像了。所以，对视频的去模糊，比起对图像的去模糊，手段要多一些，因为视频

去模糊可以通过视频序列的信息来得到摄像机的运动轨迹。而图像的去模糊，这个运动轨迹

只能是通过对图像内部结构的分析进行估计。考虑到轨迹估计和反卷积的运算量，不管是图

像去模糊还是视频去模糊，目前都不算很成熟，但是成熟的产品应该会在短期内出现。

视频过曝过暗修复，如果视频质量不是太差，直方图被挤压的不是太厉害，还可以通过直方

图均衡化的方式进行简单修复，但是如果直方图被挤压的很严重，那就只能删除了。

视频、图像去雾化，简单点说，就是把被雾化的图像建模为一个正常的无雾的图像与纯雾

的图像的合成，因为拍摄得到图像中雾的灰度值与景深有关，所以好的去雾算法，应该是以

准确的景深估计为基础的，3D景深估计也是一个很热的方向。

老电影旧照片修复，大概包括色彩的修复和一些划痕修复，色彩修复，可以以类似去雾的

建模方式，也可以简单的做色调调节，问题都不大。划痕修复就比较复杂，除了要把划痕检

测到，还要用周围的像素来填充划痕的像素，比较典型的全变分方法可以用来处理这类问题。

马赛克修复，马赛克修复基本上还是要从产生的原因入手，如果是编解码层的问题，可以

对编解码的数据尝试修复。如果到了解码后的图像数据，想要修复就是一个无中生有的问题

了，只能是依靠边缘纹理来去掉马赛克的效果，但是想要恢复图像内容，除非后台有一个强

大的针对特定目标的数据库来支持虚构类似的内容，否则毫无办法。

视频、图像超分辨率，超分辨率的方法，总体来说两种思路，一种是挖掘图像的边缘信息，

在图像放大的时候，尽量保边缘，这类方法以NEDI方法为典型，缺点是速度比较慢。另一

类是基于Patch的方法，首先建立一个低分辨率Patch对应高分辨率Patch的映射表，前期

先把这个映射关系建立好，然后就只需要通过查找映射表来进行超分辨率操作了。如果建立

的映射表足够大，那就可以得到比较理想的超分辨率结果，理论上讲不论速度还是质量都比

前一种方法要好。

视频图像智能变比例缩放，是指通过分析图像视频中的内容，在图像、视频缩放的过程中，

保留有内容的关键区域比例不变，而压缩、扩展不重要的区域，这样看起来缩放后的图像、

视频主要内容不会变形。基于图像的智能缩放算法比较成熟，基于视频的由于要考虑视频序

列的前后帧的连续性，必须加入时间轴的约束，因此效果不如图像理想，做的不好会引出视

频的抖动问题。

视频帧插值，可以用来解决帧率变化的情况下，出现的视频抖动问题，主要是一个视频的

全局运动，类似于视频抖动检测，应该说技术上不复杂，但是视频中的局部运动会干扰全局

的运动估计，这样插值出来的帧就会存在一定的瑕疵。

图像视频去噪，方法很多，简单点通过滤波高频信号的方法如高斯滤波，或者简单的中值

滤波都可以有一定的效果，但是目前看来，最理想的方法还是非局部均值（NLM）方法。

其他的一些例如偏微分方程的方法也可以尝试。

人脸系列技术，包括人脸检测、跟踪，人脸特征点定位，人脸识别，人脸的表情识别，人

的年龄、性别识别，人脸的美化，人脸卡通效果，人脸的变形效果，人脸的3D重建等以及

与此相关的眼睛检测和红眼修复等。

非真实感渲染（NPL）系列技术，包括水墨画、水彩画、油画、漫画效果等人工画效果，

风、雪、雨、烟、雾、火焰、海浪等一些自然环境的模拟效果。

人工画效果的实现主要是基于Stroke的方式，难点在于图像的解析，一个好的人工画效果，

需要正确的将图像分解为不同的区域，并分析不同区域的结构特点来确定用笔方式、Stroke

的精细度等参数。

对自然环境的模拟，主要是一些粒子的模拟，可以采用基于物理模型的方式研究粒子的受

力及运动方式，流体力学的相关方法是这个领域的核心。

NPL技术，除了用于对图像、视频的特效上，另外像一些烟雾效果和水墨画效果用于艺术

2024年3月29日发(作者：镜安民)

图像视频技术

这篇文章，主要是从宏观上或者说是从商业应用上总结一下现阶段图像视频底层技术的发

展及应用点，从一个图像视频算法研究人员的角度谈一谈对这个领域的认识。图像视频领域

的商业应用，集中在多媒体娱乐、互联网、智能监控、工业机器视觉、OCR、生物特征识

别、医学图像处理以及军事国防几个领域。

多媒体领域主要集中了MicroSoft、Adobe、MITSUBISHI、Cyberlink、Muvee、Autodesk、

Corel、Sony、2D3、MotionDSP等一批公司，这些公司都有自己的图像视频算法的研究团队，

以及跟世界知名大学研究机构的密切合作。PAMI、IJCV、CVPR、ICCV、ECCV、SIGRAPH

上的很多论文很多出自他们之手，他们也可以很快的把这些新的研究成果商品化。这个领域

的研究人员，在关注上面说的几大会议和期刊的同时，也应该不断跟踪这几家公司的研究成

果。

多媒体领域的研究方向比较杂，包括但不限于下面几类，视频智能编辑、视频感兴趣区、

图像视频场景分析、图像视频修复及后处理、人脸系列技术、非真实感渲染（NPL）系列技

术、3D系列技术、人机交互技术等。

视频智能编辑，主要包括视频镜头边界检测以及在此基础上的视频自动故事片生成、视频

广告检测、视频废镜头检测等。视频镜头边界检测在经历了一段时间的发展之后，检测率也

达到一定的程度，目前基本上不再有新的文章出现。视频自动故事片生成往往需要音视频技

术的结合，并且由于缺乏有效的评级机制，最近几年已经不是研究的热点，但是相信各个视

频编辑领域的公司仍在研究或者开发过程之中。视频中的广告检测作为其中的一个小的分支，

可能因为没有很大的商业价值，研究的并不多，但想要真正实现高的检测率，仍然有很多值

得研究的地方。视频废镜头检测其实是视频修复的一部分，包括检测视频中的抖动片段、模

糊片段、过曝过暗片段等，从而达到视频修复的目的。

视频感兴趣区的研究，最近是一个热点方向，感兴趣区提取和跟踪可以用来做视频智能缩

放，可以用来指导视频编辑中的精彩视频片段选择，还可以在片源采集时就用来指导摄像机

捕捉精彩片段。人脸、人物、车辆、小动物、房屋、花草树木等在特定的场景下等都可以作

为感兴趣区，感兴趣区提取的方式方法也比较多，但除了人脸、人物检测技术上还比较成熟

之外，其他目标的检测很难达到满意的准确度。人物检测基础上的精细分割抠像技术，也是

图像领域的一个基础研究方向，准确的抠像，是换背景等智能化效果的基础。

图像视频场景分析，主要用在视频管理和视频按场景选择和编辑。通过对不同的场景的特

征进行分析设计分类器进行分类，对于视频管理这种不要求很高精度的应用点可以满足要求。

照片和视频按场景内容管理，跟基于人脸识别技术的照片管理，是基于内容管理的两个方式，

相信今后的多媒体编辑和管理软件都会逐步增加这个功能。

图像视频的修复及后处理，主要包括视频抖动修复、图像视频去模糊、视频过曝过暗修复、

视频去雾化、老电影旧照片修复、马赛克修复、视频图像超分辨率、视频图像智能变比例缩

放、视频帧插值、图像视频去噪等。

视频抖动修复关键是摄像机轨迹的检测，确定了摄像机的移动轨迹，视频修复就有了基础

的指导。通过寻找视频中的特征点，然后对特征点进行跟踪，通过分析每个特征点的轨迹，

确定摄像机的整体轨迹。如果假定视频中的内容都是一个平面上，只考虑摄像机在2D平面

的轨迹，事情要容易的多，但事实上摄像机的轨迹应该是3D的，这就变成了一个“Structure

from Motion”的问题，处理起来就比较复杂，但如果想得到理想的稳像效果，得出摄像机3D

轨迹是必须的。另外，摄像机3D轨迹的求取，也是其他基于3D的视频应用的基础，这个

后面再讲。

图像视频去模糊，这个的关键是寻找模糊核，也就是拍摄的瞬间摄像机或相机的运动轨迹，

在这个运动轨迹上反卷积，就可以恢复摄像机不动情况下拍摄的视频、图像，也就是不模糊

的视频、图像了。所以，对视频的去模糊，比起对图像的去模糊，手段要多一些，因为视频

去模糊可以通过视频序列的信息来得到摄像机的运动轨迹。而图像的去模糊，这个运动轨迹

只能是通过对图像内部结构的分析进行估计。考虑到轨迹估计和反卷积的运算量，不管是图

像去模糊还是视频去模糊，目前都不算很成熟，但是成熟的产品应该会在短期内出现。

视频过曝过暗修复，如果视频质量不是太差，直方图被挤压的不是太厉害，还可以通过直方

图均衡化的方式进行简单修复，但是如果直方图被挤压的很严重，那就只能删除了。

视频、图像去雾化，简单点说，就是把被雾化的图像建模为一个正常的无雾的图像与纯雾

的图像的合成，因为拍摄得到图像中雾的灰度值与景深有关，所以好的去雾算法，应该是以

准确的景深估计为基础的，3D景深估计也是一个很热的方向。

老电影旧照片修复，大概包括色彩的修复和一些划痕修复，色彩修复，可以以类似去雾的

建模方式，也可以简单的做色调调节，问题都不大。划痕修复就比较复杂，除了要把划痕检

测到，还要用周围的像素来填充划痕的像素，比较典型的全变分方法可以用来处理这类问题。

马赛克修复，马赛克修复基本上还是要从产生的原因入手，如果是编解码层的问题，可以

对编解码的数据尝试修复。如果到了解码后的图像数据，想要修复就是一个无中生有的问题

了，只能是依靠边缘纹理来去掉马赛克的效果，但是想要恢复图像内容，除非后台有一个强

大的针对特定目标的数据库来支持虚构类似的内容，否则毫无办法。

视频、图像超分辨率，超分辨率的方法，总体来说两种思路，一种是挖掘图像的边缘信息，

在图像放大的时候，尽量保边缘，这类方法以NEDI方法为典型，缺点是速度比较慢。另一

类是基于Patch的方法，首先建立一个低分辨率Patch对应高分辨率Patch的映射表，前期

先把这个映射关系建立好，然后就只需要通过查找映射表来进行超分辨率操作了。如果建立

的映射表足够大，那就可以得到比较理想的超分辨率结果，理论上讲不论速度还是质量都比

前一种方法要好。

视频图像智能变比例缩放，是指通过分析图像视频中的内容，在图像、视频缩放的过程中，

保留有内容的关键区域比例不变，而压缩、扩展不重要的区域，这样看起来缩放后的图像、

视频主要内容不会变形。基于图像的智能缩放算法比较成熟，基于视频的由于要考虑视频序

列的前后帧的连续性，必须加入时间轴的约束，因此效果不如图像理想，做的不好会引出视

频的抖动问题。

视频帧插值，可以用来解决帧率变化的情况下，出现的视频抖动问题，主要是一个视频的

全局运动，类似于视频抖动检测，应该说技术上不复杂，但是视频中的局部运动会干扰全局

的运动估计，这样插值出来的帧就会存在一定的瑕疵。

图像视频去噪，方法很多，简单点通过滤波高频信号的方法如高斯滤波，或者简单的中值

滤波都可以有一定的效果，但是目前看来，最理想的方法还是非局部均值（NLM）方法。

其他的一些例如偏微分方程的方法也可以尝试。

人脸系列技术，包括人脸检测、跟踪，人脸特征点定位，人脸识别，人脸的表情识别，人

的年龄、性别识别，人脸的美化，人脸卡通效果，人脸的变形效果，人脸的3D重建等以及

与此相关的眼睛检测和红眼修复等。

非真实感渲染（NPL）系列技术，包括水墨画、水彩画、油画、漫画效果等人工画效果，

风、雪、雨、烟、雾、火焰、海浪等一些自然环境的模拟效果。

人工画效果的实现主要是基于Stroke的方式，难点在于图像的解析，一个好的人工画效果，

需要正确的将图像分解为不同的区域，并分析不同区域的结构特点来确定用笔方式、Stroke

的精细度等参数。

对自然环境的模拟，主要是一些粒子的模拟，可以采用基于物理模型的方式研究粒子的受

力及运动方式，流体力学的相关方法是这个领域的核心。

NPL技术，除了用于对图像、视频的特效上，另外像一些烟雾效果和水墨画效果用于艺术

USB迷 | 专注于互联网分享

图像视频技术

与本文相关的文章

评论列表 (0)