期末复习
第一章. 基础
1.概念
视频:
定义
:又称运动图像或活动图像,它是指连续地随着时间变化的一组图像序列
一般是由多个场景
组成,讲述一个完整的故事
=>场景:
包含一个或多个镜头
,讲述一个阶段性故事
=>镜头:
视频数据结构中的基本单位
,由若干个时间上连续的图像帧
组成,在内容上具有很大的相似性。
=>帧:
视频数据结构中的最小单元
2.模拟/数字
模拟:
它由摄像机通过电子扫描将随时间和空间变化的景物进行光电转换后,得到一维的时间函数电信号,其电平的高低
反映了景物的颜色值
。
数字:
优点:
① 便于编辑与合成
② 可不失真地进行多次复制
③ 在网络环境下容易实现资源共享
④ 数字可与其它媒体组合使用
缺点:数据量大
3.数字视频处理系统
广义:
包括 视频信号采集、数字化处理、视频编解码、存储、处理、传输、显示 模块
① 输入模块: 视频信号采集、数字化处理
光学图像信号 => 电信号
② 处理与分析: 核心
- 保证质量前提下尽可能压缩数据量 ———— 【视频压缩】
- 消除视频信号
产生、获取和传输
过程中引入的失真和干扰,使视频信号尽可能逼真地重构原始景物 ———— 【视频滤波】 - 根据主观或客观度量,尽可能地去除视频中的无用信息而
突出其主要信息
———— 【视频增强】 - 从视频图像中
提取某些特征
,以便对其进行描述、分类和识别 ———— 【视频分割】【目标检测与跟踪】【视频检索】
③ 输出模块: 将经过系统处理后的视频图像信号以用户能感知的形式显示出来
- 阴极射线荧光屏 CRT:
发展历史最久,技术最成熟 - 液晶显示屏 LCD:
高性能、彩色、高分辨率、快速、轻薄 <==> 但工艺复杂、成本高。 - 等离子体显示屏 PDP:主要应用领域【公共场所信息显示、广告、电视和 HDTV 等】
大屏幕、全彩色、视频显示。 - 场发射显示板 FED:被认为是 CRT 的最好继承者。
有 CRT 优点、克服其笨重缺点、且功耗较低 <==> 但结构复杂、封装困难、寿命问题亟待解决
④ 存储模块: 内置存储和外置存储
- 内置存储:指本地存储,如光盘、磁盘、磁带等各种存取器件
- 外置存储:直连存储 / 网络存储
(1) 直连存储:依赖服务器主机操作系统进行【数据的 IO 读写和存储维护管理】。数据备份和恢复(存储维护管理),要求占用服务器主机资源(包括 CPU、系统 IO 等) => 直连式存储的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖和影响也就越大。
(2) 网络存储:网络存储可以分为 NAS(Network Attached Storage,网络接入存储) :NAS 用户通过 TCP/IP 协议访问数据
和 SAN (Storage Area Networks,存储区域网络):SAN 通过专用光纤通道交换机访问数据。
⑤ 通信模块: 相当于远端的存取操作
狭义(信号处理):
指对已数字化的视频信号进行某种特殊功能的分析和处理,如:
运动估计、视频压缩、运动对象分割、运动目标跟踪及动态场景分析等。
4.数字视频处理技术应用实例
- 车场监控
- 睡眠姿态监控
- 林火监测
- 人脸检测及识别
- 人流量统计
5.彩色空间
视觉角度
亮度:光的强弱;
色调:色彩的类别,如黄色、绿色、蓝色等;
色饱和度:颜色的深浅,如浅紫色、粉红色。
分类
- RGB
- YUV:
用彩色摄像机来获取图像信息时,摄像机把彩色图像信号经过分色棱镜分成 R0、G0、B0 三个分量信号,分别经过放大和校正后得到 R、G、B,再经过矩阵变换电路得到亮度信号 Y
和色差信号 U、V
。
其中,亮度信号表示了单位面积上反射光线的强度,而色差信号(是指基色信号中的三个分量信号 R、G、B 与亮度信号之差)决定了彩色图像信号的色调。
最后发送端将 Y、U、V 三个信号进行编码,用同一信道发送出去,这就是在 PAL 彩色电视制式中使用的 YUV 彩色空间。
(1) 亮度信号 Y 和色差信号 U、V 是相互独立
的:
即 Y 信号分量构成的黑白灰度图与用 U、V 两个色彩分量信号构成的两幅单色图是相互独立的。
因为 Y、U、V 是独立的,所以可以对这些单色图分别进行编码和传输
。
(2) 利用人眼的视觉特性来降低彩色数字图像的数据量,即将多个像素不同的色彩值当做相同的色彩值来处理(即大面积着色
原理)
降低数据量,降低带宽量
YIQ:
在 NTSC 彩色电视制式中[可选用]YIQ 彩色空间,其中,Y 表示亮度
,I、Q 是两个彩色分量
。人眼对红、黄之间颜色变化的分辨能力最强;而对蓝、紫之间颜色变化的分辨能力最弱
=> 在 YIQ 彩色空间中,色彩信号 I 表示人眼最敏感
的色轴,Q 表示人眼最不敏感
的色轴。YCbCr: YCbCr 彩色空间是由 ITU-R(国际电联无线标准部)制定的彩色空间,以演播室质量标准为目标的彩色图象压缩方案中采用的彩色表示模型
其中,数字域中的彩色空间变换与模拟域中的彩色空间变换是不同的!
亮度信号与色度信号 Cb、Cr 的采样比率为 4:2:2,这是因为人眼对色度信号的变化没有对亮度信号的变化来得敏感。
与 YUV 表色系统不同的是 YUV 考虑的是简单的颜色信息,YCbCr 则考虑了压缩时可以充分减少冗余量。
6.数字视频表示
普通的视频信号如标准 PAL 和 NTSC 制式的电视视频信号都是模拟的
;
而计算机只能处理和显示数字信号,为便于对采集得到的视频使用计算机进行处理、存储和传输,就必须将所获取的模拟信号在时间和空间域中转换为数字量,即视频的数字化,其结果便是数字视频。
模拟视频的 x、y 坐标及幅度值都是连续的,为将其转换成数字形式,需要在坐标和幅度上分别进行采样操作。
数字化坐标值
称为采样
,包括空间采样和时间采样;而数字化幅度值
则称为量化
过程。
模拟视频信号采样后,得到在空间上和时间上离散的视频信号,但要实现视频的完全数字化,还必须将采集到的视频信号每一帧的幅值
都转化为能使用有限位数表示的数值,即量化。
7.格式
本地视频格式
AVI:
AVI(Audio Video Inter-leaved,音频视频交错格式)由 Microsoft 公司推出
交错 means 音视频同步播放
但他们是分别采集、分别存储的
AVI 文件结构包含文件头、数据块、索引块 文件头:包括文件的通用信息、定义数据格式、所用的压缩算法等参数。
数据块:包含实际数据流,即图像和声音序列数据,这是文件的主体。
索引块:包括数据块列表和它们在文件中的位置,用于实现文件内数据的随机存取。MPEG:
MPEG 文件格式是运动图像压缩算法的国际标准,它采用有损压缩方法减少运动图像中的冗余信息,已被几乎所有的计算机平台共同支持。技术MPEG 压缩标准是针对运动图像而设计的,它主要采用两个基本压缩技术:
运动补偿技术(预测编码)实现时间
上的压缩;
变换域(离散余弦变换 DCT)压缩技术实现空间
上的压缩。MPEG 的平均压缩比为 50∶1,最高可达 200∶1,压缩效率非常高,同时图像和音响的质量也非常好,并且有统一的标准格式,兼容性相当好。
MOV:
Apple 公司
可以采用不压缩或压缩的方式,其压缩算法包括 Cinepak、Intel IndeoVideoR3.2 和 Video 编码,具有较高的压缩比率和视频清晰度
网络视频(流媒体)格式
RM/RMVB:
Real network 公司
在低速率的广域网上实时传输活动视频影像,可以根据网络数据传输速率的不同而采用不同的压缩比率MICROSOFT 流媒体格式——ASF/WMV:
ASF(Advanced Streaming Format,高级流格式)是 Microsoft 公司推出的
也是一个在 Internet 上实时传播多媒体的技术标准。
使用 MPEG—4 的压缩算法,压缩率较高,图像质量比同是视频“流”格式的 RM 格式要好
。
8.质量评价
主观评价
平均评价分值(Mean Opinion Score,MOS)方法。
如表 1-3 所示,主观测试可分为以下三种类型:
(1) 质量测试:观察者评定视频图像的质量等级;
(2) 损伤测试:观察者评定视频图像的损伤程度;
(3) 比较测试:观察者对一个给定的视频图像序列与另一个视频图像序列进行质量比较。
客观评价
均方差(Mean Square Error,MSE)
峰值信噪比(Peak Signal Noise Ratio,PSNR)
MSE 定义为原视频图像序列 f1(m,n,k)与处理后的视频图像序列 f2(m,n,k)之间的均方误差,即:
其中:
k 为视频图像序列帧数,M×N 为帧图像的大小,KMN 为视频图像序列的总像素数。对于彩色视频,每个彩色分量的 MSE 是分别计算的。PSNR:
其中:
fmax 为视频信号峰值,对每个彩色分量通常取 fmax=255。对于峰值信噪比准则,通常 PSNR 高于 40dB 的亮度分量,就意味着视频图像非常好(即与原始视频图像很接近); 30~40 dB,意味着有比较好的视频图像质量(即失真可察觉,但可以接受),20~30 dB 的视频图像质量则是相当差的;而低于 20 dB 则是不可接受的。
第二章. 运动估计
视频序列图像中提取物体运动信息的过程 称为运动分析及估计,
反映了视频图像序列中的二维运动和真实的三维运动之间的关系
在随时间变化的视频序列中,帧与帧之间存在着很大的空间冗余,
通过运动估计可以有效地去除帧间冗余,这对于视频图像序列数据压缩和传输是非常重要的。
运动估计研究的主要内容是如何快速有效地获得精确的运动矢量
。
运动估计的方法主要有光流法、基于块的运动估计、基于网格的运动估计、基于区域的运动估计等。
1.光流法(了解)
光流是空间运动物体在观察成像平面上的像素运动的瞬时速度【矢量(幅值+方向)】,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性
来找到相邻两帧之间存在的对应关系,从而计算出物体运动信息的一种方法
(1) 在 t~t+Δt 间对各像素点的位移矢量的估计,可表达为
d(x,t; Δt) =[d1(x,t; Δt) d2(x,t; Δt)]T (2-1)
(2) 在 t~t+Δt 间对各个像素点的光流矢量的估计, 可表达为
v(x,t)=[v1(x,t) v2(x,t)]T (2-2)
光流场的模型基于一些假设前提,比如物体运动无遮挡,物体表面反射系数均匀变化并且没有突变等。
在这些前提之下,像素的运动有一个自然的约束方程
I(x,y,t)=I(x+Δx,y+Δy,t+Δt) (2-3)
其中,I(x,y, t)代表位置在(x,y)的像素在 t 时刻的某种属性,比如亮度。
对约束方程的两边进行泰勒展开,最终可得到如下的光流约束方程:
其中,Ix 和 Iy 分别表示在水平和垂直方向上的亮度变化
; u 和 v 分别表示在水平和垂直方向上的运动
。
仅由上式不能求得运动矢量,还需附加其他约束,如:运动矢量平滑约束,即求解式
由于光流是从两幅差别很小的图像中求得的,会含有很大的噪声,尽管如此,通过对光流的分析,可以定性地解释物体在三维空间的运动。
2.基于块的运动估计 【重点】
假设图像由运动的块构成的
2.1 块运动的两种模型
块平移模型
这种模型限制每一个块作单纯的平移运动。
设块 B 的大小是 Nx×Ny,块 B 的中心为(xc,yc),经过一帧运动到新的位置,则块 B 中所有点可表示为:
s(x,y,k)=B(x+Δx,y+Δy,k+1) (2-8)
向量(Δx,Δy)为从(xc,yc)指向(xc+Δx,yc+Δy)的运动向量。
整个块被认为具有单一的运动向量,可以直接在逐像素对比的基础上通过匹配来自 k+1 帧中相应块的灰度级或颜色信息得到运动补偿。
优点:
实现简单,具有较大的通用性
缺点:
平移块的运动估计不适用于缩放、旋转运动和局部变形;
同时由于物体边界通常与块边界不一致
,邻近的块实际上可能被表示成完全不同的运动矢量,从而导致严重的人为分割现象。
可变形块运动模型(了解)
可变形块运动模型可以对物体的旋转、缩放、变形
等建模
投影运动:
仿射运动:
双线性运动:
其中,a,b 为可变形运动模型系数。
2.2 块匹配法
原理
块匹配法的思想是将当前帧 k 帧图像划分为许多互不重叠的图像子块,并且认为子块内所有像素的位移都相同,这意味着每个子块都被视为运动对象。
对于 k 帧图像中的子块(当前块),在参考帧 k-1 帧图像中的一定搜索范围(搜索窗)内寻找与其最相似的子块(预测块),这个过程称为寻找匹配块
,并认为预测块在 k-1 帧中所处的位置就是 k 帧子块位移前的位置,这个位移变化称为运动矢量
。
块匹配运动估计过程如图所示:
匹配准则
绝对平均误差函数 MAD:
绝对差值和函数 SAD:
归一化互相关函数 NCFF:
均方差函数 MSE:
最大误差最小函数 MME:
MME(i,j)=max|fk(m,n)-fk-1(m+i,n+j))|
其中,M×N 为子块的大小,(i,j)为位移量,fk 和 fk-1 分别为当前帧和参考帧的像素值。
在上述匹配准则中:
取 MAD、MSE、SAD 和 MME 的最小值点为最优匹配点,取 NCFF 的最大值点为最优匹配点;
【较为常用的是 MAD 和 SAD】
典型搜索算法
1). 全搜索算法:
(计算量大,但可找出全局最优匹配点)
该算法搜索所有可能的候选位置计算 SAD 值来找出最小 SAD,其对应的位置偏移值就是要求的运动矢量值。
两种搜索顺序:
螺旋搜索顺序是一种较为优异的全搜索算法,
它利用了运动矢量的中心偏置特性(运动矢量有很大的概率分布在搜索的中心位置及其附近位置),可以在一定程度上加快运动矢量的搜索。
快速运动估计算法:
建立在误差曲面呈单峰分布,存在唯一的全局最小点假设上
2). 三步搜索算法
(1) 选取最大搜索长度的一半为步长,在原点周围距离为步长的 8 个点处进行块匹配计算并比较。
(2) 将步长减半,中心点移到上一步的 MBD(Mininum Block Distortion, 最小块误差)点【当然也有说 SAD 点的】,重新在周围距离为步长的 8 个点处进行块匹配计算并比较。
(3) 在中心及周围 8 个点处找出 MBD 点,若步长为 1,该点所在位置即对应最优运动矢量,算法结束; 否则重复第(2)步。
共搜索 9 + 8 + 8 = 25 个点,计算量约为全搜索的 10%
第一步步长过大,容易陷入局部最优
3). 菱形搜索算法
DS 算法利用了实际视频序列中运动矢量存在的中心偏置的特点,基于搜索模板形状和大小的考虑,采用了两种搜索模板:
有 9 个搜索点的大菱形搜索模板(Large Diamond Search Pattern,LDSP)
和有 5 个搜索点的小菱形搜索模板(Small Diamond Search Pattern,SDSP)。
(1) 以搜索窗的中心点为中心,使用 LDSP 在中心点和周围 8 个点处进行搜索,经过匹配计算,如果最小 MBD 值点位于 LDSP 的中心点,则转(3);否则,转(2)。
(2) 以(1)中得到的最小 MBD 值对应的点为中心,开始一个新的 LDSP,如果最小 MBD 值点位于中心点,则转(3);否则,重复执行(2)。
(3) 以(1)中得到的最小 MBD 值对应的点为中心,使用 SDSP 在中心点和周围 4 个点处进行搜索,找出最小 MBD 对应的点,该点的位置即对应最优运动矢量。
由于实际所拍摄的视频都具有使景物运动趋于水平或垂直方向的运动状态,因此菱形搜索模式具有相当好的搜索效果。
3.基于网格的运动估计
(1) 建立网格。每个多边形单元内的点应具有相同的运动特性,这要求节点尽量多,但过多的节点会产生大量的运动信息,因此需要平衡这两点。
(2) 网格节点的运动估计。各算法估计节点运动矢量的先后顺序有所不同,有的按光栅扫描顺序估计每个节点的运动, 有的根据节点处图像梯度值进行排序估计,也有的将节点分组进行估计。
优点:
- 每一个运动区域内各点的运动矢量是由该区域的节点的运动矢量内插得到的。只要当前帧的节点仍构成一个可行的网格,基于网格的运动表示就保证是连续的,从而
不会有与基于块的表示相关联的块失真
。 - 它能够跟踪连续帧上相同的节点集,可很好地用于
物体跟踪
中。
缺点:
基于网格的运动估计的精度依赖于节点数,如果使用一个常规的网格,那么为了精确地近似运动场就需要大量的节点,因此基于网格的运动估计运算量较大。
4.基于区域的运动估计
暂略
第三章. 视频分割
1.边缘检测
镜头边界:
两个镜头发生转换的时候,连续帧之间相应位置像素点颜色或灰度差、颜色分布发生明显的改变。镜头边界是指视频镜头相邻帧的内容出现了某种变化的时间点(或视频序列中的某一帧),它通常表现了视频的不连续性。
关键帧:
关键帧是用于描述一个镜头的图像帧,它通常反映一个镜头的主要内容。依据镜头内容的复杂程度,可以从一个镜头中提取一个或多个关键帧。
基于像素灰度特征的镜头边缘检测
灰度视频第 k 和第 k+1 帧的帧间差 Z(k,k+1) 可表示为:
其中:
X、Y、Ik( x,y) 、Ik+ 1( x,y) 分别是图像的宽度、高度、第 k 帧中(x,y) 像素的灰度值、第 k+1 帧中( x,y) 像素的灰度值。
基于直方图特征的镜头边界检测
Hi(k) 是视频图像序列第 fi 帧中第 k 个灰度直方图的值,k 的范围为[0,K-1],其中 K 为最大灰度级数。
彩色图像灰度化一般有四种方式:
1、分量法
将彩色图像中的三分量的亮度作为三个灰度图像的灰度值
f1(i,j)=R(i,j),f2(i,j)=G(i,j),f3(i,j)=B(i,j)
2、最大值法
f(i,j)=max(R(i,j),G(i,j),B(i,j))
3、平均值法
f(i,j)=(R(i,j),G(i,j),B(i,j))/3
4、加权平均法
根据人眼敏感度对 RGB 三分量进行加权平均
f(i,j)=0.299R(i,j)+0.587G(i,j)+0.114*B(i,j)
性能评测
检出率、准确率 - 漏检率、错误率
2.关键帧提取
2.1.基于镜头边界的关键帧提取
2.2.基于图像信息的关键帧提取
2.3.帧平均法和直方图平均法
3.帧内空域分割——分水岭算法
优点:
鲁棒性较好,可分割得到较为一致的平滑区域;
缺点:
容易出现“过分割”现象,会出现较多的小区域。
4.帧间时域分割——帧间变化检测算法
时域分割的方法主要有变化检测、运动估计、光流法、对象跟踪等
变化检测把当前视频帧分割成相对于参考帧“变化的”和“未变化的”区域。
未变化的部分表示静止的背景,变化的部分代表运动和遮挡区域。
不足:
当运动物体内部具有大片一致性区域时,运动目标内部被检测为非运动区域,使目标内部出现空洞现象
;
运动速度较快时,在相邻两帧间的运动位移较大,导致差分图像中运动变化区域内被覆盖的背景区域较大,使运动目标边界不精确
;
易于受噪声影响,检测结果易出现孤立点。
时空域联合分割
时间分割提供了视频对象的大致范围,而通过空间分割得到视频对象的准确边界。
5.空域
5.1 阈值分割
迭代法
首先选择阈值 T=(fmax+fmin)/2,将图像分割成两个部分 R1 和 R2;
计算区域 R1 和 R2 的均值 u1 和 u2,再选择新的阈值 T=(u1+u2)/2,重复上面的过程,直到 u1 和 u2 不再变化为止。
直方图分析法
当图像直方图成双峰时,取波谷的灰度值为图像阈值 T,即可分割出较好的二值图像。
OTSU
OTSU 算法以某个灰度值为分界将图像分成两类,计算两类类间方差,选取使类间方差最大的灰度值作为最佳阈值
矩不变法
最大熵法
简单统计法
最小相互熵法
最小分离度法
5.2 基于纹理特征的分割
暂略
第四章.
第六章. 数字视频编码及标准
视频压缩编码的依据:
视频帧画面内部的信息有很强的相关性;
相邻画面之间有高度的相容性;
人眼的视觉特性有利于数据的压缩;
运动可以估测(Motion Estimation);
1.基本概念
1.1.信息冗余
1.2.压缩性能评价
压缩比:
Ls 为原图像的平均码长,LC 为压缩后图像的平均码长。
重现质量、压缩和解压缩的速度
2.压缩方法
2.1 霍夫曼
2.2 行程编码
烂尾了 要真能混个80+谢天谢地