离散余弦变换（DCT）编码《帧内数据压缩技术《图像压缩编码和解码原理《影碟机原理与维修（十七）--打印文章

离散余弦变换（DCT）编码《帧内数据压缩技术《图像压缩编码和解码原理《影碟机原理与维修（十七）来源于瑞达科技网

作者：佚名文章来源：本站添加点击数565 更新时间：2009/8/9 文章录入：瑞达责任编辑：瑞达

影碟机原理与维修（十七）图像压缩编码和解码原理-帧内数据压缩技术
       首先对整幅图像进行分割处理，经分割取得最小操作单元。下面按8×8=64个像素组成的区块来计论。每一个像素值都可以按一定规律取样，例如可对亮度各个像素的亮度值取样，若每个像素按8bit量化，则每个区块的总数据量为8bit×64（像素点），即512bit。可见，对全画面各像素量化处理后数据量十分庞大，需要进行数据压缩。通常，经过离散余弦变换，Z字型扫描，可变长度编码等处理过程，可将数据总量进行大量压缩。
1、离散余弦变换（DCT）编码
(1) 功能简述
        离散余弦变换简称为DCT（是英Discrete Cosine Transform的缩写词），是一种数字处理方法，经常用于数据处理。DCT是多种数字变换方法的一种，它是把空间域图像变换到频率域进行分析的方法。由于DCT的变换核构成的基向量与图像内容无关，而且变换核是可以分离的，既二维DCT可以用两次一维DCT来完成，使得数学运算难度大大简化，再配以已经发现的其它快速算法，使得DCT编码得到了广泛的应用。将DCT应用于图像数据压缩，可以减少代表图像亮度(或色度)层次数码信息，达到数据压缩的目的。利用DCT不仅可将图像编码，还可以在编码变换过程发现图像细节的位置，以便删去或略去对视觉不敏感的部分，而更加突出视觉的敏感部分，通过选择主要数据来传输、重视图像。
      利用DCT压缩图像数据，主要是根据图像信号在频率域的统计特性。在空间域看来，图像内容千差万别；但在频率域上，经过对大量图像的统计分析发现，图像经过DCT变换后，其频率系数的主要成分集中于比较小的范围，且主要位于低频部分。利用DCT变换揭示出这种规律后，可以再采取一些措施把频谱中能量较小的部分舍弃，尽量保留传输频谱中主要的频率分量，就能够达到图像数据压缩目的。
(2)规律和特点
①时间域信号的频谱
       对于一个随时间变化的波形来说，它是随时间变化的周期信号，它是以一定幅度值为波形的直流平均值，其波形可看成是基波与无数次谐波叠加而成。其基波振幅最大，然后各次谐波振幅逐渐减小。各次谐波叠加次数越高，则合成波形越接近于理想矩形波。此分析方法就是应用日益广泛的频谱分析方法。其中各次正弦波谐波的振幅值经常称为频谱系数，将频谱系数排列起来，可以组成一个系数列。上述事实说明，周期性矩形波可以由时间域 (反映幅度－时间关系)来描述，也可以由频率域(幅度－频率关系)来描述。两者有互相对应的关系。实际上，各种时间域信号都可以由频率域的规律来描述，两种描述方法存在内在的联系，可以互相转换。
②空间域信号的频谱系数
       对于各种空间域分布的信号，也可以进行类似的频率变换，即将空间域信号转变为频率域信号。DCT就是其中一种频率分析方法。可参阅图2.2.2来说明DCT变换过程。

      由图像内取出一个区块，分成8×8个像素的64格阵列，即由图(a)转变为图(b)。经过对逐个像素的亮度（或讨论色度）数值取样，并将像素的亮度数值列成矩阵形表格，见图（C）。然后利用离散余弦变换（DCT）可将各空间取样值转变为频率域的数值，这里称为DCT系数。
       对于上述64点阵列来说，可得到64个DCT系数，转换为图（d）矩形阵列表格。它已经将64个点的图像采样值组成的阵列，变为一个直流平均值和63个不同频率余弦波幅值组成的64个点阵列，并称为DCT系数阵列。经过上述变换后，已将空间坐标的数据转换为频率坐标的数据，即DCT频率系数。原有8×8区块的各个像素的数值取样量化后，转变为频率域图像信号的频谱系数，即可用64个频率系数来表述，称它们为64个“正交基信号”，每个基信号对应于64个独立二维空间频率中的一个。这些空间频率是由输入信号的“频谱”组成。所得64个变换系数当中，第一项代表直流分量，即64个空间图像采样值的平均值，其余63个系数代表各基信号的幅度。
      观察图2.3.2（d）数据可发现规律，矩阵左上角的数值较大，而右下角的数值较小，且趋近于零值。于是，可以按照Z字形扫描顺序，将各基信号的DCT系数列成一个表格。Z字形扫描的具体轨迹，如图2.3.2(e)所示。按照此规律将DCT系数排列成数据系列，成为DCT系数编码顺序。经过上述处理后，已将二维数据量转换为一维数据量，该数列第一项是该区块的平均亮度值，后面各项系数的分布和大小可以反映亮度起伏变化的剧烈程度。若系数较大，说明亮度起伏较大，该区域图像轮廓较细致；若数值较小，则说明该区内亮度变化较平缓；若数值为零，表示数列中高频分量数值为零，亮度电平无变化。在实际数据处理过程中，排在后面的系数值基本上都有是零值，或者趋于零值。由63个系数集合及变化情况，可反映出该区块内图像细节情况，即图像清晰度状况。
      图（d）矩阵数值非常具有实用价值。左上角数值较大，它们代表了图像信息的直流成分和低频分量，它是图像信息的主体部分，也是区块内信息的主要部分；而右下角数值较小，它们代表了图像信息的高频分量，其幅值原本就比较小，它主要反映图像的细节部分。人眼睛对图像的亮度信息有较高的相对灵敏度，对图像的彩色信息不够敏感；还有，人眼睛对图像信息的低频分量具有较高的视觉灵敏度。经Z字形字扫描后所形成的数据系列，恰好与人眼睛对图像信息的敏感程度形成良好的对应关系。根据视觉生理的上述规律，可对图像数据进行压缩。

打印本文

关闭窗口

非盈利网站，如有侵权，请来信来电告知，第一时间处理，谢谢！