数字多媒体处理系统(multimedia)相关概念整理

时间:2022-12-04 20:31:23


1、基本概念

数字媒体处理系统的四个基本概念:编解码器、数据帧、媒体流、容器;

容器:就是通常所说的文件(conainer/File):即特定格式的多媒体文件。

            很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta.这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。

媒体流(stream):指时间轴上的一段连续数据,如一段声音数据,一段视频数据或一段字幕数据,可以是压缩的,也可以是非压缩的,压缩的数据需要关联特定的编解码器;

数据帧、数据包(Frame/Packet):通常,一个媒体流由大量的数据帧组成,对于压缩数据,帧对应着编解码器的最小处理单元。通常,不同媒体流格式的数据帧交错复用于容器中;

编解码器(codec,coder-decoder的缩写):以帧为单位实现压缩数据和原始数据之间的相互转换。对于音频来讲就是A/D和D/A之间的相互转换,比如将PCM数据编码成G726数据,可以减少带宽;

2、相关术语

音视频文件格式:

音频格式:AAC、CDA、MP3、MP2、WAV、WMA、RA、RM、OGG、AMR、AC3、FLAC等;

视频格式:RM、RMVB、3GP、AVI、MPEG、MPG、MKV、DAT、ASF、WMV、FLV、MOV、MP4、OGG、OGM、REAL VIDEO、WebM等;

(编码器:Divx, Xvid, MSMPEG4, ASP, H264, AVC...)

字幕:SRT,SSA, ASS, SAMI...

2.1 基础知识

2.1.1常见的视频编码

MicrosoftRLEMicrosoft Video 1Microsoft H.261和H.263 Video CodecIntelIndeo Video R3.2Intel Indeo Video 4和5IntelIYUV CodecMicrosoft

MPEG-4 Video codecDivX-MPEG-4 Low-Motion/Fast-MotionDivX 3.11/4.12/5.0 

2.1.2 muxer

将视频文件、音频文件和字幕文件等合并成一个多媒体文件;例如:a.avi, a.mp3, a.srt用muxer合并成一个mkv格式的多媒体文件;

2.1.3 demuxer

 parser(文件格式解析),是拆分多媒体文件,将media文件解析出audio\video信息;

数字多媒体处理系统(multimedia)相关概念整理

根据文件格式来决定用哪个parser,比如上面的mediainfo, General Format/info:Hack of AVI,说明用的是aviParser

Parser是将Media文件解析出AudioVideo信息。

2.1.4 视频输出格式

RGB、YUV

2.1.5 trackType 

这个track是audio还是video;每个track下面有具体的audio或者video信息,比如:audiotype, BitsPersample,BlockAlign, channel, Duration, SamplingRate, bitrate等;

thumbnail:美工术语,是指美工用来具体表现布局方式的大致效果图;

2.1.6 声道(Channel)

        是指声音在录制或者播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量;

        通过对声像定位原理的逆向运用,人民发明了最早的也是最简单的双声道立体声系统,即在录制声音时,在不同的位置用两个话筒进行录音,而在重放时则使用两路独立的放大器和两个扬声器,从而使听者可以较准确地判断出录音中不同音源的准确位置;

2.1.7 网络帧

        在网络中,计算机通信传输的是由“0”和“1”构成的二进制数据,二进制数据组成成“帧”(frame),帧是网络传输的最小单位。

        在网络中,网络设备将“位”组成一个个的字节,然后这些字节“封装”成帧,在网络上传输,以太网的帧值总是在一定范围内浮动,最大的帧值是1518字节,最小的帧值是64字节。

2.1.8 视频帧

    一帧就是一副静止的画面,连续的帧形成动画;

    通常所说的帧数,就是1秒钟时间内传输的画面的帧数;也可以理解为图形处理器每秒能够刷新的次数,通常用fps(FramesPer Second)表示,每一帧都是静止的图像,快速连续地显示便形成了运动的假象;

    关键帧,相当于二维动画中的原图,指角色或物体运动或变化中的关键动作所处的那一帧。关键帧与关键帧之间的动画可以用软件来创建;

2.1.9 时间戳

        单位:ms;

2.1.9 码流

Data Rate,视频文件在单位时间内使用的数据流量,也叫码率;

2.1.10 采样率

        采样率定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫做采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate, 亦称“位速率”)相混淆。

       采样定理表明采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特频率必须大于被采样信号的带宽。如果信号的带宽是100Hz,那么为了避免混叠现象采样频率必须大于200Hz。换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。

       

对于语音采样:

  • 8,000 Hz - 电话所用采样率, 对于人的说话已经足够
  • 11,025 Hz
  • 22,050 Hz - 无线电广播所用采样率
  • 32,000 Hz - miniDV 数码视频 camcorderDAT (LP mode)所用采样率
  • 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率
  • 47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率
  • 48,000 Hz - miniDV、数字电视、DVDDAT、电影和专业音频所用的数字声音所用采样率
  • 50,000 Hz - 二十世纪七十年代后期出现的 3M Soundstream 开发的第一款商用数字录音机所用采样率
  • 50,400 Hz - 三菱 X-80 数字录音机所用所用采样率
  • 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、Blu-ray Disc(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率
  • 2.8224 MHz - SACD 索尼 飞利浦 联合开发的称为 Direct Stream Digital 1 sigma-delta modulation 过程所用采样率。

在模拟视频中,采样率定义为帧频和场频,而不是概念上的像素时钟。图像采样频率是传感器积分周期的循环速度。由于积分周期远远小于重复所需时间,采样频率可能与采样时间的倒数不同。

  • 50 Hz - PAL 视频
  • 60 / 1.001 Hz - NTSC 视频

当模拟视频转换为数字视频的时候,出现另外一种不同的采样过程,这次是使用像素频率。一些常见的像素采样率有:

  • 13.5 MHz - CCIR 601D1 video

2.1.11 分辨率

         分辨率,泛指量测或显示系统对细节的分辨能力。此概念可以用时间、空间等领域的量测。日常用语中之分辨率多用于图像的清晰度。分辨率越高代表图像品质越好,越能表现出更多的细节。但相对的,因为纪录的信息越多,文件也就会越大。目前个人电脑里的图像,可以使用图像 处理软件,调整图像的大小、编修照片等。例如 photoshop,或是photoimpact等软件。

2.1.12 图像分辨率

用以描述图像细节分辨能力,同样适用于数字图像、胶卷图像、及其他类型图像。常用'线每毫米' '线每英吋'等来衡量。通常,“分辨率”被表示成每一个方向上的像素数量,比如640x480等。而在某些情况下,它也可以同时表示成“每英吋像素” pixels per inchppi)以及图形的长度和宽度。比如72ppi,和8x6英吋。

2.1.13视频分辨率 

各种电视规格分辨率比较视 频的画面大小称为“分辨率”。数位视频以像素为度量单位,而类比视频以水平扫瞄线数量为度量单位。标清电视频号分辨率为 720/704/640x480i60NTSC)或768/720x576i50PAL/SECAM)。新的高清电视(HDTV)分辨率可达1920x1080p60,即每条水平扫瞄线有1920个像素,每个画面有1080条扫瞄线,以每秒钟60张画面的速度播放。

2.1.14 画面更新率fps

Frame rate中文常译为“画面更新率”或“帧率”,是指视频格式每秒钟播放的静态画面数量。典型的画面更新率由早期的每秒68张(frame persecond,简称fps),至现今的每秒120张不等。PAL (欧洲,亚洲,澳洲等地的电视广播格式) SECAM (法国,俄国,部分非洲等地的电视广播格式) 规定其更新率为25fps,而NTSC (美国,加拿大,日本等地的电视广播格式) 则规定其更新率为29.97 fps。电影胶卷则是以稍慢的24fps在拍摄,这使得各国电视广播在播映电影时需要一些复杂的转换手续(参考Telecine转换)。要达成最基本的视觉暂留效果大约需要10fps的速度。

压缩方法

有损压缩和无损压缩

在视频压缩中有损(Lossy )和无损(Lossless)的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损 压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压 缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。

  • 无损格式,例如WAVPCMTTAFLACAUAPETAKWavPack(WV)
  • 有损格式,例如MP3Windows Media AudioWMA),Ogg VorbisOGG),AAC

帧内压缩和帧间压缩

帧内(Intraframe)压缩也称为空间压缩 Spatialcompression)。当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。

采用帧间(Interframe)压缩是基于许多视频或 动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。

对称编码和不对称编码

对称性(symmetric)是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间 要多得多。例如,压缩一段三分钟的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有三分钟。

wiki外的资料来源:http://tech.lmtw.com/csyy/Using/200411/3142.html

 

 



未完待续;

        

附:

主流codec介绍

1. x264

X264是国际标准H.264编码器实现,是一个开源encoder。得益于H.264的高效压缩性能,加之于x264的高效(编码速度快)实现,

参评版本:x264 video codec revision 613

2. DivX

MPEG4标准,在MSMPEGV3的基础上实现的MPEG4 codec,早期版本开源,后期版本是商业codec

参评版本:version 6.40

3. XviD

MPEG4标准,基于DivX早期开源版本。广泛应用于DVDrip

参评版本:version 1.1.2

4. WMV9/VC-1

VC-1的由来:为了进军全球的消费电子、电影及电视广播市场,微软向美国电影与电视工程师协会“捐赠”了其专有的WMV9(Windows MediaVideo 9)视频编码标准,WMV9摇身一变成了国际标准VC-1。

参评版本:Windows Media video 9

5. Real

注:Realversion 9.0开始启用了新名称Helix

参评版本:Helix_Producer_Plus_9.0.1

6. quicktime

大多是quicktime格式的。Quicktime只是容器格式,其后缀为.mov.qt,而其采用的视频codec是sorenson codec pro 3,也就是说网上流行的高清片花大多是sorenson codec pro 3压缩的。

注:quicktime7中增加了自主开发的H.264编码器。

参评版本:Sorenson Squeeze Compression Suite 4.0.301.11 +QuickTime v7.0.4

7. On2 VP6/7

06年极为火爆的视频分享网站基本上采用了flash version 8的视频解决方案,而flashversion 8采用的就是On2 VP6的视频codec。

注:早期的flash视频采用 Sorenson 公司的 Spark编码器音频采用MP3,质量比较差。

参评版本:On2 VP6 codec

8. AVS

视频编码标准,我们国人自然要坚决地顶它了,希望AVS一路辉煌,恩泽于民。

参评版本:校验模型rm52c