视频技术概念扫盲初步

本文就视频技术做一个初步的扫盲(主要是针对我本人,不是针对在座的各位),基本就是资料的搜集和摘要,目的是知道一些常见的概念大概是怎么一回事,包括PPI、分辨率、比特率和视频音频压缩的一些常见术语。
(本来题目叫做《视频技术概念扫盲》的,但是一轮下来,发现水深得很,还是加上『初步』比较好,毕竟还有很多盲点没扫到。)

1 一般概念

1.1 PPI

  • 每英寸像素(Pixels Per Inch,PPI),又被称为像素密度(Pixel Density),是一个表示打印图像或显示器单位面积上像素数量的指数。一般用来计量电脑显示器,电视机和手持电子设备屏幕的精细程度。通常情况下,每英寸像素值越高,屏幕能显示的图像也越精细。
  • 计算公式如下:
    $$
    PPI=\frac {d_p}{d_i}=\frac {\sqrt{w^2_p+h^2_p}}{d_i}
    $$
    其中,
    • $d_p$为屏幕对角线的分辨率
    • $w_p$为屏幕横向分辨率
    • $h_p$为屏幕纵向分辨率
    • $d_i$为屏幕对角线长度(单位为英寸)
  • 参见 https://zh.wikipedia.org/wiki/%E6%AF%8F%E8%8B%B1%E5%AF%B8%E5%83%8F%E7%B4%A0

以下是一个简陋的计算程序







1.2 分辨率

1.2.1 图形显示分辨率(Graphics display resolution)

https://en.wikipedia.org/wiki/Graphics_display_resolution

The graphics display resolution is the width and height dimension of an electronic visual display device, such as a computer monitor, in pixels.

高清标准定义如下:

Name x (px) y (px) x:y x×y (Mpx)
nHD 640 360 16:9 0.230
qHD 960 540 16:9 0.518
HD 1280 720 16:9 0.922
HD+ 1600 900 16:9 1.440
FHD 1920 1080 16:9 2.074
(W)QHD 2560 1440 16:9 3.686
QHD+ 3200 1800 16:9 5.760
4K UHD 3840 2160 16:9 8.294
5K UHD+ 5120 2880 16:9 14.746
8K UHD 7680 4320 16:9 33.178

1.2.2 图像分辨率(Image resolution)

https://en.wikipedia.org/wiki/Image_resolution
https://zh.wikipedia.org/wiki/%E5%88%86%E8%BE%A8%E7%8E%87

也叫解析度

  • 定义
    图像分辨率是图像所具有的细节。该术语适用于光栅数字图像,电影图像和其他类型的图像。分辨率越高意味着更多图像细节。
  • 描述图像分辨率的角度有:
    • 像素分辨率
      • 电子图像的像素点数量,一般用长宽描述,例如1000 × 1500
    • 空间分辨率
      • 空间分辨率是指遥感影像上能够识别的两个相邻地物的最小距离
    • etc
  • 单位
    • 描述分辨率的单位有:dpi(点每英寸)、lpi(线每英寸)和ppi(每英寸像素)。但只有lpi是描述光学分辨率的尺度的。虽然dpi和ppi也属于分辨率范畴内的单位,但是他们的含义与lpi不同。而且lpi与dpi无法换算,只能凭经验估算。
    • 另外,ppi和dpi经常都会出现混用现象。但是他们所用的领域也存在区别。从技术角度说,“像素”只存在于电脑显示领域,而“点”只出现于打印或印刷领域。

数字媒体分辨率:

  • 500×480 : Digital8
  • 720×480 : D-VHS, DVD, miniDV, Digital Betacam (NTSC)
  • 720×480 : Widescreen DVD (anamorphic) (NTSC)
  • 720×576 : D-VHS, DVD, miniDV, Digital8, Digital Betacam (PAL/SECAM)
  • 720×576 : Widescreen DVD (anamorphic) (PAL/SECAM)
  • 1280×720 : D-VHS, HD DVD, Blu-ray, HDV (miniDV)
  • 1440×1080 : HDV (miniDV)
  • 1920×1080 : HDV (miniDV), AVCHD, HD DVD, Blu-ray, HDCAM SR
  • 1998×1080 : 2K Flat (1.85:1)
  • 2048×1080 : 2K Digital Cinema
  • 3840×2160 : 4K UHDTV
  • 4096×2160 : 4K Digital Cinema
  • 7680×4320 : 8K UHDTV
  • 15360×8640 : 16K Digital Cinema
  • 61440×34560 : 64K Digital Cinema
  • Sequences from newer films are scanned at 2,000, 4,000, or even 8,000 columns, called 2K, 4K, and 8K, for quality visual-effects editing on computers.
  • IMAX, including IMAX HD and OMNIMAX: approximately 10,000×7,000 (7,000 lines) resolution. It is about 70 Mpix, which is currently highest-resolution single-sensor digital cinema camera (as of January 2012).[citation needed]

另外还有以下模式:

标准 分辨率 长宽比
1080p HD Widescreen 1920×1080 16:9
1080p SD 1440×1080 4:3
Rec. 601 1620×1080 3:2
FullHD+ 2160×1080 18:9

1.2.3 其他

  • 位分辨率(BitResolution)
    • 又称位深,是用来衡量每个像素储存信息的位数。这种分辨率决定可以标记为多少种色彩等级的可能性。一般常见的有8位、16位、24位或32位色彩。有时我们也将位分辨率称为颜色深度。所谓“位”,实际上是指“2”的平方次数,8位即是2的八次方,也就是8个2相乘,等于256。所以,一幅8位色彩深度的图象,所能表现的色彩等级是256级。
    • http://vod.sjtu.edu.cn/help/Article_Show.asp?ArticleID=308
  • 比较全面的分辨率列表见 https://en.wikipedia.org/wiki/List_of_common_resolutions

1.3 BtiRate

https://zh.wikipedia.org/wiki/%E6%AF%94%E7%89%B9%E7%8E%87

在电信和计算领域,比特率(英语:Bit rate,变量R)是单位时间内传输送或处理的比特的数量。比特率经常在电信领域用作连接速度、传输速度、信息传输速率和数字带宽容量的同义词。

在数字多媒体领域,比特率是单位时间播放连续的媒体如压缩后的音频或视频的比特数量。在这个意义上讲,它相当于术语数字带宽消耗量,或吞吐量。

比特率规定使用“比特每秒”(bit/s或bps)为单位,经常和国际单位制词头关联在一起,如“千”(kbit/s或kbps),“兆”(百万)(Mbit/s或Mbps),“吉”(Gbit/s或Gbps)和“太”(Tbit/s或Tbps)。

正式的“比特每秒”的缩写是“bit/s”(不是“bits/s”)。在一些非正式文章,经常使用“b/s”或“bps”缩写。在更不正式的地方,通常省略了“每秒”,简单地应用为“一个128千比特音频流”或“一个100兆比特网络”。


多媒体行业在指音频或者视频在单位时间内的数据传输率时通常使用码流码率,单位是kbps(千位每秒)。

在数字多媒体领域,比特率代表了信息的数量,更详细地说,存储了一个记录的每单位时间。比特率和以下几个因素相关:

  • 原始物质也许取样在不同的频率里
  • 取样可能使用了不同数量的比特
  • 数据可能按照不同的方式编码
  • 信息可能用不同的算法或不同的程度进行数字压缩

通常,以上因素的选择的目的是在比特率的最小化和播放介质时最优化之间达到理想的平衡。

Understanding Bitrate, Resolution and Quality - Ooyala Community 解释了比特率与视频质量之间的关系:

每秒像素数 = 宽 x 高 x 每秒帧数

每像素比特数(bpp) = 视频比特率 / 每秒像素数

  • bpp在0.1左右的质量就很高了,再高的bpp不会产生可见的显著提升
  • bpp在0.03左右的质量算很低,低比特率的通常都没法看

找个例子算一下:

68,692,876字节,也就是549,543,008比特,这个视频时长为7分06秒,也就是426秒,帧率为25fps(上图没有这一项信息),那么
$$
BitRate=\frac{TotalBtis}{TotalSeconds}=\frac{549543008 bits}{426 s}=1290007 bps
$$

$$
PiexlsPerSecond=Width \times Height \times FramesPerSecond=1280 \times 720 \times 25=23040000 pps
$$

$$
BitsPerPixel=\frac{BitRate}{PiexlsPerSecond}=\frac{1290007 bps}{23040000 pps}=0.05599 bpp
$$

可以看到,落在了$[0.03, 0.1]$区间内,根据我本人的肉眼感受,这视频的质量也可以,也就是平时常见的720p的感觉。

如果要实时在线播放这个视频,除去控制需要的其他额外信息,每秒需要传输1290007 bits,也就是1259kb,也就是1.2Mb,因为运营商提供的宽带套餐只有1Mbps、2Mbps和更高的,所以下行带宽至少需要2M。

1.4 容器格式/视频文件格式

https://zh.wikipedia.org/wiki/%E8%A7%86%E9%A2%91%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F#%E5%AE%B9%E5%99%A8%E6%A0%BC%E5%BC%8F

视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。

视频档 简介 扩展名
Flash Video 由Adobe Flash延伸出来的的一种流行网络视频封装格式。随着视频网站的丰富,这个格式已经非常普及。 flv
AVI(Audio Video Interleave) 比较早的AVI是微软开发的。其含义是Audio Video Interactive,就是把视频和音频编码混合在一起存储。AVI也是最长寿的格式,已经存在10余年了,虽然发布过改版(V2.0于1996年发布),但已显老态。AVI格式上限制比较多,只能有一个视频轨道和一个音频轨道(现在有非标准插件可加入最多两个音频轨道),还可以有一些附加轨道,如文字等。AVI格式不提供任何控制功能。 avi
WMV(Windows Media Video) 同样是微软开发的一组数字视频编解码格式的通称,ASF(Advanced Systems Format)是其封装格式。ASF封装的WMV档具有“数字版权保护”功能。 wmv/asf wmvhd
MPEG(Moving Picture Experts Group) 是一个国际标准化组织(ISO)认可的媒体封装形式,受到大部分机器的支持。其存储方式多样,可以适应不同的应用环境。MPEG-4档的档容器格式在Part 1(mux)、14(asp)、15(avc)等中规定。MPEG的控制功能丰富,可以有多个视频(即角度)、音轨、字幕(位图字幕)等等。MPEG的一个简化版本3GP还广泛的用于准3G手机上。 dat(VCD) vob(DVD) mpg/mpeg mp4 3gp/3g2(手机)
Matroska 是一种新的多媒体封装格式,这个封装格式可把多种不同编码的视频及16条或以上不同格式的音频和语言不同的字幕封装到一个Matroska Media档内。它也是其中一种开放源代码的多媒体封装格式。Matroska同时还可以提供非常好的交互功能,而且比MPEG更方便、强大。 mkv
Real Video / Real Media(RM) 是由RealNetworks开发的一种档容器。它通常只能容纳Real Video和Real Audio编码的媒体。该档带有一定的交互功能,允许编写脚本以控制播放。RM,尤其是可变比特率的RMVB格式,没有复杂的Profile/Level,制作起来较H.264视频格式简单,非常受到网络上传者的欢迎。此外很多人仍有RMVB体积小高质量的错误认知,这个不太正确的观念也导致很多人倾向使用rmvb,事实上在相同码率下,rmvb编码和H.264这个高度压缩的视频编码相比,体积会较大。 rm/rmvb
QuickTime File Format 是由苹果公司开发的容器。1998年2月11日,国际标准组织(ISO)认可QuickTime文件格式作为MPEG-4标准的基础。QT可存储的内容相当丰富,除了视频、音频以外还可支持图片、文字(文本字幕)等。 mov qt
Ogg Media是一个完全开放性的多媒体系统项目,OGM(Ogg Media File)是其容器格式。OGM可以支持多视频、音频、字幕(文本字幕)等多种轨道。 ogg/ogv/oga
MOD 格式是JVC生产的硬盘摄录机所采用的单元格式名称。 mod

1.5 Ogg

https://zh.wikipedia.org/wiki/Ogg

Ogg是一个自由且开放标准的多媒体文件格式,由Xiph.Org基金会所维护。Ogg格式并不受到软件专利的限制,并设计用于有效率地流媒体和处理高品质的数字多媒体。

“Ogg”意指一种文件格式,可以纳入各式各样自由和开放源代码的编解码器,包含音效、视频、文字(像字幕)与元数据的处理。

在Ogg的多媒体框架下,Theora提供有损的视频层面,而通常用音乐导向的Vorbis编解码器作为音效层面。针对语音设计的压缩编解码器Speex和无损的音效压缩编解码器FLAC与OggPCM也可能作为音效层面使用。

“Ogg”这个词汇通常意指Ogg Vorbis此一音频文件格式,也就是将Vorbis编码的音效包含在Ogg的容器中所成的格式。在以往,.ogg此一扩展名曾经被用在任何Ogg支持格式下的内容;但在2007年,Xiph.Org基金会为了向后兼容的考量,提出请求,将.ogg只留给Vorbis格式来使用。Xiph.Org基金会决定创造一些新的扩展名和媒体格式来描述不同类型的内容, 像是只包含音效所用的.oga、 包含或不含声音的视频(涵盖Theora)所用的.ogv, 和可以包含任何比特流的.ogx。

2 声音编码

https://en.wikipedia.org/wiki/Audio_coding_format

An audio coding format (or sometimes audio compression format) is a content representation format for storage or transmission of digital audio (such as in digital television, digital radio and in audio and video files). Examples of audio coding formats include MP3, AAC, Vorbis, FLAC, and Opus. A specific software or hardware implementation capable of audio compression and decompression to/from a specific audio coding format is called an audio codec(音频编解码器)

2.1 AAC

https://zh.wikipedia.org/wiki/%E9%80%B2%E9%9A%8E%E9%9F%B3%E8%A8%8A%E7%B7%A8%E7%A2%BC

高级音频编码(Advanced Audio Coding,AAC),基于MPEG-2的有损声音编码技术

  • 格式类型
    • 有损数据压缩
  • 扩展名:
    • .aac
    • .mp4
    • .m4a
    • .m4b
    • .m4p
    • .m4v
    • .3gp
    • .m4r

2.2 Ogg Vorbis

https://zh.wikipedia.org/wiki/Vorbis

Vorbis是一种有损音频压缩格式,由Xiph.Org基金会所领导并开放源代码的一个免费的开源软件项目。该项目为有损音频压缩产生音频编码格式和软件引用编码器/解码器( 编解码器 )。Vorbis通常以Ogg作为容器格式,所以常合称为Ogg Vorbis。

技术特点

  • 32 kb/秒(-q-2)到500 kb/秒(-q10)的比特率。
  • 采样率从8 kHz(窄带)到192 kHz(超频)。
  • 支持采样精度 16bit\20bit\24bit\32bit。
  • 采用可变比特率(VBR),动态调整比特率达到最佳的编码效果。
  • 支持单声道、立体声、四声道和5.1环绕声道;支持多达255个音轨(多数据流的帧)。
  • 可动态调节比特率,音频带宽和帧大小。
  • Vorbis使用了一种灵活的格式,能够在文件格式已经固定下来后还能对音质进行明显的调节和新算法调校。
  • 可以封装在多种媒体容器格式中,如Ogg( .oga)、Matroska( .mka)、WebM( .webm)等。

3 视频压缩/编码

https://en.wikipedia.org/wiki/Video_coding_format

A video coding format (or sometimes video compression format) is a content representation format for storage or transmission of digital video content (such as in a data file or bitstream). Examples of video coding formats include MPEG-2 Part 2, MPEG-4 Part 2, H.264 (MPEG-4 Part 10), HEVC, Theora, RealVideo RV40, VP9, and AV1. A specific software or hardware implementation capable of video compression and/or decompression to/from a specific video coding format is called a video codec(视频编解码器);

Video content encoded using a particular video coding format is normally bundled with an audio stream (encoded using an audio coding format) inside a multimedia container format such as AVI, MP4, FLV, RealMedia, or Matroska. As such, the user normally doesn’t have a H.264 file, but instead has a .mp4 video file, which is an MP4 container containing H.264-encoded video, normally alongside AAC-encoded audio.

3.1 Theora

https://zh.wikipedia.org/wiki/Theora

Theora是一个免权利金、开放格式的有损视频压缩技术,由Xiph.Org基金会开发,该基金会还开发了著名的声音编码技术Vorbis,以及多媒体容器文件格式Ogg。libtheora则是Xiph.Org基金会针对Theora格式的实现。[5][6]

Theora是由On2 Technologies公司专属的VP3编码器,经过开放源代码后派生而来,目标是达成比MPEG-4 Part 2更好的编码效率。

浏览器原生支持

  • Mozilla Firefox在3.5之后的版本包括了Firefox Mobile(Fennec)。
  • Google Chrome在3.0.182.2之后的版本 including Chromium as of 14 July 2009.。
  • SeaMonkey在2.0之后的版本。
  • Konqueror在4.4.2之后的版本。
  • Opera在10.50之后的版本,在Opera 9.5的实验版本中也有支持。

3.2 H.264/MPEG-4 AVC

https://zh.wikipedia.org/wiki/H.264/MPEG-4_AVC

H.264,又称为MPEG-4第10部分,高级视频编码(英语:MPEG-4 Part 10, Advanced Video Coding,缩写为MPEG-4 AVC)是一种面向块,基于运动补偿的视频编码标准 。到2014年,它已经成为高精度视频录制、压缩和发布的最常用格式之一。第一版标准的最终草案于2003年5月完成。

H.264因其是蓝光盘的其中一种编解码标准而著名,所有蓝光盘播放器都必须能解码H.264。它也被广泛用于网络流媒体数据如Vimeo、YouTube、以及iTunes Store,网络软件如Adobe Flash Player和Microsoft Silverlight,以及各种高清晰度电视陆地广播(ATSC,ISDB-T,DVB-T或DVB-T2),线缆(DVB-C)以及卫星(DVB-S和DVB-S2)。

Reference

-