近十年來(lái),視頻編解碼技術(shù)不斷的進(jìn)步,依 McCann 定律所指的規(guī)律,壓縮率平均每年會(huì)以 15%的速率增加,尤其近年的發(fā)展更是迅速,并引起業(yè)界及其相關(guān)行業(yè)的廣泛重視。本文主要介紹在進(jìn)入二十一世紀(jì)前后,視頻編解碼標(biāo)準(zhǔn)方面已經(jīng)取得的成績(jī),目前讓各界震驚的新視頻編解碼技術(shù)與標(biāo)準(zhǔn),以及預(yù)估未來(lái)壓縮技術(shù)可能的發(fā)展趨勢(shì),供讀者參考。
文/董春利
在互聯(lián)網(wǎng)日新月異發(fā)展的今天,異質(zhì)網(wǎng)絡(luò)日益進(jìn)入和影響人們的日常生活和工作,影音多媒體等相關(guān)產(chǎn)業(yè)受到各界重視,尤其是像手機(jī)及數(shù)字相機(jī)等的手持式裝置加入了影音功能之后又進(jìn)入網(wǎng)絡(luò)的互聯(lián),更加促使人們研究如何將影音的壓縮與傳輸做到更快更好。
2007年全球彩色手機(jī)占全部手機(jī)市場(chǎng)份額的92.3%,其中內(nèi)建相機(jī)模塊的約占71.5%。預(yù)估2008年彩色手機(jī)將占98.1%,其中內(nèi)建相機(jī)模塊將占88.7%。這個(gè)趨勢(shì)說(shuō)明了影音多媒體應(yīng)用已成為手機(jī)服務(wù)的主流。為了促進(jìn)消費(fèi)者能夠使用更多高質(zhì)量之影音應(yīng)用服務(wù),無(wú)論是手機(jī)大廠或是電信業(yè)者都希望隨著第三代手機(jī)的來(lái)臨,能夠進(jìn)一步提供消費(fèi)者高質(zhì)量的影音服務(wù)。
因此,如何能夠?qū)?shù)字影音信號(hào)有效地壓縮并傳送,是設(shè)計(jì)影音多媒體相關(guān)產(chǎn)品所需重視的問(wèn)題。我們知道影音數(shù)據(jù)量非常龐大,例如,以大約320×240大小的分辨率,24位/像素,每秒30幀的形式傳輸時(shí),其數(shù)據(jù)量高達(dá) 56 M bit/s。而以這個(gè)速率保存的1分鐘未壓縮影像將占用 3.3G bit的儲(chǔ)存空間,顯然這樣的要求即便對(duì)千兆網(wǎng)的帶寬也是難以接受的。
對(duì)于現(xiàn)有的無(wú)線網(wǎng)絡(luò)和窄帶頻寬來(lái)說(shuō)更是難以接受。尤其運(yùn)用在手機(jī)、可視電話等上,頻寬仍過(guò)于狹窄,接收質(zhì)量不佳,所以想要在手機(jī)上傳輸高畫(huà)質(zhì)視頻,需要有更好的壓縮技術(shù)。
成熟的視頻編解碼技術(shù)標(biāo)準(zhǔn)
MPEG系列視頻編解碼技術(shù)標(biāo)準(zhǔn)
MPEG的全稱是“Motion Picture Expert Group”(運(yùn)動(dòng)圖像專家組),隸屬于國(guó)際標(biāo)準(zhǔn)化組織ISO/IEC的一個(gè)專家工作組,主要負(fù)責(zé)為數(shù)字音視頻編碼算法開(kāi)發(fā)和制定標(biāo)準(zhǔn)。
該組織始建于1988年,并于1992年制定出MPEG-1標(biāo)準(zhǔn),它是將視頻數(shù)據(jù)壓縮成1-2Mb/s的標(biāo)準(zhǔn)數(shù)據(jù)流,工業(yè)產(chǎn)品VCD機(jī)和MP3播放器都是以該標(biāo)準(zhǔn)為基礎(chǔ)衍生出來(lái)的。
隨后的1994年,制定出MPEG-2標(biāo)準(zhǔn),它是為了獲得更高的分辨率(720×486),提供廣播級(jí)視頻和CD品質(zhì)的音頻而產(chǎn)生的高質(zhì)量音視頻編碼標(biāo)準(zhǔn),傳輸速率在3-10Mbit/s之間,它也是數(shù)字電視、DVB和DVD所遵循的壓縮標(biāo)準(zhǔn)。
隨著研究工作的深入發(fā)展,又公布了“超低比特率活動(dòng)圖像和語(yǔ)音壓縮標(biāo)準(zhǔn)”,排序MPEG-4,它是一種新型的多媒體標(biāo)準(zhǔn),與前標(biāo)準(zhǔn)一個(gè)重要區(qū)別就在于它是一個(gè)基于對(duì)象的視頻編碼壓縮標(biāo)準(zhǔn),它所定義的碼率控制的目標(biāo)就是獲得在給定碼率下的最優(yōu)質(zhì)量,它為互聯(lián)網(wǎng)上傳輸高質(zhì)量的多媒體視頻提供了很好的技術(shù)平臺(tái)。
MPEG-1視頻編解碼技術(shù)標(biāo)準(zhǔn)
MPEG-1為數(shù)字存儲(chǔ)媒體的視頻和伴音編碼(Coding of moving pictures and associated audio for digital storage media)。它是低分辨率的數(shù)字視頻編碼標(biāo)準(zhǔn),1992年11月成為國(guó)際標(biāo)準(zhǔn)ISO/IEC 11172。標(biāo)準(zhǔn)名稱為“信息技術(shù)—用于數(shù)據(jù)速率約1.5Mbit/s的數(shù)字存儲(chǔ)媒體的視頻和伴音編碼”。
MPEG-1廣泛的應(yīng)用在VCD的制作和一些視頻片段下載的網(wǎng)絡(luò)應(yīng)用上面,可以說(shuō)99%的VCD都是用MPEG1格式壓縮的。MPEG-1的像質(zhì)等同于VHS,存儲(chǔ)媒體為CD-ROM,圖像尺寸為320×240,音質(zhì)等同于CD。壓縮后的輸出速率定義在1.5 Mbit/s以下。這個(gè)標(biāo)準(zhǔn)主要是針對(duì)當(dāng)時(shí)具有這種數(shù)據(jù)傳輸率的CD-ROM和網(wǎng)絡(luò)而開(kāi)發(fā)的,用于在CD-ROM上存儲(chǔ)數(shù)字影視(即VCD)和在網(wǎng)絡(luò)上傳輸數(shù)字影視。
MPEG-2視頻編解碼技術(shù)標(biāo)準(zhǔn)
MPEG-2為運(yùn)動(dòng)圖像和伴音信息的通用編碼(Generic coding of moving pictures and associated audio information ),為高分辨率數(shù)字視頻編碼標(biāo)準(zhǔn),1994年11月成為國(guó)際標(biāo)準(zhǔn)ISO/IEC 13818。
MPEG-2主要應(yīng)用在 DVD 的制作(壓縮)方面,同時(shí)在一些 HDTV(高清晰電視廣播)和一些高要求視頻編輯、處理上面也有相當(dāng)多的應(yīng)用。
MPEG-2與MPEG-1的區(qū)別在于:
·除了對(duì)幀(frame)進(jìn)行搜索,還對(duì)場(chǎng)(field)進(jìn)行搜索;
·色度格式還可為4:2:2、4:4:4;
·幀尺寸最大可為16383×16383;
·可分級(jí)(Scalable):時(shí)域(Temporal)等等;
·非線性MB量化因子。
此間,MPEG組曾經(jīng)起草過(guò)MPEG-3,原本針對(duì)于HDTV(1920×1080),后來(lái)被MPEG-2代替。
MPEG-4視頻編解碼技術(shù)標(biāo)準(zhǔn)
MPEG-1主要是為VCD設(shè)計(jì)的,MPEG-2最初是為HDTV設(shè)計(jì)的,后來(lái)也用于DVD。但是它們都不太適合于網(wǎng)絡(luò)傳輸,特別是在低碼率和異構(gòu)網(wǎng)絡(luò)環(huán)境下的音視頻信號(hào)通信。MPEG-4的目標(biāo)就是為視聽(tīng)(audio-visual)數(shù)據(jù)的編碼和交互播放開(kāi)發(fā)算法和工具,最初是一個(gè)數(shù)據(jù)速率很低的多媒體通信標(biāo)準(zhǔn),后來(lái)的目標(biāo)是要在異構(gòu)網(wǎng)絡(luò)環(huán)境下能夠高度可靠地工作(傳輸?shù)拇a率可變、圖像的分辨率可變、畫(huà)面的內(nèi)容可選),并且具有很強(qiáng)的交互功能。
為了達(dá)到低碼率的目標(biāo),必須大幅度提高視頻數(shù)據(jù)的壓縮比,而MPEG-1/2所采用的基于像象素的的壓縮方法,在壓縮40到50倍后就幾乎達(dá)到算法的極限,必須另辟蹊徑。
為此,MPEG-4引入了基于對(duì)象表達(dá)(object-based representation)的概念,用來(lái)表達(dá)視聽(tīng)對(duì)象(audio/visual objects,AVO);MPEG-4擴(kuò)充了編碼的數(shù)據(jù)類(lèi)型,由自然數(shù)據(jù)對(duì)象擴(kuò)展到計(jì)算機(jī)生成的合成數(shù)據(jù)對(duì)象,采用合成對(duì)象/自然對(duì)象混合編碼(Synthetic/ Natural Hybrid Coding,SNHC)算法;在實(shí)現(xiàn)交互功能和重用對(duì)象中引入了組合、合成和編排等重要概念。MPEG-4系統(tǒng)結(jié)構(gòu)示意如圖1所示。MPEG-4接收端的構(gòu)造部件如圖3所示。
MPEG-4中制定了一個(gè)稱為傳輸多媒體集成框架(Delivery Multimedia Integration Framework,DMIF)的會(huì)話協(xié)議,它用來(lái)管理多媒體數(shù)據(jù)流。該協(xié)議在原則上與文件傳輸協(xié)議FTP(File Transfer Protocol)類(lèi)似,其差別是:FTP返回的是數(shù)據(jù),而DMIF返回的是指向到何處獲取數(shù)據(jù)流的指針。DMIF覆蓋了三種主要技術(shù):廣播技術(shù),交互網(wǎng)絡(luò)技術(shù)和光盤(pán)技術(shù),如圖2所示。
MPEG-4為視聽(tīng)對(duì)象編碼(Coding of audio-visual objects),是針對(duì)多媒體應(yīng)用的圖像編碼標(biāo)準(zhǔn)。1999年1月成為國(guó)際標(biāo)準(zhǔn)ISO/IEC DIS 14496-1。
MPEG-4是分辨率可變的視聽(tīng)對(duì)象編碼標(biāo)準(zhǔn),使用的是一種新的壓縮算法,使用這種算法的 ASF 格式可以把一部 120 分鐘長(zhǎng)的電影(未視頻文件)壓縮到 300M 左右的視頻流,可供在網(wǎng)上觀看。其它的 DivX 格式也可以壓縮到 600M 左右,但其圖像質(zhì)量比 ASF 要好很多。
MPEG-4將應(yīng)用在移動(dòng)通信和公用電話交換網(wǎng)(public switched telephone network,PSTN)上,并支持可視電話(videophone)、電視郵件(video mail)、電子報(bào)紙(electronic newspapers)和其他低數(shù)據(jù)傳輸速率場(chǎng)合下的應(yīng)用,如電視會(huì)議、網(wǎng)絡(luò)流媒體、移動(dòng)視頻通信、IPTV等流媒體方面。
·編碼:視音頻對(duì)象、分塊/分級(jí)/分層、基于內(nèi)容和對(duì)象的編碼;
·格式:支持各種不同的分辨率;
·音頻:支持多種碼率2-64kb/s。
MPEG-7視頻編解碼技術(shù)標(biāo)準(zhǔn)
MPEG-7為多媒體內(nèi)容描述接口(Multimedia content description interface),是基于內(nèi)容表示的多媒體內(nèi)容描述標(biāo)準(zhǔn)。2001年9月成為國(guó)際標(biāo)準(zhǔn)ISO/IEC 15938-1。
目的是制定一套描述符標(biāo)準(zhǔn),用來(lái)描述各種類(lèi)型的多媒體信息及它們之間的關(guān)系,以便更快更有效地檢索信息。這些媒體材料可包括靜態(tài)圖像、圖形、3D模型、聲音、話音、電視以及在多媒體演示中它們之間的組合關(guān)系。在某些情況下,數(shù)據(jù)類(lèi)型還可包括面部特性和個(gè)人特性的表達(dá)。
MPEG-7致力于視聽(tīng)數(shù)據(jù)信息編碼的表達(dá)(表達(dá)內(nèi)容的信息,而不是內(nèi)容本身)。這一點(diǎn)與目標(biāo)集中在視頻/音頻數(shù)據(jù)的壓縮與編碼的MPEG-1/2/4不同,MPEG-7所表達(dá)的不是內(nèi)容/信息本身,而是表示信息的信息。
MPEG-7聚焦于多媒體材料的通用接口的標(biāo)準(zhǔn)化,關(guān)注數(shù)據(jù)資源的交互性與全球化、數(shù)據(jù)管理的靈活性。MPEG-7只關(guān)心描述本身,而將描述的生成、特征的提取、索引的處理等都排除在標(biāo)準(zhǔn)之外。
MPEG-7提供了可視內(nèi)容的標(biāo)準(zhǔn)結(jié)構(gòu)和聯(lián)接機(jī)制、以及對(duì)可視內(nèi)容表述的標(biāo)準(zhǔn)化,為實(shí)現(xiàn)基于內(nèi)容的檢索提供了應(yīng)用框架,并使對(duì)多媒體數(shù)據(jù)的創(chuàng)建、交換、檢索和重用更加有效。
MPEG-21視頻編解碼技術(shù)標(biāo)準(zhǔn)
由于多媒體標(biāo)準(zhǔn)層出不窮,但各個(gè)標(biāo)準(zhǔn)之間還存在缺漏,不能真正做到配套銜接,還需要一個(gè)綜合性標(biāo)準(zhǔn)來(lái)協(xié)調(diào);隨著網(wǎng)絡(luò)技術(shù)和應(yīng)用的發(fā)展,基于多媒體的電子商務(wù)需要一個(gè)其結(jié)構(gòu)可以理解的共享模式——多媒體框架的支持。
有鑒于此,MPEG于1996年10月提出制定多媒體框架標(biāo)準(zhǔn)的設(shè)想,2000年6月正式批準(zhǔn)制定MPEG-21標(biāo)準(zhǔn)的計(jì)劃。MPEG-21又叫多媒體框架(ISO/IEC TR 21000-1:2001 Information technology -- Multimedia framework (MPEG-21)),2001年12月成為標(biāo)準(zhǔn),功能是多媒體框架標(biāo)準(zhǔn),基于多媒體的電子商務(wù)需要發(fā)展的共享模式,應(yīng)用于不同多媒體系統(tǒng)的集成和應(yīng)用。
H.26X系列視頻編解碼技術(shù)標(biāo)準(zhǔn)
ITU-T國(guó)際電信同盟-電信標(biāo)準(zhǔn)化部門(mén)(International Telecommunications Union - Telecommunication Standardization Sector)及其前身國(guó)際無(wú)線電咨詢委員會(huì)CCIR(International Radio Consultative Committee)制定了一系列音視頻壓縮編碼和通信技術(shù)標(biāo)準(zhǔn)。其中的ITU-T H.26x是與MPEG類(lèi)似的視頻編碼系列標(biāo)準(zhǔn),參見(jiàn)表1。
H.261視頻編解碼技術(shù)標(biāo)準(zhǔn)
H.261—P×64kb/s碼率音像服務(wù)的視頻編碼(Video codec for audiovisual services at p x 64 kbit/s),1993年3月制定,為可視電話與視頻會(huì)議的編碼標(biāo)準(zhǔn)。
采用的格式為:
·CIF格式:288×360;
·QCIF格式:144×180、29.97幀/秒;
·其編碼為:DCT + 運(yùn)動(dòng)補(bǔ)償 + 視覺(jué)加權(quán)量化 + 熵編碼。
H.262視頻編解碼技術(shù)標(biāo)準(zhǔn)
H.262—運(yùn)動(dòng)圖像和伴音信息的通用編碼(Information technology - Generic coding of moving pictures and associated audio information: Video),1995年7月通過(guò),與MPEG-2共同作為ISO/IEC 13818標(biāo)準(zhǔn)(HDTV、DVD)
·格式為:25或29.97幀/秒;
·主—720×480或576;
·編碼:同H.261。
H.263視頻編解碼技術(shù)標(biāo)準(zhǔn)
H.263—低比特率通信的視頻編碼(Video coding for low bit rate communication),1998年2月制定,為低比特率/可變比特率視頻編碼標(biāo)準(zhǔn)(PSTN網(wǎng)、無(wú)線網(wǎng)、因特網(wǎng))
格式為:
·CIF與QCIF格式同H.261;
·Sub-QCIF格式:128×96;
·4CIF格式:704×576;
·16CIF格式:1408×1152;
·編碼:H.261+ 非限制運(yùn)動(dòng)矢量模式 + 基于語(yǔ)法的算術(shù)編碼 + 高級(jí)預(yù)測(cè) + PB幀。
H.264視頻編解碼技術(shù)標(biāo)準(zhǔn)
H.264—針對(duì)通用音視頻服務(wù)的先進(jìn)[高級(jí)]視頻編碼(Advanced video coding for generic audiovisual services),2003年5月批準(zhǔn),H.264是由ISO/IEC的MPEG與ITU-T的VCEG(Video Coding Experts Group視頻編碼專家組)聯(lián)合組成的JVT(Joint Video Team聯(lián)合視頻組)共同制定的,MPEG的對(duì)應(yīng)標(biāo)準(zhǔn)為MPEG-4的第10部分MPEG-4/AVC。
格式:同H.263
編碼:采用先進(jìn)視頻編碼(AVC)= H.263 + 多參考幀和變塊尺寸運(yùn)動(dòng)補(bǔ)償 + 1/4像素精度的運(yùn)動(dòng)估值 + 基于上下文的二元算數(shù)和變長(zhǎng)編碼 + 冗余條帶 + 補(bǔ)充增強(qiáng)信息和視頻可用信息 + 輔助圖層 + 圖像順序計(jì)數(shù) + 柔性宏塊 + 排序 + 整數(shù)DCT變換 + 分層編碼 + 錯(cuò)誤約束機(jī)制 + 錯(cuò)誤掩蓋技術(shù) + 高效比特流切換技術(shù)。
通過(guò)引入多種先進(jìn)的編碼技術(shù),使得H.264(MPEG-4/AVC)編碼的碼率只有H.263(MPEG-4)的一半。當(dāng)然,提高壓縮比的代價(jià),是同時(shí)也增加了編解碼的復(fù)雜性。一般情況下,編碼難度增加了2倍,解碼難度增加了1倍。
與MPEG標(biāo)準(zhǔn)主要用于光存儲(chǔ)、廣播和流媒體不同,H.26x標(biāo)準(zhǔn)主要用于網(wǎng)絡(luò)和通信。除了視頻編碼標(biāo)準(zhǔn)本身之外,H.26x還有配套的系統(tǒng)、音頻、控制等相關(guān)標(biāo)準(zhǔn)。參見(jiàn)表2和圖4。
(未完待續(xù))