平安城市進入了一輪新的建設高峰,尤其是在一些一線城市,平安城市覆蓋面越來越廣,不僅僅是傳統(tǒng)的視頻監(jiān)控和報警管理等治安管理系統(tǒng),還將交通電子警察、應急系統(tǒng)、停車管理等城市管理納入,提升了數(shù)字城市、智慧城市的高度。
由于視頻監(jiān)控屬于帶寬密集型應用,在如火如荼的建設大潮背后,是大批的IT系統(tǒng)進入,這包括城域網(wǎng)建設、視頻存儲系統(tǒng)建設、視頻流轉發(fā)服務器建設等等,同時,這些系統(tǒng)的建設又帶來了龐大、繁雜的系統(tǒng)維護問題。從2010年的世博會首次大范圍建設高清監(jiān)控系統(tǒng),到2011年的重慶大規(guī)模高清監(jiān)控系統(tǒng)投入使用,給視頻監(jiān)控系統(tǒng)帶來越來越大的壓力。這些壓力主要體現(xiàn)在:
·實時高清圖像清晰度和網(wǎng)絡帶寬之間的矛盾;
·高清錄像回放清晰度和錄像存儲容量之間的矛盾;
·高清錄像回放用戶數(shù)量和錄像存儲系統(tǒng)吞吐能力之間的矛盾。
這一系列的矛盾直接對系統(tǒng)建設成本和復雜性提出了更高的要求,無論是政府直接建設還是電信運營商或視頻監(jiān)控廠商BT模式,在當前國際金融危機和國內通脹壓力形勢下,要從財政中撥出巨款投入城市治安管理建設,對于尚處于發(fā)展中階段的各級政府,不亞于一個沉重的經(jīng)濟負擔。
筆者有過多年的通信、圖像處理的工作經(jīng)驗,本文中提出了個人技術見解,希望能夠借此推動高清監(jiān)控系統(tǒng)推進和完善。
方案一:借助于最新視頻編碼技術
當前平安城市中的高清監(jiān)控采用編碼、傳輸、解碼、存儲等一系列數(shù)據(jù)流程,為了節(jié)省投資,很多采用了分布式存儲,也就是說將前端的高清視頻數(shù)據(jù)通過NVR、H-DVR、NAS和IP-SAN等存儲設備在分控中心進行集中存儲,分布式存儲的優(yōu)勢在于將數(shù)據(jù)集中于各分中心,在較大規(guī)模的系統(tǒng)中,管理便利,可靠性好。集中存儲是將前端的高清視頻數(shù)據(jù)通過NAS、IP-SAN等集中在存儲中心,安全性好,但是投入成本與規(guī)模相關。
當前的高清編碼主要采用H.264編碼,一路1080p的碼流一般為8Mb/s,存儲一天需要的硬盤容量為8*3600*24/8/1024=84.4GB,一個月就是84.4*30/1024=2.5TB。如果部署40個1080p的監(jiān)控點,一個月的錄像文件達到100TB!目前48盤位的磁盤陣列,全部接2T的硬盤,做完RAID5后,可用空間也不夠。所以,高清監(jiān)控勢必會增加存儲設備上的成本投入。
所以,無論是分布式存儲還是集中式存儲,都不可避免需要建設龐大的錄像存儲系統(tǒng)。
IPTV視頻點播實現(xiàn)低碼流高質量
但是,當前電信IPTV視頻點播應用已經(jīng)做到了 2Mbps@720P, 4Mbps@1080P,甚至有些私有編碼算法已經(jīng)能夠做到 512Kbps@720P, 1Mbps@1080P的超低碼流級別,這甚至要比2013年才能真正發(fā)布的h.265編碼算法( 2Mbps@1080P)還要低。而且這些視頻點播是全動感(fullmotion)的電影視頻,畫面復雜度要遠遠高于監(jiān)控畫面(監(jiān)控一般為30%動感畫面),那么,是否兩者之間有可借鑒之處呢?
誠然,超低碼流的電信IPTV應用的視頻點播數(shù)據(jù)一般是經(jīng)過多次壓縮(multipass)后,從而獲得的低碼流、高畫質的小體積視頻文件,這些工作都是離線、非實時完成的。
而實時轉碼一般是指將電視臺的高清節(jié)目實時轉碼為私有格式,以便獲得高質量、低碼流,通過現(xiàn)有ADSL等網(wǎng)絡傳遞到用戶家中。在以上表格中,全高清1080P實時轉碼后的碼流僅為2.2Mbps,這個碼流對于我們監(jiān)控行業(yè)動輒4Mbps的碼流來講,也是非常低的。考慮到監(jiān)控行業(yè)的30%動態(tài)畫面,筆者相信1Mbps的實時轉碼碼流應該是能夠做得到的。當然,對于交通卡口等全動感畫面,2.2Mbps的碼流也是相當不錯的成績了。
當然,以上電信級的視頻壓縮算法可能根本無法跑在當前的TI壓縮處理芯片上,要么是跑在專門設計的ASIC壓縮芯片上,要么是直接運行在PC服務器上,來實現(xiàn)低碼流編碼。
基于電信設計思路,增設視頻轉碼層
基于以上技術發(fā)展,筆者建議采用電信系統(tǒng)的設計思路,對于當前的平安城市系統(tǒng)進行分層設計。
傳統(tǒng)的平安城市視頻監(jiān)控一般是編碼、傳輸?shù)椒挚刂行倪M行實時碼流瀏覽和錄像存儲。從系統(tǒng)層次上劃分,可分為視頻接入層、視頻錄像層、視頻實時顯示層、視頻轉發(fā)層。
筆者提出的新設計是,相對于傳統(tǒng)的4層規(guī)劃,建議增加一個獨立的視頻轉碼層。視頻轉碼層的工作是將視頻接入層的視頻進行解碼,然后進行二次編碼,在保持畫面質量的同時,獲得更小的碼流,以便于節(jié)省存儲空間。
按照傳統(tǒng)的設計,視頻編碼層一般輸出2個h.264碼流,第一個h.264碼流為高碼流(6~8Mbps),一般用于實時顯示;第2個h.264碼流一般為中等碼流(3~5Mbps),用于錄像,主要是為了降低存儲空間。
在新設計中,視頻編碼層直接輸出MJPEG碼流,MJPEG碼流相對較大,1080P能夠達到50Mbps,但是MJPEG基本上沒有圖像損失,在分控中心可以做到無延遲實時顯示,清晰度最好。而且解碼占用CPU極低。視頻轉碼層收到MJPEG碼流后,進行二次圖像壓縮,利用最先進的視頻編碼技術,進行二次編碼,從而在保持畫面質量的情況下,獲得極低的壓縮碼流,然后將此碼流送往視頻錄像層進行保存。
在新設計中,視頻轉發(fā)層將視頻錄像層的低碼流錄像轉發(fā)至錄像回放工作站或其他遠程工作站,并利用標準的h.264解碼器進行解碼。
在以上設計中,新的視頻編碼層也可以支持HD-CCTV攝像機,直接接入SDI視頻信號。按照電信行業(yè)的設計標準,實時編碼需要的PC處理能力將是延遲編碼的PC處理能力的2倍。所以,如果采用實時編碼,那么大概一臺I52.8GHZ的PC服務器可以處理2路1080P視頻轉碼。按照摩爾定律,CPU每隔18個月性能翻一番(價格不變),那么考慮到Intel很快就要釋放最新采用3D晶體管技術的CPU系列,那么如果采用i7系列的PC服務器,將可以轉碼8路左右的高清視頻。和降低的存儲成本相比,總體成本應該還是要降下許多。
但是,由于直接采用了MJPEG碼流,這會大大提高對網(wǎng)絡帶寬的要求,對于政府自建公安專網(wǎng),最便宜的光纖收發(fā)器也是百兆以太網(wǎng),所以主要網(wǎng)絡壓力還是在于核心交換機,在這里,為了適應新的轉碼層需要,建議采用多個千兆匯聚層交換機,分為多個網(wǎng)段,實現(xiàn)轉碼后再連接到錄像存儲層。
如果采用了電信BT建設模式,建議直接采用嵌入式低碼流高清編碼器模塊,加裝在高清網(wǎng)絡攝像機和接入網(wǎng)絡中間。如果采用HD-CCTV攝像機,則可以直接用嵌入式低碼流高清編碼器直接通過SDI接口接入進行編碼。
高清網(wǎng)絡攝像機需要新一代的編碼壓縮算法,但是h.265是以電影、電視行業(yè)為核心利益的,其技術核心是各種算法兼容性、播放安全性,保證不同專利廠家之間的利益,其技術發(fā)展、技術應用對于安防行業(yè)來講,都有一定的局限性。與其等待新標準的完善,還不如勇于創(chuàng)新,采用先進的私有算法,為廣大安防用戶提供低成本解決方案。
方案二:借助于智能視頻分析技術
在上文中,筆者已經(jīng)提出,監(jiān)控行業(yè)的視頻畫面特點是,30%的畫面為動感畫面(人/車運動),其他70%基本上都是次要畫面(背景樹、花草、小動物)。對于錄像存儲來講,如果只錄制人/車的畫面,那將大大節(jié)省存儲空間。
識別重要畫面
而在30%的動感畫面中,可能只有20%的運動畫面是我們所關注的(興趣區(qū)內),其他80%的人/車運動并不影響我們的安全(興趣區(qū)外)。所以,如果利用智能視頻分析將重要畫面識別出來,那么我們就可以節(jié)省94%的高碼流空間,考慮到智能視頻分析算法識別的準確性,對于這94%的次要畫面,我們可以采用低幀速率+高碼流來進行錄像(視場景不同而定,對于實時性畫面要求高的應用,可考慮低碼流+高幀速率)。
當然,當前大部分的攝像機都具有移動偵測功能,那是不是應用免費的移動偵測功能就可以完成以上功能了呢?在筆者看來,不僅攝像機自帶的移動偵測功能無法實現(xiàn)筆者提出的以上設想,就連市面上大部分的智能視頻分析產(chǎn)品也無法達到以上的設計目的,這是為什么呢?
談智能視頻分析就不得不回顧一下智能視頻分析的技術核心,智能視頻分析一般是由畫面分割(目標探測)、前背景分離(目標跟蹤)、目標分類、目標辨識4大部分組成的。當前的VMD移動偵測只能做到畫面分割這一層,而且無法抑制大量的誤報。高級VMD移動偵測,能夠實現(xiàn)目標跟蹤,從而大大降低室外環(huán)境引起的誤報。通過手工標定景深,利用目標像素大小,從而過濾掉一些不符合現(xiàn)實的目標,如小昆蟲在鏡頭上快速爬行等;更高級一些的VMD移動偵測,利用多種規(guī)則如目標的最小移動速度、目標的最小移動像素、目標出現(xiàn)的時間、目標的對比度、目標的最小像素等等多種參數(shù),將目標進行簡單分類,如過大的像素、過快的速度的目標,則是車輛。
有些先進的VMD移動偵測算法通過繁雜的設置,確實可以得到很好的效果,但是無法自動適應天氣、環(huán)境的變化,所以每到季節(jié)變化,則需要重新設置,這對系統(tǒng)維護帶來了挑戰(zhàn)。
其實畫面分割、前背景分離、目標分類并不是單向的數(shù)據(jù)流,目標分類反過來會影響畫面分割的好壞。畢竟只要有像素運動,畫面分割就會把這些像素隔離出來,前背景分離就需要運算量來跟蹤這些像素團的運動,以辨確實是噪點,還是晃動的樹枝,還是人目標在運動。
另外對于傳統(tǒng)的智能視頻圖像分割算法,在DSP上是一種簡單的高運算量工作,如(圖1)所示,如此大的數(shù)量需要強大的DSP來完成,這就是為何當前市場上大部分的智能視頻分析算法都只是運算352x288的CIF格式畫面了,因為一旦運算4CIF畫面,那么DSP就沒有運算能力來進行視頻編碼工作了。
而對于高清來講,1080P全高清畫面的視頻數(shù)據(jù)將高達500Mbps,這對于采用傳統(tǒng)智能視頻分析算法的廠商來講,是無法逾越的。
當前最新智能視頻分析算法是模擬人腦的識別模式,人眼并不是靠目標的大小來判斷目標類別,而是靠目標的特征來判斷。例如,假設人眼看到了一個人的下半身被車遮擋,僅憑上半身,人眼完全可以判斷這是一個人目標隱藏在車后,而普通的高級VMD移動偵測靠如此少的像素則斷定這不是人目標。
通過圖像分割實現(xiàn)目標分類
筆者了解到,美國VideoIQ公司最新基于神經(jīng)元人工智能算法的智能視頻分析技術,通過內置20多萬種目標模式,利用強大人工智能神經(jīng)學習算法,可以大大抑制自然界引起的誤報,如雨、雪、大風、小動物、飛鳥、光影變化、樹枝晃動等。高級移動偵測簡單根據(jù)像素大小來判定目標,而不考慮目標的外表紋理、顏色、形體幾何組合、步伐等人體/車輛模式,必將導致很高的誤報。如夏天飛蟲、昆蟲在攝像機前面飛動,露水、雨滴滑過鏡頭表面,這些都會導致依據(jù)像素大小來做目標分類錯誤,從而出現(xiàn)大量誤報,浪費錄像空間。
在圖像分割階段就利用初始的目標分類技術,互相補充,這樣大大降低了圖像分割的DSP運算量,從而采用一塊達芬奇DSP就足可以實現(xiàn)1080P分辨率的智能視頻分析和1080P圖像編碼壓縮。
一旦擁有了這種先進的目標分類算法,那么高清攝像機就有能力只回傳重要的高清碼流來錄像;而沒有重要畫面時,則回傳低幀速率碼流,保證1080P畫面清晰度。采用這種算法最好的方法是直接將算法內置在前端智能攝像機內,這樣簡化系統(tǒng)的管理。
如果前端攝像機是普通的網(wǎng)絡高清攝像機,那么也可以在后端利用PC機來實現(xiàn)智能視頻分析,從而獲得同樣的錄像效果。
結語
平安城市建設是一個新事物,甚至在歐美等國也沒有太多的案例可以參考,我們國產(chǎn)監(jiān)控廠商應該攜手共進,創(chuàng)造中國自有的技術和標準,從而能夠在我國的平安城市建設過程中開發(fā)出新的技術能力,推向全世界。