2024年上海進(jìn)博會上,依圖科技發(fā)布了天問大模型4.0版本,引起業(yè)界廣泛關(guān)注。作為AI落地的重要場景,天問大模型在安防領(lǐng)域的應(yīng)用,實(shí)現(xiàn)了視頻理解的細(xì)微化、語義檢索的豐富化,支持多條件組合場景布控,實(shí)現(xiàn)精細(xì)化布控和風(fēng)險(xiǎn)管理,并且通過極少樣本的冷啟動和Agent代理輔助訓(xùn)練,實(shí)現(xiàn)了“想法既算法”的智能飛躍。
這無疑標(biāo)志著依圖科技在AI安防領(lǐng)域的技術(shù)實(shí)力達(dá)到了新的高度,有力推動了安防行業(yè)向更高層次的智慧化轉(zhuǎn)型,為安防行業(yè)創(chuàng)新發(fā)展帶來了革命性的變革,而本文筆者將進(jìn)一步詳細(xì)介紹天問大模型4大技術(shù)亮點(diǎn)和優(yōu)勢:
一、安防領(lǐng)域?qū)S枚嗄B(tài)大模型訓(xùn)練及構(gòu)建
雖然行業(yè)內(nèi)出現(xiàn)大量開源的多模態(tài)大模型,但其對于視頻監(jiān)控場景來說,它們距離實(shí)戰(zhàn)都有明顯距離,主要有如下原因:
視覺數(shù)據(jù)分布缺陷:差異點(diǎn)來自拍攝視角、場景和關(guān)注點(diǎn)。有無對應(yīng)分布的領(lǐng)域數(shù)據(jù),誤報(bào)差距有 2個(gè)量級,是可用和不可用的區(qū)別。
精度目標(biāo)不同:通用模態(tài)大模型主要應(yīng)用場景是對話、圖文問答等,更強(qiáng)調(diào)全面性,也就是能處理任務(wù)多,但對精度要求低,錯誤率到 1%基本滿足訴求;對于監(jiān)控場景而言,誤報(bào)率通常要求到百萬分之一甚至更高。
領(lǐng)域知識缺失:對于不同場景 (如小區(qū)、工廠、交通等),對于安全隱患定義是有明顯差異的;通用多模態(tài)大模型通常會欠缺這部分知識
上述問題的解決重點(diǎn)在于領(lǐng)域數(shù)據(jù)的積累,特別是低概率出現(xiàn)的數(shù)據(jù),針對性的解決方案是數(shù)據(jù)飛輪。其主要挑戰(zhàn)在于:
1、對應(yīng)用場景的深刻理解,開發(fā)出針對特定場景的可落地的應(yīng)用;
2、標(biāo)注標(biāo)注效率,確認(rèn)大規(guī)模訓(xùn)練的可行性;
3、技術(shù)水平的先進(jìn)性,保證對領(lǐng)域數(shù)據(jù)的充分利用,提升整體迭代效率。
二、少樣本學(xué)習(xí)解決視覺基礎(chǔ)任務(wù)
在現(xiàn)實(shí)世界中,許多視覺識別任務(wù)屬于長尾分布,即大部分類別的樣本數(shù)量非常有限。特別是針對特定領(lǐng)域的應(yīng)用落地,領(lǐng)域數(shù)據(jù)往往稀缺且難以獲取。這些所謂的“冷啟動”問題對于傳統(tǒng)的機(jī)器學(xué)習(xí)模型來說是一個(gè)巨大的挑戰(zhàn),因?yàn)樗鼈冃枰罅康臉?biāo)注數(shù)據(jù)來訓(xùn)練。少樣本學(xué)習(xí)技術(shù)通過從少量樣本中快速學(xué)習(xí),使得機(jī)器能夠識別這些長尾類別,從而極大地?cái)U(kuò)展了機(jī)器視覺的應(yīng)用范圍。在制造業(yè)中,新產(chǎn)品的設(shè)計(jì)和生產(chǎn)周期越來越短。少樣本學(xué)習(xí)技術(shù)可以幫助快速部署視覺識別系統(tǒng),以識別和處理新產(chǎn)品,無需等待大量數(shù)據(jù)的積累。在安全監(jiān)控領(lǐng)域,需要檢測的異常行為往往是罕見的。少樣本學(xué)習(xí)技術(shù)能夠快速適應(yīng)這些罕見事件的檢測,提高系統(tǒng)的響應(yīng)速度和準(zhǔn)確性。
獲取大量高質(zhì)量的標(biāo)注數(shù)據(jù)通常需要耗費(fèi)大量的時(shí)間和資源。在某些領(lǐng)域,如工業(yè)圖像分析,獲取標(biāo)注數(shù)據(jù)可能涉及到專業(yè)知識,使得數(shù)據(jù)采集更加困難。少樣本學(xué)習(xí)技術(shù)減少了對大量標(biāo)注數(shù)據(jù)的依賴,從而降低了數(shù)據(jù)采集和標(biāo)注的成本。企業(yè)可以減少在數(shù)據(jù)采集和標(biāo)注上的投入,將資源更多地用于產(chǎn)品開發(fā)和市場推廣等其它方面,同時(shí)也有助于適應(yīng)快速變化的市場。在快速變化的市場中,企業(yè)需要快速推出新的產(chǎn)品和服務(wù)。少樣本學(xué)習(xí)技術(shù)使得視覺識別系統(tǒng)能夠快速適應(yīng)新的市場需求,加速產(chǎn)品創(chuàng)新。
傳統(tǒng)的機(jī)器學(xué)習(xí)模型在面對新任務(wù)時(shí),通常需要重新收集數(shù)據(jù)、訓(xùn)練模型,這一過程可能非常耗時(shí)。少樣本學(xué)習(xí)技術(shù)通過快速從少量樣本中學(xué)習(xí),顯著縮短了模型的迭代周期。一是體現(xiàn)在研發(fā)效率的提升。縮短模型迭代周期意味著研發(fā)團(tuán)隊(duì)可以更快地測試和優(yōu)化他們的產(chǎn)品,提高研發(fā)效率。二是有助于快速適應(yīng)客戶需求。在客戶提出新的需求時(shí),可以迅速調(diào)整視覺識別系統(tǒng),快速響應(yīng)客戶需求,提高客戶滿意度。
三、2D向3D視覺大模型的范式升級
在治安監(jiān)控領(lǐng)域,精確的深度信息可以顯著提升視頻監(jiān)控系統(tǒng)的智能分析能力。通過精確的深度信息,系統(tǒng)能夠更準(zhǔn)確地識別和追蹤嫌疑人或可疑行為,從而提高公共安全。例如,在擁擠的公共場所,深度估計(jì)可以幫助監(jiān)控系統(tǒng)區(qū)分人群中的個(gè)體,即使在視角受限或光照條件不理想的情況下也能進(jìn)行有效監(jiān)控。此外,深度信息還可以用于自動計(jì)算安全距離,當(dāng)檢測到有人過于接近關(guān)鍵設(shè)施或禁區(qū)時(shí),系統(tǒng)可以及時(shí)發(fā)出警報(bào)。在建筑工地,單目深度估計(jì)技術(shù)可以用于提高工地安全監(jiān)控的效率和效果。工地環(huán)境復(fù)雜多變,存在許多潛在的安全風(fēng)險(xiǎn)。利用深度估計(jì)技術(shù),監(jiān)控系統(tǒng)可以精確識別工人與危險(xiǎn)區(qū)域之間的距離,當(dāng)工人過于接近危險(xiǎn)機(jī)械或邊緣時(shí),系統(tǒng)可以發(fā)出警告,防止事故發(fā)生。
四、基于視覺語言大模型的視覺搜索
基于視覺語言大模型的視覺搜索技術(shù)是安防領(lǐng)域的核心訴求,它通過結(jié)合視覺和語言信息處理的能力,為各種應(yīng)用場景提供了強(qiáng)大的技術(shù)支持。它的技術(shù)應(yīng)用價(jià)值主要體現(xiàn)在如下方面:
1.支持長尾物體和屬性的解析:傳統(tǒng)的視覺搜索算法往往在處理常見物體和場景時(shí)表現(xiàn)良好,但在面對長尾(即不常見或罕見)物體和屬性時(shí),其性能會顯著下降。基于視覺語言大模型的視覺搜索技術(shù)通過融合語言模型的深度語義理解能力,能夠更好地理解和識別這些長尾物體。這種能力在安防監(jiān)控、生物多樣性研究、文化遺產(chǎn)保護(hù)等領(lǐng)域尤為重要,因?yàn)檫@些領(lǐng)域經(jīng)常需要識別和分析不常見的物體或行為。
2.接受不同模態(tài)的輸入并在相同特征空間中進(jìn)行搜索:多模態(tài)視覺搜索技術(shù)能夠處理多種類型的輸入,包括圖像、視頻和文本。通過將這些不同模態(tài)的信息映射到一個(gè)統(tǒng)一的特征空間中,該技術(shù)能夠?qū)崿F(xiàn)跨模態(tài)的搜索和匹配。這種跨模態(tài)的能力在電子商務(wù)、內(nèi)容推薦、社交媒體分析等領(lǐng)域具有廣泛的應(yīng)用前景。例如,用戶可以通過上傳一張圖片或輸入一段描述,快速找到相關(guān)的商品或信息,極大地提升了用戶體驗(yàn)。
3.理解圖片的上下文信息:除了識別圖像中的物體,多模態(tài)視覺搜索技術(shù)還能夠理解圖像的上下文信息,包括場景的背景、物體間的關(guān)系以及可能的情境。這種上下文理解能力使得該技術(shù)在城市管理、環(huán)境監(jiān)測、公共安全等領(lǐng)域具有重要價(jià)值。例如,通過分析街道的圖片,可以識別交通擁堵、非法占道等城市問題,為城市管理提供決策支持。
4. 理解復(fù)雜的語義描述:多模態(tài)視覺搜索技術(shù)通過結(jié)合自然語言處理技術(shù),能夠理解和處理復(fù)雜的語義描述。這意味著用戶可以使用自然語言來表達(dá)他們的搜索需求,而系統(tǒng)能夠準(zhǔn)確理解這些描述并返回相關(guān)的搜索結(jié)果。這種能力在公安、政府、教育等領(lǐng)域尤為重要,因?yàn)檫@些領(lǐng)域經(jīng)常需要處理復(fù)雜的查詢和分析任務(wù)。
依圖科技的天問大模型4.0版本,以其先進(jìn)的技術(shù)實(shí)力和創(chuàng)新能力,為安防行業(yè)提供了一個(gè)更加智能、高效和靈活的解決方案。我們有理由相信,隨著技術(shù)的不斷進(jìn)步和應(yīng)用的深入,天問大模型將在更多細(xì)分市場和復(fù)雜場景中發(fā)揮關(guān)鍵作用,為社會的安全與穩(wěn)定提供更為堅(jiān)實(shí)的保障,并引領(lǐng)安防行業(yè)進(jìn)入一個(gè)全新的智能化時(shí)代。