5月24日,36氪“新質(zhì)生產(chǎn)力·AI Partner大會”于北京環(huán)球貿(mào)易中心正式拉開帷幕。大會聚焦AI場景與應(yīng)用端,分為“AI能為我們做什么”和“我被AI賦能了”兩大篇章?,F(xiàn)場匯聚來自阿里云、螞蟻集團、聯(lián)想、OPPO、百度、英特爾、大華股份等企業(yè)的AI領(lǐng)域先鋒者,以“賦能者”與“被賦能者”的不同視角,共同探討AI技術(shù)如何“爆改”千行百業(yè)。
以下是大華股份先進技術(shù)研究院院長殷俊先生主題演講。
非常感謝36氪給我這個機會,與各位業(yè)內(nèi)同仁共同探討AI這個話題。人工智能發(fā)展到現(xiàn)在,已經(jīng)為經(jīng)濟社會帶來深刻變革,并普及到城市、企業(yè)、生活的方方面面。
大華股份是以視覺為核心的智慧物聯(lián)解決方案提供商和運營服務(wù)商,智慧物聯(lián)作為人工智能最典型的商業(yè)價值落地場景之一,我們在技術(shù)落地過程中積累了大量的實踐與業(yè)務(wù)經(jīng)驗。以“視頻+AI”為牽引,借助先進的視覺智能設(shè)備與解決方案,我們致力于整個社會生產(chǎn)效率的提升,賦能城市高效治理和企業(yè)的數(shù)智化創(chuàng)新與轉(zhuǎn)型。
AI領(lǐng)域發(fā)展了很多年,從16年AI在行業(yè)的應(yīng)用到前年大模型應(yīng)用的興起,AI生產(chǎn)力工具一直在不斷演進的過程中,大模型的出現(xiàn)能夠進一步提升AI的能力,能夠做好更新型工具鏈的建設(shè)和工具生產(chǎn)力的建設(shè),我們也看到兩個大的趨勢:第一個是大模型參數(shù)規(guī)模的持續(xù)增長,隨著針對大模型能力的不斷探索,模型參數(shù)量仍在持續(xù)增長,scaling law還沒有失效;第二個是針對大模型算力的優(yōu)化,大模型的算力開銷非常大,如何優(yōu)化算力開銷,通過更少量的算力來達到同等模型能力,各種降低算力消耗的方式被提出來。
當前大模型應(yīng)用以文本類、語音類為主,大模型落地過程中仍然面臨很多的挑戰(zhàn),尤其是在視覺領(lǐng)域,如可靠性、穩(wěn)定性、認知能力和成本等。首先可靠性挑戰(zhàn),我們希望能夠準確識別一個物體,判定一個事件是否符合安全合規(guī)要求,對精度的要求是比較高的;其次是穩(wěn)定性,視覺場景要求穩(wěn)定識別物體,而當前通用大模型在效果穩(wěn)定性方面離實戰(zhàn)要求還有差距,特別是幻覺問題會嚴重影響大模型的穩(wěn)定性;第三個挑戰(zhàn)是認知能力;第四個挑戰(zhàn)是成本,也就是如何讓客戶用得起,只有更低成本才能讓更多的客戶用得起大模型,進而推動大模型產(chǎn)業(yè)化落地。
真實準確描述客觀世界是視覺大模型落地的關(guān)鍵,通用大模型對細分業(yè)務(wù)場景無法做到正確描述。比如煤礦傳送帶上的異物檢測,要區(qū)分傳送帶上的是石頭還是礦物;在工業(yè)質(zhì)檢環(huán)境里,人員是否佩戴安全帽檢測,要檢測戴的是安全帽、普通帽子或發(fā)飾;在糧倉糧面分割時,不同谷物分割線有什么區(qū)別,堆放的是什么谷物,這都是在真實場景中要解決的問題。要讓模型做到精準識別,需要通過大量參數(shù)優(yōu)化實際應(yīng)用效果,結(jié)合行業(yè)領(lǐng)域的專業(yè)知識進行調(diào)優(yōu)。在電力行業(yè)應(yīng)用中,我們發(fā)現(xiàn)通用模型并不認識絕緣子,不能很好理解什么是絕緣子,因此需要深入行業(yè)把絕緣子特征提取出來,讓模型能更精準地識別什么是絕緣端子,或者是對“絕緣”兩個字與廣泛的認知形成差異,并且映射到實物,這就需要有大量行業(yè)經(jīng)驗不斷調(diào)優(yōu)網(wǎng)絡(luò),讓網(wǎng)絡(luò)掌握特定行業(yè)或者細分行業(yè)的專業(yè)術(shù)語后,形成對行業(yè)更好的理解,精準表述我們面向的業(yè)務(wù)應(yīng)用。
第二個是解決知識沖突問題,大模型具備著強大的泛化能力,會對目標理解形成差異。比如在油菜生長過程中,我們用無人機去監(jiān)測植被生長狀態(tài),然而在不同生長階段油菜的顏色差異很大,如何對油菜進行一致性的識別。又比如最簡單的穿戴合規(guī)檢測,不同行業(yè)甚至同一行業(yè)的不同場景下,對著裝的要求也不一樣,例如室外要求穿反光馬夾,室內(nèi)穿簡裝制服即可,像我們?nèi)プ鲭娏π袠I(yè)合規(guī)檢測,需要根據(jù)不同作業(yè)環(huán)境識別不同的著裝違規(guī),大模型要區(qū)分在不同作業(yè)環(huán)境下對應(yīng)的穿戴要求,需要行業(yè)領(lǐng)域知識庫才能夠區(qū)分清楚,這也是我們在行業(yè)落地里面遇到的挑戰(zhàn)。需要大量的行業(yè)知識和行業(yè)理解來持續(xù)匹配模型調(diào)優(yōu),通過大量知識協(xié)同來解決大模型知識沖突的問題。
另一個是幻覺問題,大家聽說的也很多,特別是在對話語義理解上一詞多義或者多詞一義很容易造成誤解,這些問題在實際應(yīng)用過程中需要避免。我們使用高質(zhì)量的行業(yè)數(shù)據(jù)訓(xùn)練模型進行二次分類,對大模型進行模型監(jiān)督和后處理,自動檢測和修正幻覺問題,部署后定期進行模型再訓(xùn)練,使用新的行業(yè)數(shù)據(jù)和反饋進行優(yōu)化,讓大模型的認知能力與行業(yè)匹配性逐步提升,從而讓大模型在業(yè)務(wù)落地中能夠更好地跟行業(yè)結(jié)合,減緩幻覺問題。目前來看幻覺問題相對比較穩(wěn)定,但是還會有錯誤發(fā)生,我們希望通過與各行業(yè)的進一步深耕打磨和融合,能把幻覺問題降到更低的程度或者是轉(zhuǎn)化為能夠理解的過程。
在視頻序列分析上,大模型對視覺的理解也是一個難題,特別在特征融合后,大模型更多的是對全圖的理解,對細節(jié)理解的不夠,如何把識別范圍控制在需要關(guān)注的對象上面,這也是我們需要做的工作。在實際業(yè)務(wù)落地應(yīng)用上,我們需要更加關(guān)注管理對象的行為或者結(jié)果,在這個過程我們會把模型調(diào)整,將注意力調(diào)整到目標物身上,對大量的背景等無效信息進行過濾,才能進行復(fù)雜行為的識別。
在部署協(xié)同問題上,首先是成本,大模型需要消耗更大的算力,視覺和文本又不一樣,僅一張圖片可能就是 200k 分辨率,對于文本來說可以變?yōu)槭畮讉€字符,因此處理視覺需要消耗更大量的算力。所以我們需要把模型做的更小,以有限的算力將視覺大模型跑起來。第二是兼容小模型階段做的大量成果,比如車牌識別、車輛識別,在小模型階段車輛識別精度已非常高,不需要再用大模型重新把這個事情做一遍,如何讓老的系統(tǒng)和新的系統(tǒng)協(xié)同融合,既發(fā)揮性價比優(yōu)勢,又發(fā)揮出大模型能力,最終滿足全系統(tǒng)最佳利用率要求,這是我們已經(jīng)在重點做的工作。
所以,在實踐過程中,我們會想一個問題,是要通用模型還是多模型協(xié)同?最終我們選擇了多模型協(xié)同,它是一個比較好的方式,既能夠發(fā)揮大模型的能力,又能夠相對合理的利舊,通過構(gòu)建多模型融合系統(tǒng),快速解決客戶實際需求的問題。
去年,基于在視覺領(lǐng)域AI落地的研究與實踐,大華股份發(fā)布了星漢大模型,它是以視覺為核心、多模態(tài)融合的行業(yè)大模型。在以視頻為核心的智慧物聯(lián)領(lǐng)域,大華積累了豐富的行業(yè)和細分場景業(yè)務(wù)經(jīng)驗,充分結(jié)合行業(yè)經(jīng)驗的視覺大模型是商業(yè)成功的關(guān)鍵。
星漢大模型具備四個方面的優(yōu)勢:從準確走向精準、從個性走向通用、從識別走向理解、從靜態(tài)走向動態(tài)。其準確率和泛化能力大幅提升,可以通過圖文提示滿足海量碎片化需求,認知能力提升識別復(fù)雜行為,通過全場景解析提升系統(tǒng)智能化水平。構(gòu)建星漢大模型的基礎(chǔ),是大華構(gòu)筑的“1+2”的人工智能能力體系。面向海量碎片化需求,通過四層技術(shù)架構(gòu)提升了算法供給能力,把AI嵌入到每個產(chǎn)品和場景,已覆蓋超過8000個細分場景。
我認為,大模型未來發(fā)展趨勢,首先是領(lǐng)域大模型,大模型落地過程中會結(jié)合業(yè)務(wù)場景,發(fā)展出更多的領(lǐng)域?qū)>竽P?。第二是多模態(tài)趨勢,多模態(tài)融合,感知更全,知識互補,準確性會出現(xiàn)躍升。第三是端邊云MOE融合,提升整體模型系統(tǒng)的計算架構(gòu),實現(xiàn)整個系統(tǒng)的最優(yōu)化。