7月15日,2022曠視技術(shù)開放日(MegTech 2022)在北京舉行。在本次活動上,曠視聯(lián)合創(chuàng)始人、CEO印奇進行了主題分享,闡述了曠視以AIoT為核心的企業(yè)戰(zhàn)略以及涵蓋從基礎(chǔ)研究、算法生產(chǎn)到軟硬一體化產(chǎn)品的AI落地全鏈路的“2+1”AIoT核心技術(shù)科研體系,即以“基礎(chǔ)算法科研”和“規(guī)模算法量產(chǎn)”為兩大核心的AI技術(shù)體系,和以“計算攝影學”為核心的“算法定義硬件”IoT技術(shù)體系。同時,曠視研究院基礎(chǔ)科研負責人張祥雨也在現(xiàn)場分享了曠視關(guān)于AI基礎(chǔ)研究的最新趨勢洞察和研究成果。
“大”和“統(tǒng)一”成為視覺AI基礎(chǔ)研究新趨勢
自2012年AlexNet被提出以來,基于深度學習的神經(jīng)網(wǎng)絡成為AI視覺發(fā)展的核心原動力之一。神經(jīng)網(wǎng)絡根據(jù)用途、構(gòu)建方式的不同,大致可以分為CNN、Transformer、基于自動化神經(jīng)網(wǎng)絡架構(gòu)搜索的模型以及輕量化模型等,這些模型極大地推動了AI發(fā)展的歷史進程。
曠視研究院基礎(chǔ)科研負責人張祥雨認為:基礎(chǔ)模型科研是AI創(chuàng)新突破的基石, “大”和“統(tǒng)一”已經(jīng)成為當今視覺AI系統(tǒng)研究的新趨勢。
“大”并不意味好,要借助AI“大”模型持續(xù)拓展人工智能認知邊界
曠視認為,“大”是以創(chuàng)新的算法充分發(fā)揮大數(shù)據(jù)、大算力的威力,拓展AI認知的邊界。即利用大數(shù)據(jù)、大算力和大參數(shù)量,提高模型的表達能力,使得AI模型能夠適用于多種任務、多種數(shù)據(jù)和多種應用場景。
張祥雨認為,“大”是提高AI系統(tǒng)性能的重要捷徑之一。但是,但大并不意味好,片面地追求大參數(shù)量、大計算量和大數(shù)據(jù)量,并不一定能夠?qū)崿F(xiàn)更強大的模型,反而會產(chǎn)生更大的計算開銷,令整體收益非常有限。
基于這一行業(yè)洞察,曠視將其關(guān)于“大”的研究進行了更加精細的劃分。首先在大模型方面,曠視的研究不僅著眼于如何實現(xiàn)“大”,而是將會聚焦于如何充分發(fā)揮大模型背后的威力;其次在大算法方面,如果利用創(chuàng)新的算法將大模型的作用最大化,也將會是曠視未來重點關(guān)注的;最后在大應用方面,將重點解決大模型生成后如何進行合力的應用,提升AI模型性能。
用“統(tǒng)一”AI系統(tǒng)的設計思路,促進AI的通用化、規(guī)模化應用
AI視覺的研究領(lǐng)域眾多,包括CNNs、VL Models、 Transformers等基礎(chǔ)模型研發(fā),物體檢測、分割等視覺基礎(chǔ)應用,優(yōu)化、自監(jiān)督、半監(jiān)督等AI算法演化等,每個研究路徑,都會衍生出一系列算法。
近幾年,不同研究路徑所衍生出的算法逐漸在底層走向統(tǒng)一,曠視借助特定的優(yōu)化算法,通過在訓練過程中增加先驗的方式,使得CNNs、VL Models、 Transformers都取得相似的性能,為曠視“統(tǒng)一”AI系統(tǒng)設計奠定了堅實的基礎(chǔ)。
此外,圍繞“統(tǒng)一”這一趨勢,曠視在“基礎(chǔ)模型架構(gòu)”、“算法”和“認知”,進行了全面布局。曠視基礎(chǔ)科研的“統(tǒng)一”,集中體現(xiàn)在統(tǒng)一各種基礎(chǔ)模型架構(gòu),從紛繁的AI算法中提煉其本質(zhì)特性,使其能支持各種任務、數(shù)據(jù)和平臺,并最終構(gòu)建統(tǒng)一的、高性能的視覺AI系統(tǒng)。
基礎(chǔ)模型科研需要堅持長期主義
圍繞“大”和“統(tǒng)一”的研究趨勢,曠視基礎(chǔ)模型科研聚焦于通用圖像大模型、視頻理解大模型、計算攝影大模型和自動駕駛感知大模型四個方向,并取得了多項突出的科研成果。比如,在通用大模型方面,曠視提出了一種基于大Kernel的CNN和MLP設計范式。在自動駕駛感知大模型方面,曠視新提出的BEVDepth在權(quán)威的Benchmark NuSenses上,目前是Camera賽道上的第一名。此外,去年提出的一個非常簡單、通用,且高效的目標檢測框架YOLOX的GitHub Star已經(jīng)超過6000個。
張祥雨強調(diào),基礎(chǔ)模型科研需要堅持長期主義,曠視將始終以原創(chuàng)、實用和本質(zhì)作為基礎(chǔ)科研的指導原則,致力于解決人工智能最本質(zhì)的難題。