近日,Meta官方博客宣布,推 出 新 AI模 型 SegmentAnythingModel(SAM)分割一切模型,提出能夠?qū)θ魏螆D像或視頻中的任何物體進(jìn)行識別、圖像分割和一鍵摳圖。此外,華為云AI領(lǐng)域首席科學(xué)家田奇在中國人工智能大模型技術(shù)高峰論壇上提出,未來隨著盤古系列大模型落地,AI視覺在下游應(yīng)用中會加速滲透。
業(yè)內(nèi)人士表示,目前SAM模型及數(shù)據(jù)集均為開源,可以靈活集成于更大的AI系統(tǒng),隨著SAM的演進(jìn)與發(fā)展,該技術(shù)可能會成為工業(yè)質(zhì)檢、AR/VR、自動駕駛、衛(wèi)星遙感等多領(lǐng)域的強(qiáng)大的輔助工具,看好SAM等圖像分割模型在機(jī)器視覺中的應(yīng)用。
事件驅(qū)動 Meta推出SAM模型
4月6日,Meta宣布推出Segmen-tAnything工具,SAM可準(zhǔn)確識別圖像中的對象,可以識別圖像和視頻中的單個物體,甚至是訓(xùn)練中沒有遇到的物體。除此之外,Meta還發(fā)布了SegmentAnything1-Bilionmask數(shù)據(jù)集(SA-1B),這更是有史以來發(fā)布的最大分割數(shù)據(jù)集。開發(fā)者可以在SAM模型技術(shù)上,開發(fā)出功能更強(qiáng)大、影響范圍更廣的人工智能,應(yīng)用于各種領(lǐng)域。
目前為特定用例創(chuàng)建準(zhǔn)確的分割模型是大多數(shù)AI無法完成的任務(wù),因?yàn)樗枰夹g(shù)專家進(jìn)行高度專業(yè)化的工作,并需要獲得極其強(qiáng)大的AI訓(xùn)練基礎(chǔ)設(shè)施和大量有注釋和特定領(lǐng)域的數(shù)據(jù)集,而Meta表示,上述難題都是SAM和SA-1B能夠克服的問題,通過減少對特定任務(wù)的建模專業(yè)知識、訓(xùn)練計(jì)算和定制數(shù)據(jù)注釋的需求來幫助研究人員。
英偉達(dá)人工智能科學(xué)家JimFan表示,此次SAM最大的一點(diǎn)突破是它已經(jīng)基本能夠理解“物品”的一般概念,即使對于未知對象、不熟悉的場景都能比較準(zhǔn)確的理解,因此他表示,相信SAM的出現(xiàn)會是在計(jì)算機(jī)視覺領(lǐng)域里的GPT-3時刻。
MetaSAM模型的推出引發(fā)市場對計(jì)算機(jī)視覺的關(guān)注,而機(jī)器視覺和計(jì)算機(jī)視覺關(guān)系緊密。機(jī)器視覺技術(shù),是一門涉及人工智能、神經(jīng)生物學(xué)、心理物理學(xué)、計(jì)算機(jī)科學(xué)、圖像處理、模式識別等諸多領(lǐng)域的交叉學(xué)科。機(jī)器視覺主要用計(jì)算機(jī)來模擬人的視覺功能,從客觀事物的圖像中提取信息,進(jìn)行處理并加以理解,最終用于實(shí)際檢測、測量和控制。
繼Meta發(fā)布SAM后,智源研究院視覺團(tuán)隊(duì)推出通用分割模型SegGPT(Seg-mentEverythingInContext)。與SAM的精細(xì)標(biāo)注能力相比,SegGPT模型更偏重于批量化標(biāo)注分割能力,無論是在圖像還是視頻環(huán)境,用戶在畫面上標(biāo)注識別一類物體,即可批量化識別分割出其他所有同類物體。從測試結(jié)果看,研究人員在廣泛的任務(wù)上對SegGPT進(jìn)行了評估,包括少樣本語義分割、視頻對象分割、語義分割和全景分割,結(jié)果顯示SegGPT模型同樣展現(xiàn)出強(qiáng)大的零樣本場景遷移能力,并在COCO和PASCAL等經(jīng)典CV數(shù)據(jù)集上取得最優(yōu)性能。
行業(yè)前景 國產(chǎn)機(jī)器視覺成長提速
計(jì)算機(jī)視覺是指用攝像機(jī)和計(jì)算機(jī)代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等,通過計(jì)算機(jī)實(shí)現(xiàn)人的視覺功能,對客觀世界的三維場景的感知、識別和理解,通常有仿生學(xué)和工程兩類方法。計(jì)算機(jī)視覺自20世紀(jì)40年代萌芽,歷經(jīng)三次浪潮,自2006年Hinton在神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)領(lǐng)域取得突破后,實(shí)現(xiàn)飛速發(fā)展。計(jì)算機(jī)視覺下游應(yīng)用廣泛,可通過人臉識別、視頻監(jiān)控處理、網(wǎng)絡(luò)圖像分析、測溫通行、人機(jī)交互等功能垂直賦能各行各業(yè),使用場景包括智慧城市、智慧零售、智慧醫(yī)療、智能駕駛、智能家居、工業(yè)制造等。
機(jī)器視覺可以被認(rèn)為是工業(yè)化的計(jì)算機(jī)視覺,在工業(yè)領(lǐng)域,計(jì)算機(jī)視覺為機(jī)器視覺提供軟件算法,而機(jī)器視覺提供傳感器模型,系統(tǒng)構(gòu)造等,可廣泛應(yīng)用于3C電子制造、鋰電池、光伏、半導(dǎo)體等行業(yè)。
根據(jù)咨詢機(jī)構(gòu)弗若斯特沙利文數(shù)據(jù),我國計(jì)算機(jī)視覺市場規(guī)模一直保持逐年增長,從2018年的79億元增長至2020年的167億元,年均復(fù)合增長率達(dá)45.39%,預(yù)計(jì)2022年我國機(jī)器視覺市場規(guī)模將進(jìn)一步增長至351億元。根據(jù)高工機(jī)器人產(chǎn)業(yè)研究所(GGII)統(tǒng)計(jì)數(shù)據(jù),我國機(jī)器視覺市場國模有望從2021年的107.8億元增長至2025年的311.57億元,CAGR高達(dá)30.4%。
值得一提的事,政策支持疊加應(yīng)用端拓展,國產(chǎn)機(jī)器視覺成長提速。一方面,我國《“十四五”智能制造發(fā)展規(guī)劃》中提到,要大力發(fā)展智能制造裝備,推動先進(jìn)工藝、信息技術(shù)與制造裝備深度融合,產(chǎn)業(yè)鏈自主可控需求推動本土機(jī)器視覺廠商持續(xù)自主創(chuàng)新、縮小與海外龍頭的實(shí)力差距;另一方面,全球人工智能經(jīng)濟(jì)持續(xù)發(fā)酵,AI應(yīng)用端市場多點(diǎn)開花并加速落地,在“AI+”、“工業(yè)4.0”和“中國制造2025”背景下,智能工廠、智能制造成為工業(yè)發(fā)展大趨勢,在機(jī)器視覺方面率先實(shí)現(xiàn)自主技術(shù)創(chuàng)新突破的國產(chǎn)廠商有望充分受益。