根據(jù)ML大牛吳恩達提出的著名二八定律:80%數(shù)據(jù)+20%模型=更好的AI。他認為,一個機器學(xué)習(xí)團隊80%的工作應(yīng)該放在數(shù)據(jù)準備上,確保數(shù)據(jù)質(zhì)量是最重要的工作。如果更多地強調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機器學(xué)習(xí)的發(fā)展會更快。
而隨著中國自動駕駛產(chǎn)業(yè)商業(yè)化落地的高速推進,市場對于數(shù)據(jù)的需求也正在呈現(xiàn)急速上升的趨勢。根據(jù)公開數(shù)據(jù),預(yù)計至2030年,中國運營的自動駕駛車輛將達3000萬輛,或?qū)⒊蔀槿蜃畲蟮淖詣玉{駛市場。
總體來看,整個自動駕駛正處于L2級自動駕駛向L3級發(fā)展的階段,場景越來越復(fù)雜的同時,也帶來了對于3D等更高維度、更高質(zhì)量數(shù)據(jù)的巨大需求。而另一方面,自動駕駛?cè)a(chǎn)業(yè)鏈的企業(yè)數(shù)量正在飛速擴展,包括傳統(tǒng)車企、車企相關(guān)互聯(lián)網(wǎng)公司、跨界互聯(lián)網(wǎng)公司、新型自動駕駛相關(guān)公司等在內(nèi)的企業(yè),也讓我們看到了更大的數(shù)據(jù)需求。
自動駕駛數(shù)據(jù)的重要程度正在持續(xù)上升
如果說智能化1.0階段,車企拼的是技術(shù)的快速落地和高階能力的標桿效應(yīng),那么2.0階段就是拼規(guī)?;钶d。
根據(jù)高工智能汽車研究院發(fā)布的《2023-2025年智能網(wǎng)聯(lián)產(chǎn)業(yè)趨勢報告》顯示,今年1-10月,前向ADAS(L2含NOA)同比上年增長67.11%。NOA(導(dǎo)航輔助駕駛)同比上年增長116.25%。
當前,軟件和數(shù)據(jù)已成為智能汽車的核心增量。在很多業(yè)內(nèi)人士看來,打造一套可用的智能駕駛系統(tǒng)并不難,但開發(fā)和維護可擴展和可靠的完整數(shù)據(jù)驅(qū)動解決方案才是真正面臨的挑戰(zhàn)。這意味著,智能駕駛系統(tǒng)真正實現(xiàn)基于數(shù)據(jù)+軟件定義的全新模式。
眾所周知,數(shù)據(jù)貫穿了整個AI的生命周期,從數(shù)據(jù)獲取,數(shù)據(jù)準備、模型訓(xùn)練和部署、再到人工模型評估。可以看到,在中國市場,數(shù)據(jù)服務(wù)的價值也已然明朗。
高工智能汽車研究院預(yù)計,接下來兩三年仍是攝像頭上車的市場紅利期,預(yù)計到2025年中國市場單車搭載攝像頭將提升至7-8顆。同時前向雙目、三目,周視等更多攝像頭配置成為主流,基于數(shù)據(jù)認知的訓(xùn)練也成為剛需。
另一方面,4D毫米波雷達以及激光雷達的搭載也正處于最關(guān)鍵的導(dǎo)入期,這帶來了一個全新的市場:多傳感器感知的數(shù)據(jù)融合。此外,艙內(nèi)人機交互的體驗升級,也同樣需要數(shù)據(jù)迭代支持。這也再次表明,無論是在自動駕駛還是輔助駕駛領(lǐng)域,數(shù)據(jù)標注的需求量都將迎來增長的高峰期。
自動駕駛數(shù)據(jù)標注當前面臨的難點
作為產(chǎn)業(yè)鏈的重要一環(huán),澳鵬Appen同樣深刻感受到自動駕駛市場需求的火熱:尤其在今年,自動駕駛的數(shù)據(jù)標注需求更是呈現(xiàn)爆發(fā)式增長。
2020年澳鵬Appen(中國)做到4.7m美金的營收,2021年是24.7m美金,實現(xiàn)了421%的增長;2021年上半年141%增長大部分是來自自動駕駛,目前自動駕駛占總業(yè)務(wù)量60%以上,澳鵬Appen(中國)一半以上的客戶來自自動駕駛。
然而,隨著業(yè)界對于數(shù)據(jù)標注需求量的爆發(fā),過去簡單粗暴的“人力堆疊”已無法滿足當前對于“高質(zhì)高量”數(shù)據(jù)供不應(yīng)求的行業(yè)痛點。
要知道,在自動駕駛領(lǐng)域,數(shù)據(jù)標注幾乎沒有出錯的余地,也不容缺少關(guān)鍵用例。這就導(dǎo)致自動駕駛汽車的數(shù)據(jù)采集和標注是非常耗時的資源密集型過程。同時這也是為什么一直以來自動駕駛企業(yè)會面臨上市時間延遲、產(chǎn)品性能堪憂以及推廣困難等問題。
澳鵬Appen(中國)產(chǎn)品及研發(fā)總監(jiān)錢程表示,伴隨L3級自動駕駛的進階升級,自動駕駛廠商對艙外數(shù)據(jù)服務(wù)的需求與日俱增,其中既包括數(shù)據(jù)需求量的增長,也有更復(fù)雜的數(shù)據(jù)類型的變化。行業(yè)對于激光雷達3D點云數(shù)據(jù)的大量需求,也讓數(shù)據(jù)標注的工作變得更為復(fù)雜,數(shù)據(jù)成本急劇上升。
而對于下游企業(yè)而言,如何低成本獲取高質(zhì)量數(shù)據(jù)就成了他們在這個時代的剛需。
澳鵬Appen(中國)產(chǎn)品及研發(fā)總監(jiān)錢程認為,自動駕駛數(shù)據(jù)標注當前的技術(shù)主要面臨以下難點:
1:隨著自動駕駛市場的爆發(fā)式增長,總體數(shù)據(jù)量增大使得平臺業(yè)務(wù)吞吐量增大,這對于工作流的數(shù)據(jù)流轉(zhuǎn)效率、穩(wěn)定性提出了更高要求;
2:采集到的數(shù)據(jù)精度提高、數(shù)據(jù)稠密度的提升,導(dǎo)致需要處理的單條數(shù)據(jù)變大,標注員設(shè)備可能比較低端,需要加大力度在研發(fā)上支持工具在各種高低端設(shè)備上的正常使用;
3:采集設(shè)備越來越多樣化和復(fù)雜,使得數(shù)據(jù)類型增多,產(chǎn)生包括4D傳感器數(shù)據(jù)等多傳感器數(shù)據(jù)融合標注的需求;
4:數(shù)據(jù)成本和企業(yè)降本增效的需求,對標注效率和管理能力的要求越來越高,需要不斷打磨和優(yōu)化工具功能以及項目管理功能;
5:隨著自動駕駛商業(yè)化落地進程的加快,客戶需求也越來越細化和多變,需要加大投入模型輔助標注的研發(fā)并針對不同項目進行定制化的模型開發(fā)。
可以看到,為了解決以上難點,數(shù)據(jù)服務(wù)企業(yè)采用的數(shù)據(jù)標注技術(shù)已然從最早的單機標注工具演進為數(shù)據(jù)標注平臺,繼而升級為現(xiàn)階段的智能數(shù)據(jù)標注平臺/企業(yè)級AI數(shù)據(jù)標注平臺。