2020年2月,“人工智能訓(xùn)練師”正式成為新職業(yè)并納入國家職業(yè)分類目錄,隨著數(shù)據(jù)標(biāo)注這一行業(yè)被越來越多的人所熟知,之前關(guān)于數(shù)據(jù)標(biāo)注我們也講過很多,今天咱們從數(shù)據(jù)標(biāo)注本身出發(fā),說說數(shù)據(jù)標(biāo)注這個行業(yè)。
一、什么是數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注是人工智能產(chǎn)業(yè)的基礎(chǔ),是機(jī)器感知現(xiàn)實世界的起點。從某種程度上來說,沒有經(jīng)過標(biāo)注的數(shù)據(jù)就是無用數(shù)據(jù),美國加州科技大學(xué)校長秦志剛教授在接受科技日報記者采訪時表示,機(jī)器識別事物主要通過物體的一些特征。被識別的物體還需要通過數(shù)據(jù)標(biāo)注才能讓機(jī)器知道這個物體是什么。
二、數(shù)據(jù)標(biāo)注的工作內(nèi)容
人工智能就是讓機(jī)器具備人類的思維和行為方式,而數(shù)據(jù)標(biāo)注就是通過人類標(biāo)注正確的數(shù)據(jù)樣本,讓機(jī)器學(xué)習(xí)成長的一種方式。數(shù)據(jù)標(biāo)注師的工作就是對圖片、語音、文本、視頻等數(shù)據(jù)內(nèi)容進(jìn)行標(biāo)注,使用的標(biāo)注工具通常有2D框、3D框、點標(biāo)注、線標(biāo)注、語義分割等等。
三、常見的數(shù)據(jù)標(biāo)注類型
數(shù)據(jù)標(biāo)注的類型非常多,比如文本分類,圖片拉框,語音轉(zhuǎn)寫,人像打點等。下來我們就幾個常見的標(biāo)注業(yè)務(wù)進(jìn)行簡單的講解。
1.圖像的拉框/打點
圖像標(biāo)注的是最常見的一種標(biāo)注形式,且對標(biāo)注人員的要求不高。計算機(jī)需要看到人類眼睛看到的東西。例如,人類有識別和分類物體的能力。同樣,我們可以使用計算機(jī)視覺來解釋它接收到的視覺數(shù)據(jù)。這就是圖像標(biāo)注的作用。
常見的領(lǐng)域:人體拉框、車輛車牌、機(jī)械影像等主要應(yīng)用在人體識別、物體識別等領(lǐng)域。
2.語音轉(zhuǎn)寫
語言標(biāo)注與生活中的眾多方面息息相關(guān)。語音轉(zhuǎn)寫指聽一段語音,語音標(biāo)注即標(biāo)注人員把所聽到語音的內(nèi)容轉(zhuǎn)錄出來形成所對應(yīng)的“文字”,并不斷修正語音和文字之間的誤差。
語音標(biāo)注常見的領(lǐng)域:客服錄音語音標(biāo)注、即時通訊工具語音標(biāo)注等。主要應(yīng)用于語音識別領(lǐng)域。
3.文本標(biāo)注
文本標(biāo)注指將文字、符號在內(nèi)的文本進(jìn)行標(biāo)注,讓計算機(jī)能夠讀懂識別,從而應(yīng)用于人類的生產(chǎn)生活領(lǐng)域!
文本標(biāo)注的常見領(lǐng)域:文本標(biāo)注應(yīng)用范圍很廣泛,例如客服行業(yè)、金融行業(yè)、醫(yī)療行業(yè)等。
應(yīng)用類型主要有數(shù)據(jù)清洗、語義識別、實體識別、場景識別、情緒識別、應(yīng)答識別等。
4.OCR
OCR是光學(xué)字符識別的縮寫,OCR技術(shù)簡單來說就是將文字信息轉(zhuǎn)換為圖像信息,然后再利用文字識別技術(shù)將圖像信息轉(zhuǎn)化為可以使用的輸入技術(shù)。其本質(zhì)就是利用光學(xué)設(shè)備去捕獲圖像并識別文字,將人眼的能力延伸到機(jī)器上。
目前OCR文字識別行業(yè)上主要應(yīng)用于票據(jù)、身份驗證、內(nèi)容審核、教育、保險、醫(yī)療、交通以及拍照識別/翻譯等領(lǐng)域上。
5.3D拉框/打點
3D標(biāo)注用于從2D圖片和視頻中獲得空間視覺模型,測量物體間的相對距離和得到滅點,目標(biāo)物體包括車輛、行人、廣告標(biāo)志和樹木等。
四、數(shù)據(jù)標(biāo)注行業(yè)及數(shù)據(jù)標(biāo)注崗位淺析
行業(yè)持續(xù)性:
如果將人工智能比作“火箭”,那么,數(shù)據(jù)就是助推火箭上升的“燃料”,人工智能與數(shù)據(jù)標(biāo)注的關(guān)系密不可分,人工智能無論是在企業(yè)需求還是在產(chǎn)業(yè)鏈都是穩(wěn)定增長,數(shù)據(jù)標(biāo)注行業(yè)基本會隨之發(fā)展的。
工作多樣性:
不同的平臺及行業(yè)對于數(shù)據(jù)標(biāo)注的規(guī)則和要求各有不同,因此標(biāo)注行業(yè)會隨著訂單去接觸到新鮮的事物,激發(fā)學(xué)習(xí)能力,相比普通的職業(yè)可能會更早地接觸到未來各行各業(yè)的發(fā)展方向,及未來生活的真實場景,從而有一定的時間差和信息差的優(yōu)勢,找到更多的機(jī)會。