近日麻省理工學(xué)院(MIT)計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)的研究人員研發(fā)出了一個(gè)新的人工智能系統(tǒng),這個(gè)人工智能系統(tǒng)能夠通過觸覺信息生成視覺信息,也可以根據(jù)視覺片段預(yù)測觸覺。
相關(guān)論文將在下周的計(jì)算機(jī)視覺和模式識(shí)別會(huì)議上將發(fā)表一篇新的論文,這篇論文由CSAIL博士生Yun Zhu Li、MIT教授Russ Tedrake、Antonio Torralba和MIT博士后Jun Yan Zhu共同創(chuàng)作。
一、這個(gè)AI可以將視覺信息和觸覺信息相互進(jìn)行轉(zhuǎn)換
該小組的系統(tǒng)使用了GANs(生成對抗網(wǎng)絡(luò))把觸覺數(shù)據(jù)拼湊出視覺圖像。其中GANs的神經(jīng)系統(tǒng)被應(yīng)用在兩個(gè)部分,包括產(chǎn)生樣本的發(fā)生器和能夠區(qū)分產(chǎn)生樣本和真實(shí)樣本的鑒別器的兩部分神經(jīng)網(wǎng)絡(luò)。
樣本的獲取來源于一個(gè)名為visgel的數(shù)據(jù)集,visgel擁有超過300萬個(gè)視覺/觸覺數(shù)據(jù)對,其中包括12000個(gè)視頻剪輯,剪輯中包含了近200個(gè)物體(如工具、織物和家用產(chǎn)品)。
這一人工智能系統(tǒng)首先將識(shí)別機(jī)器人所接觸物體區(qū)域的形狀和材質(zhì),并在參考的數(shù)據(jù)集中進(jìn)行比對,最終生成所接觸部位的圖像信息。
例如:如果給出鞋子上完整的觸覺數(shù)據(jù),這個(gè)模型就可以確定鞋子上最有可能被觸摸的位置。
數(shù)據(jù)集中參考照片有助于對環(huán)境的詳細(xì)信息進(jìn)行編碼,從而使機(jī)器學(xué)習(xí)模型能夠自我改進(jìn)。在這個(gè)研究中,他們在庫卡機(jī)器人手臂上安裝了一個(gè)觸覺式凝膠視覺傳感器,這個(gè)傳感器由麻省理工學(xué)院的另一個(gè)小組設(shè)計(jì),可以將當(dāng)前的圖像與參考圖像進(jìn)行比較,以確定觸摸的位置和比例。
二、這個(gè)系統(tǒng)可以幫助機(jī)器人進(jìn)行自我學(xué)習(xí)
“通過觀察這個(gè)場景,我們的模型可以想象到觸摸到一個(gè)平坦的表面或鋒利的邊緣的感覺?!盋SAIL博士生 Yun Zhu Li表示。
“在黑暗中進(jìn)行接觸的時(shí)候,僅從觸覺上,我們的人工智能模型就可以預(yù)測與環(huán)境的交互作用,把視覺和觸覺這兩種感覺結(jié)合在一起就可以強(qiáng)化機(jī)器人的能力,減少我們在處理和抓取物體的任務(wù)中可能需要的數(shù)據(jù)?!?/p>
研究人員注意到,當(dāng)前的數(shù)據(jù)集只有在受控環(huán)境中交互的例子,但是其中一些細(xì)節(jié),比如物體的顏色和柔軟度,仍然難以被系統(tǒng)推斷出來。
不過,他們說,他們的方法可以在生產(chǎn)環(huán)境中為集成人類機(jī)器人無縫銜接地打下基礎(chǔ),尤其是在缺少視覺數(shù)據(jù)的任務(wù)上。比如:當(dāng)燈熄滅或工人必須盲目地接觸容器時(shí)。