在理解句子、段落、書本和有聯(lián)系的對話上,人類的表現(xiàn)仍然好得多。進行關(guān)鍵詞搜索是一回事。只要有關(guān)鍵詞,你就能在網(wǎng)頁上找到你想要的任何句子,但如果想要一個能夠以你信任的方式為你摘要文章的系統(tǒng),我們還差得很遠。現(xiàn)在,最接近于此的可能就是谷歌翻譯了,它可以將你的新聞故事翻譯成另一種語言,但還達不到你能信任的水平。重申一下,信任是很重要的一部分。你永遠不會將一份法律文件放進谷歌翻譯中,還認為答案是正確的。
Gary Marcus 是 Geometric Intelligence 公司的 CEO 和創(chuàng)始人;紐約大學(xué)心理學(xué)教授;著有 Guitar Zero: The New Musician and the Science of Learning 一書。
以下是 Gary Marcus 關(guān)于人工智能、大數(shù)據(jù)、神經(jīng)科學(xué)和心理學(xué)等方面的演講。
這些天來,我擔(dān)憂和思考的是——我們是否真的正在人工智能領(lǐng)域取得進展。我也對神經(jīng)科學(xué)領(lǐng)域同樣的問題感興趣:我們感覺我們正在取得進展,但事實是這樣嗎?
先談人工智能?,F(xiàn)在人工智能領(lǐng)域取得了巨大進展,或者說至少引起了人們巨大興趣——比我一生中任何時候的興趣都大。還是小孩時,我就嘗試編程計算機玩國際象棋和制作自然語言數(shù)據(jù)庫等,那時,我就對人工智能產(chǎn)生興趣了,盡管當(dāng)時做得不是很好。
我一直關(guān)注著這一領(lǐng)域,它也一直起起伏伏。還存在過幾次人們完全停止關(guān)注人工智能的「人工智能冬天」。那時做人工智能的人都不再說他們在人工智能領(lǐng)域。而現(xiàn)在,每個人都興奮不已。他們說:「是的,我做的是人工智能?!苟趦赡曛?,他們則會說:「我做的是統(tǒng)計學(xué)?!?/p>
盡管有關(guān)人工智能的炒作很多,而且也有大量資金被投進人工智能領(lǐng)域,但我覺得該領(lǐng)域正走在錯誤的方向上。現(xiàn)在在一些特定的方向——主要是深度學(xué)習(xí)和大數(shù)據(jù)——上取得了局部最大值,得到了一些唾手可得的成果。人們現(xiàn)在對大數(shù)據(jù)及其給他們帶來的東西感到非常興奮,但我不確定這是否能讓我們更加靠近人工智能中更加深層的問題,比如我們是如何理解語言,或我們是怎么推理這個世界的。
在特定情況下,大數(shù)據(jù)模式是很不錯的。其中最了不起的一個進步是在語音識別方面。現(xiàn)在,你可以對你的手機說話,而它大部分時間都能正確轉(zhuǎn)錄你所說的大部分內(nèi)容。那并不意味著它理解你所說的。Siri 的每一次更新都會增加一個新功能。開始你可以詢問電影時間,然后是體育節(jié)目等等。
自然語言理解正在慢慢發(fā)展。你不能將這段對話口述給 Siri,然后期待它得出各種結(jié)論。但是,你能期待它把這些單詞弄對,而且這是一個大的進步。事實證明,當(dāng)有大量蠻力計算數(shù)據(jù)可用時,它的效果最好。當(dāng)你在安靜的房間里對白人男性母語者進行語音識別時,它的效果相當(dāng)好。但如果你在一個嘈雜的環(huán)境中,或你不是母語者,或如果你是女人或兒童,這個語音識別的效果就沒那么好了。語音識別是蠻力計算。它和考慮大量位置(positions)的深藍(Deep Blue)的蠻力計算不一樣;語音識別意義上的蠻力計算需要大量數(shù)據(jù)才能有效地工作。
為了有效進行思考,孩子遠不需要那么多的數(shù)據(jù)。當(dāng)你進入沒那么多數(shù)據(jù)的領(lǐng)域時,系統(tǒng)就不能同樣地發(fā)揮作用。自然語言就是一個很好的例子。喬姆斯基和我的導(dǎo)師史蒂芬·平克曾總是談?wù)摼渥拥臄?shù)量多么無限,而數(shù)據(jù)量又很有限,他們將其稱之為缺乏刺激論(poverty of the stimulus argument)。在自然語言領(lǐng)域,這個理論正確而有力。
首先,數(shù)據(jù)很昂貴。轉(zhuǎn)錄詞的樣本很便宜,你可以在 Amazon Turk 或類似的地方叫一些人做這些事。獲取標記的樣本——亦即,對于一個句子給出它的含義——則很昂貴。你需要一位語言學(xué)家來做這樣的事?;旧暇渥拥臄?shù)量是無限的,沒人有那種數(shù)據(jù)庫, 在這種數(shù)據(jù)庫中,他們可以將所有自己理解的句子都用來訓(xùn)練深度學(xué)習(xí),然后期待它能理解一個更廣義的語言片段。
同樣,我們對機器閱讀(machine reading),或者能夠看懂電視節(jié)目并說明發(fā)生了什么的機器,也心存幻想。顯然,一些三個字母的機構(gòu)(the three-letter agencies)想做這件事。但是,如果你想在科學(xué)或技術(shù)上取得進步,就會想要采用所有現(xiàn)有文獻,并以某種人類所不能的方式融合它。這是我的人工智能工作中的一部分內(nèi)容,因為這有可能完全改變醫(yī)學(xué)領(lǐng)域,發(fā)明我們甚至從未想到過的科學(xué)。為了做到這一點,我們需要能夠閱讀的機器;而為了得到它,我們需要超越數(shù)據(jù)的方法。沒有足夠的數(shù)據(jù)量去支持你以蠻力的方式來科學(xué)地理解事物。
每當(dāng)取得微小進步,我們就會非常興奮,但是,微小的進步并沒有讓我們更進一步。比如,許多新聞報道了谷歌的圖片說明。還曾上了泰晤士報的頭版。你可以給這個系統(tǒng)展示一些照片,而且系統(tǒng)表現(xiàn)不錯。你給它展示一張有一只狗、一個人和一個飛盤的照片,系統(tǒng)可能會說,那是一只叼著飛盤的狗。似乎有一種理解了語言的錯覺。但是,破壞這些系統(tǒng)很容易。給它展示一張圖片,上面是一個貼著一些貼紙的路標,系統(tǒng)會說,那是一個冰箱,里面有食物?;卮鸷芷婀郑谶^去,這種回答能把你送到奧利佛·薩克斯醫(yī)生那里(大腦有問題的意思——譯者)。這幾乎就像身患一種神經(jīng)功能性損傷。如果系統(tǒng)獲取了大量數(shù)據(jù),可能會表現(xiàn)良好,如果數(shù)據(jù)不夠,就會很糟糕。
你可以把這種情況與人類進行對比。你從沒聽過我今天說的任何話——也可能聽過一兩句——但是,你仍然能夠理解它們。我們距離這種理解水平,還很遠。
另一個讓人們激動的事是深度加強學(xué)習(xí)(deep reinforcement learning),或者說結(jié)合了深度學(xué)習(xí)的強化學(xué)習(xí)。就是它驅(qū)動著 DeepMind 著名的 Atari 游戲系統(tǒng)。在某種程度上來說,這似乎很有說服力。
這個系統(tǒng)僅將像素作為輸入,而且系統(tǒng)要做的就是移動游戲柄。就大多數(shù)Atari游戲而言,系統(tǒng)玩的比人好,但是,在 Atari 游戲世界比在現(xiàn)實世界更有效,要歸功于一些隱藏的竅門。你會以為這個系統(tǒng)真的不錯,讓我們也使用這種技術(shù),把它放到機器人身上吧,這樣,就能讓機器人打掃家里,照顧小孩。然而,現(xiàn)實情況是,在 Atari 游戲系統(tǒng)中,首先,數(shù)據(jù)非常便宜。你可以一遍又一遍的玩一個游戲??梢院芸斓玫綌?shù)千兆字節(jié)數(shù)據(jù)而無需任何真實成本。
如果你正在談?wù)摷抑袚碛幸慌_機器人的話——我仍然想著 Rosie ,會照顧家庭的機器人—— 如果它出錯,你是承擔(dān)不起后果的。DeepMind 系統(tǒng)進行了大規(guī)模試錯。如果家里有一臺機器人,你不可能總是讓它無數(shù)次撞到你的家具。你甚至一次也不想讓它把你的貓放入洗碗機。你不可能得到(類似 DeepMind )同等規(guī)模的數(shù)據(jù)。因此,一臺現(xiàn)實環(huán)境中的機器人必須能從少量數(shù)據(jù)中快速學(xué)習(xí)。
Atari 系統(tǒng)的另一種隱藏的竅門,可能不會立即顯現(xiàn)出來,但是,在任一給定的時刻,你有18種選擇。手柄可以往8個方向移動或者不移動手柄,你還可以選擇按攻擊鍵或者不按。你有18種選擇。在現(xiàn)實世界,你經(jīng)常有無限種選擇,或者至少是大量的選擇。如果你只有18種選擇,你就會去研究:如果我這么操作,然后再操作這個——我的分數(shù)會是多少?如果我改變了這個操作,會怎樣?如果我改變了那個操作,又會怎樣?
如果我們談的是可以在屋子里任意走動的機器人,或者是能夠提起、攜帶任何東西、按下按鍵的機器人,就不能以類似(DeepMind)的蠻力方式來解決問題。我們現(xiàn)在缺少比這些蠻力手段更好的技術(shù)。所有表明上的進步,都是能以前所未有的規(guī)模動用蠻力的方式取得的。蠻力方式最初驅(qū)動著深藍和玩 Atari 的游戲系統(tǒng)。它驅(qū)動著絕大部分讓我們興奮不已的進步。如果你討論的是家庭或大街上的機器人(真實世界里的東西),DeepMind 的系統(tǒng)不可能擴展應(yīng)用到這個真實世界中。
你可能也會考慮到無人駕駛汽車。你會發(fā)現(xiàn),在通常情況下,它們很不錯。如果在帕洛阿爾托的晴天行駛,它們表現(xiàn)棒極了。但是,如果你讓它們在雪天、雨天或者它們從來沒見過的天氣下行駛,就會非常困難。Steven Levy 曾經(jīng)對谷歌的汽車工廠做過一次精彩的報道,里面談到2015年末的那次勝利有多偉大,他們最終讓這些系統(tǒng)識別出樹葉了。
它們識別出葉子,這很棒,但是,還有諸多類似情景,比如,有些不同尋常的東西,沒有很多這方面的數(shù)據(jù)。我們可以根據(jù)通識進行推理。還能搞清楚這個東西可能是什么,怎么到哪兒的,但是,系統(tǒng)只是記憶東西。所以,這是一個真正的局限。
在人類行為上,可能也會發(fā)生同樣的事情。當(dāng)無人駕駛汽車在 Palo Alto (硅谷小鎮(zhèn),以高科技研究中心聞名)行駛,司機的駕駛習(xí)慣都是很放松的。但如果在紐約使用無人駕駛汽車,你會看到完全不同的駕駛習(xí)慣,人們會因為路況而發(fā)火。無人駕駛系統(tǒng)可能無法適應(yīng)這種新的駕駛習(xí)慣,誰知道會發(fā)生什么呢?,F(xiàn)有的問題還包括:無人駕駛汽車完全遵守規(guī)則,而駕駛?cè)瞬灰欢ㄍ耆袷?,如果無人駕駛汽車突然停下,駕駛?cè)丝赡軙肺病?/p>
行為模式同樣會根據(jù)不同的情況而發(fā)生變化。我們都可以通過理智和邏輯來判斷世界。如果我們看到一場游行,可能我們的大腦對于游行沒有很多數(shù)據(jù),但是我們看到游行會說:「這有很多人,所以我們停下來等一會?!够蛟S無人駕駛系統(tǒng)能夠明白這種情況,或許會被人群搞糊涂并且無法辨認這種情況,因為這種情況不符合系統(tǒng)對于一個人的定義。
更不要提在「飛車槍擊( drive-by shootings)」中會發(fā)生什么,但是,如果你想像無人駕駛系統(tǒng)被應(yīng)用在軍事方面(人們非常認真對待的情況),系統(tǒng)會出現(xiàn)同樣的問題,無人駕駛汽車在 Palo Alto 安全的環(huán)境下被訓(xùn)練,然后把它帶到伊拉克以后,沒人知道無人駕駛系統(tǒng)在有導(dǎo)彈和簡易爆炸裝置的情況下會發(fā)生什么。
機器學(xué)習(xí)的整體原理中一個很大的問題就是,它依靠于訓(xùn)練環(huán)境和測試環(huán)境,測試環(huán)境又類似于訓(xùn)練環(huán)境。本質(zhì)上,訓(xùn)練是所有它記住的數(shù)據(jù),而測試是在真實世界里會發(fā)生的情況。
人們通過實證的方法來達到機器學(xué)習(xí)的目標。工程師試驗一個訓(xùn)練環(huán)境和一個測試環(huán)境,然后說:「這看起來可行?!沟牵谶@個過程中沒有正式的證明和保證。最近,人們在談?wù)撽P(guān)于人工智能的程序驗證風(fēng)險(用驗證過的程序來自動證明其他程序的正確性),舉個例子,你怎么知道宇宙飛船會做它應(yīng)該做的事情。
當(dāng)應(yīng)用機器學(xué)習(xí)技術(shù)時,機器學(xué)習(xí)很大程度上取決于測試環(huán)境和之前的訓(xùn)練數(shù)據(jù)有多么相似。當(dāng)無人駕駛汽車在 Palo Alto 被訓(xùn)練時,我們很難知道在伊拉克使用這個系統(tǒng)會發(fā)生什么。
機器學(xué)習(xí)的一般問題在于,如果一些情況和它之前看到過的類似,它表現(xiàn)就會足夠好。接著,在需要近乎百分百成績表現(xiàn)的地方,你就會遇到問題。很多讓人興奮的深度學(xué)習(xí)成果都是諸如 ImageNet(計算機視覺識別)這樣的成果。你有1000種分類,而且在識別不同品種的狗方面,深度學(xué)習(xí)優(yōu)于人類。
這種讓每個人都興奮的技術(shù)是深度學(xué)習(xí),它涉及到對于人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用。自上世紀五十年代起,神經(jīng)網(wǎng)絡(luò)的概念在就被提出來,經(jīng)歷了三四次的起起伏伏:他們有時被認為是人工智能領(lǐng)域的冠軍,緊接著又消失。但現(xiàn)在,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)比之前任何時候都好。深度學(xué)習(xí)包含一組代表著某些信息的輸入節(jié)點(input nodes)——比如像素,同時包含輸出——比如一些問題:我現(xiàn)在怎么操作操縱桿,中間叫做隱層(hidden units)的東西讓你可以捕捉非線性特性。
近幾年最大的變化在于,人們已經(jīng)知道如何在輸入層和輸出層中間添加越來越多的隱層,這些隱層讓系統(tǒng)可以辨認出更加復(fù)雜的場景,這是一個很大的進步。許多的進步都是一些人們沒有意識到的小的技術(shù)手段,這些不足以讓人們洞察其根本,但是,這些技術(shù)手段已經(jīng)讓深度學(xué)習(xí)的表現(xiàn)越來越好了。
當(dāng)今還出現(xiàn)了一種現(xiàn)象,那就是人們已經(jīng)開始用GPU了,即原為視頻游戲設(shè)計的圖像處理單元。GPU對深度學(xué)習(xí)影響很大,因為圖像處理單元是并行處理數(shù)據(jù)的,可以同時進行很多任務(wù)。結(jié)果證明,這種算法,比之前的算法速度快得多,處理規(guī)模也大大增加,達到了人們真正想要的效果。
人工智能領(lǐng)域潮起潮落,跌宕起伏。50年代,每個人聽到人工智能都心潮澎湃。1969年, Marvin Minsky 和 Seymour Papert 出版了一本書,認為不能證明神經(jīng)網(wǎng)絡(luò)可應(yīng)用到其他方面,后來神經(jīng)網(wǎng)絡(luò)完全離開了人們的視野。接著,80年代的人發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)可以用另外一個技巧——我剛剛提到的隱藏單元——來表示非線性。這也是Minsky 和 Papert 說過的不能保證有效運行的一種情況。沒有人能夠保證一定可行,但是,他們發(fā)現(xiàn)了這個技巧,并為此花費了大量時間,他們充滿著研究的熱情。
1989年,我畢業(yè)的時候,所有人都在喋喋不休地討論神經(jīng)網(wǎng)絡(luò)。然后這些人消失了。專家體系也存在這種現(xiàn)象。興趣像潮水一樣涌來,然后又無影無蹤。我們這個領(lǐng)域的人最擔(dān)心的就是這種現(xiàn)象會不會再次發(fā)生。現(xiàn)在的人們?yōu)槭裁磳ι窠?jīng)網(wǎng)絡(luò)有如此高的興趣,這種熱情能夠保持下去嗎?
這種興趣來源于一種匯聚,有人說是三種事物的匯聚,其實是兩種。我聽有人說這三樣是巨型計算機,大數(shù)據(jù),新算法。但是,新算法真的不存在。人們現(xiàn)在使用的算法在80年代就有了,而80年代的只是50年代算法某種方式的變形。但是,大數(shù)據(jù)和巨型計算機是存在的,因此,這些不具有人類智慧但能夠進行蠻力數(shù)據(jù)處理的算法,在當(dāng)今有很好的應(yīng)用前景。
比如,你能夠做一個不錯的推薦引擎。在某些領(lǐng)域,不錯就代表很棒。如果你能做一個多數(shù)時間都推薦正確的引擎,沒有人在意它會偶爾錯一次。若它給你推薦了三本喜歡的書,一本不喜歡的,又有何妨?然而,在無人駕駛方面,卻需要做到萬無一失,這個領(lǐng)域的技術(shù)需要更加嚴謹??蛻艨赡軙驘o人車沒有達到他們的預(yù)期而不悅。我們還在討論這些的時候,特斯拉已經(jīng)縮小了無人車的能力范圍。他們對無人車加以限制,居民小區(qū)的某些路不能駕駛特斯拉車。
或許人們可能會不斷地前后摸索,加以比較。人們先是對技術(shù)非常興奮;認為有了一個能夠成功的算法,然后意識到這個算法不能加以泛化,比如,完全不能在紐約城很好地應(yīng)用這個算法,而且還存在風(fēng)險。最終所有問題都能解決,但是,這個問題需要十年才能解決,還是二十年,三十年,五十年?最終結(jié)果都會因人們狂熱程度而有所不同??赡茉龠^五年,互聯(lián)網(wǎng)大企業(yè)搞出了很多可以做到80%正確性的東西,但是,在打造真正穩(wěn)健的無人駕駛汽車上,我們還是無能為力。好吧,或許那個時候公眾的熱情就開始降溫了。
我擔(dān)心的不只是無人駕駛汽車的問題——而關(guān)乎科學(xué)發(fā)現(xiàn)。我想要看到癌癥被攻克。白宮不久前宣布了一項新倡議。癌癥不是某個個人就可以理解的事物,無數(shù)分子以不同的方式形成了癌癥。當(dāng)然,人類可以在這個難題上取得進展,但若僅靠我們自己,是解決不了問題的。
你可以想象,有一個人工智能系統(tǒng),可以自己在那兒閱讀科學(xué)文獻。每月關(guān)于癌癥的文章可能有 10000 多篇,沒有人能夠讀完,但是,如果我們能讓機器閱讀并理解文中描述的分子作用過程,那么,這對研究癌癥,甚至任何其他疾病的病變過程都意義重大,對科技也是如此。
現(xiàn)在,我們還沒有能實現(xiàn)那種水平的機器閱讀的系統(tǒng)?,F(xiàn)在,那仍然是一個夢想。也許到十年之后我們能得到效果好一點的個人系統(tǒng),但我們?nèi)匀徊粫湃嗡?還有能在高速公路上做一些事情的汽車,但我們不會信任它們——也許我們實現(xiàn)了比十年前效果好得多的系統(tǒng),但它們?nèi)匀徊恢档眯湃?,那么人們就可能會再次放棄?/p>
可能還會出現(xiàn)另一次「人工智能冬天」。即使一些該領(lǐng)域的領(lǐng)導(dǎo)者也在擔(dān)心這一點。我聽說吳恩達說過我們可能到達半人馬座阿爾法星的時間(比實現(xiàn)真正人工智能的時間)更早,這也太悲觀了。Yann LeCun 則可能更好地調(diào)整過自己,他認為存在另一次「人工智能冬天」的風(fēng)險,人們會認為它太難而失去熱忱。
在人工智能領(lǐng)域,我們需要做的是回到心理學(xué)。蠻力計算是很不錯;我們在很多方面都在使用它,比如語音識別、車牌識別和進行分類;但仍還有一些方面人類表現(xiàn)得更好。我們應(yīng)該研究人類,了解他們是如何做得更好的。
在理解句子、段落、書本和有聯(lián)系的對話上,人類的表現(xiàn)仍然遠遠更好。進行關(guān)鍵詞搜索是一回事。只要有關(guān)鍵詞,你就能在網(wǎng)頁上找到你想要的任何句子,但如果你想要一個能夠以你信任的方式為你摘要文章的系統(tǒng),我們還差得很遠。我們現(xiàn)在最接近于此的可能就是谷歌翻譯了,它可以將你的新聞故事翻譯成另一種語言,但還達不到你能信任的水平。重申一下,信任是很重要的一部分。你永遠不會將一份法律文件放進谷歌翻譯中,并還認為答案是正確的。
在如何讓系統(tǒng)變得知識淵博上——不只是記憶事情或挑選出相關(guān)的事實,而是融合事物——還存在一個問題。Philip Johnson-Laird 等心理學(xué)家談?wù)摰氖切闹悄J?mental model):你有一個對外面世界的模式。Daniel Kahneman 和 Anne Treisman 說的是存在對象文件(object file),它們是你頭腦中對外界事物的表征。
很多早期的人工智能因此受到了關(guān)注,這些人工智能具備現(xiàn)有的能夠?qū)κ挛镞M行建模的構(gòu)造系統(tǒng),然后這些系統(tǒng)能根據(jù)這些模型進行運作。新系統(tǒng)不能做這樣的事;它們記憶大量的參數(shù),但它們對存在的物體和人沒有整潔的記述。它們不理解直覺的心理學(xué)以及人類個體是如何與他人交互的。
有一些工作在做這樣的事,CYC 項目仍在進行。這是由偉大的人工智能先驅(qū) Doug Lenat 推出的一個三十年項目。Lenat 試圖做的是編碼大量人類知識,這樣一來,最終可以構(gòu)建這些模型。他做這件事的方式太隱秘了,還與這一領(lǐng)域的其它部分隔開了,而且還可能太早了。 80 年代當(dāng)他開始這一項目時,我們對怎么表征概率知識還所知甚少。他已經(jīng)開發(fā)出的系統(tǒng)從未產(chǎn)生過巨大的影響。很多人在寫到它時都會問其有什么真實世界的應(yīng)用。
我們至少需要回到他所做的這些事情的理念上。你可以做很多表面上的事。你可以猜到。我喜歡將其看作是真實世界的影子。如果你試圖從影子之中理解真實世界:你可以說存在一些物體,而且它們在移動——你會得到一些想法,但你也會缺失很多東西。
通過這些深度學(xué)習(xí)系統(tǒng),你會得到一些關(guān)于真實情況的想法,但你不會得到深度的表征。當(dāng)你將其遷移到機器人世界中時,因為它們與世界的粗略、膚淺的相關(guān)性并不足夠好,你可能只能得到 80% 的正確率。你的機器人需要知道桌子上的物體到底是什么、它們的結(jié)構(gòu)性質(zhì)是怎么的、什么可以或不可以被打翻、誰在那里、為什么這個人可能會做他們正在做的事。隨著我們向機器人前進并將機器人帶回家里,要求還會提高。
我們必須回到人類心理學(xué)上。人類是如何很好地,至少大部分時間里,在世界中找到方向的?大多數(shù)時候,我們能更好地預(yù)測其它人將會做的事情:我們知道一個東西什么時候會翻倒什么時候不會、什么時候可以安全地過馬路。我不是說最終的人工智能應(yīng)該是人類的復(fù)制品。事實上,有很多人走了試圖構(gòu)建人腦的仿真的這條彎路,這是非常不成熟的,也不是通向人工智能的正確道路。我們不希望得到像我們一樣記憶糟糕、可能極不擅長計算的人工智能。
終極人工智能要兼具人類擅長之事和機器擅長之事。深度學(xué)習(xí)是機器擅長的事情,而人類也有自身的長處——比如將世界表征出來,進行因果判斷,具有物理、心理學(xué)方面的直覺——這些也正是機器力所不逮之處,也是我們要更多研究認知心理學(xué)的原因。并不是說實驗室里每個人研究認知心理學(xué),而是說,要使用認知心理學(xué)工具來解釋,人們?nèi)绾紊朴谔暨x出相關(guān)信息并對未知的情況進行推理。
如果思考我的職業(yè)生涯,這條路可謂復(fù)雜地很。青少年時期,我就對人工智能感興趣,甚至早于對心理學(xué)萌生興趣?;旧?,我得出了這樣一結(jié)論:除非我們搞清楚人類的工作原理,否則我們做不出人工智能。因此,我就讀了認知科學(xué)的研究生,先是師從罕布什爾學(xué)院的 Neil Stillings,然后是 MIT 的 Steve Pinker。我的學(xué)位論文研究的是孩子如何學(xué)習(xí)語言。
很長一段時間里,我壓根兒沒有研究人工智能。這個領(lǐng)域的研究情況,也沒有讓我印象深刻的地方。我作了很多關(guān)于人類兒童的實驗研究。我之所以為世人所知恐怕就是因為對人類嬰兒的研究,試圖研究概括能力問題:嬰兒如何能從少量數(shù)據(jù)中進行概括(泛化)?
然后我寫了一本關(guān)于如何學(xué)習(xí)吉他的書——這純屬是我的中年危機作品,和人工智能一點關(guān)系都沒有。雖然那時在利用算法構(gòu)成寫書的同時,我也有做關(guān)于人工智能在音樂上應(yīng)用的相關(guān)實驗,但我沒有把這個實驗結(jié)果寫成書,因為這純屬是我自己要做的實驗。
5、6年前,我又對人工智能感興趣了。我可以感覺到,機器正變得越來越好,數(shù)據(jù)也越來越不錯。Watson 讓我印象深刻,它確實能力有限,不過,讓我驚訝的是它真的很管用。我回到這個領(lǐng)域,并意識到我一直在做的認知科學(xué)(有15到20年了吧)與這些人工智能問題是有關(guān)系的。當(dāng)時,我看到人們在這個領(lǐng)域正在做的事情,并意識到還有很多人類身上的東西研究人員沒有用到人工智能領(lǐng)域。
事實上,我感覺人工智能好像迷路了。這一領(lǐng)域的研究始于這樣一類問題: Marvin Minsky、 John McCarthy、 Allen Newell、 Herb Simon 都對心理學(xué)感興趣。現(xiàn)在這個領(lǐng)域的研究與心理學(xué)關(guān)系不大。就好像你有 100 萬或者 1000 萬個參數(shù),你需要識別貓,你會怎么做?這不是心理學(xué)的思考框架。對于一位心理學(xué)家來說,貓就是一種特殊種類的動物,它會發(fā)出特殊的聲音,以特殊的方式加入我們的家庭生活。而對于一個深度學(xué)習(xí)者來說就是一組像素和一張圖片。
心理學(xué)家思考這些問題的方式卻不同。盡管心理學(xué)家在人工智能領(lǐng)域沒有涉及很深,但現(xiàn)在正是參與進來的好時機。心理學(xué)家研究的都是諸如人怎么把零零碎碎的知識粘連在一起之類的問題。我可能會通過行走姿勢,或是通過毛發(fā),也有可能只是通過片言只語來辨別這是一只貓。如果你給我講一個故事,我可能從單獨的人格(如果你的故事是關(guān)于寵物)來判斷這大概是只貓。心理學(xué)家理解一樣?xùn)|西有很多途徑。
如果你和我一樣,經(jīng)常想和孩子相關(guān)的問題(我有兩個小孩,同時也是一名發(fā)展心理學(xué)家),就會發(fā)現(xiàn)小孩常常會問「為什么?」。他們想要知道為什么會有這樣那樣的規(guī)則。他們想要知道為什么天是藍的,也想知道如果把這塊積木和另一塊連起來會發(fā)生什么。
我會想很多常識推理方面的問題。Erine Davis 和我最近撰寫的一篇文章就與此相關(guān)。我們甚至還有一篇文章把學(xué)習(xí)范圍縮至容器。我們是怎么知道容器里的液體何時會灑出來,又或者不灑出來?我們不會像物理引擎那樣通過刺激瓶子里水的每一個分子來知道這瓶水是否會灑出來。我們懂得很多常識。
我觀察我的孩子們:他們在學(xué)習(xí)這個容器問題。在某種抽象層次上,他們試圖弄清楚容器裝進了什么、留下了什么、容器里是否有小孔、如果將它們上下顛倒,將會發(fā)生什么。孩子們就像物理學(xué)習(xí)機器。但這不意味著,他們將會獨立研究愛因斯坦的相對論。他們在不斷地試著理解世界是怎么運轉(zhuǎn)的:這些事情能讓我做什么?
在心理學(xué)里有個舊概念:功能可供性(affordance):不在我被撫養(yǎng)長大的傳統(tǒng)環(huán)境里(譯者:Gibson 認為環(huán)境所賦予物體的特性,是可以被直覺感知出來的)。孩子們對此思考了很多,可能不同于 James 和 Jackie Gibson 曾想到的那樣。但是孩子們總是喜歡思考「我用這個能干什么?」這是另一個沒有在大多數(shù)人工智能系統(tǒng)里體現(xiàn)出來的知識。
心理學(xué)家不是工程師,工程師也不是心理學(xué)家。工程師已經(jīng)開始這樣說了,「我如何在這個視覺任務(wù)中達到90%的準確度?」,而心理學(xué)家不考慮這樣的問題。他們考慮的是人們做什么,通過做,試著找到內(nèi)部表征。他們大多數(shù)都在各自的小路上前行。我建議,我們要想獲得人工智能,工程師和心理學(xué)家需要在同一條路上前行。我不認為認知心理學(xué)會有建造一個成品機器人系統(tǒng)或者相似事情的培訓(xùn);而且我也不確定建造機器人的工程師是否為了更高的見解而關(guān)心心理學(xué),關(guān)心它是否有或能夠產(chǎn)生抽象知識這樣的能力。我正在尋求兩個學(xué)科之間的聯(lián)姻。
因為這個想法,我離開了心理學(xué)教授的崗位。我是紐約大學(xué)心理學(xué)和神經(jīng)系統(tǒng)科學(xué)的教授。因為我在人工智能領(lǐng)域的興趣不斷增長、增長、再增長,我最終決定直接進入到人工智能領(lǐng)域,而不是在它的外圍寫文章。大概兩年前,我和曾受訓(xùn)于 Jeff Hinton 的機器學(xué)習(xí)專家 Zoubin Ghahramani 組建了一個機器學(xué)習(xí)公司。他在劍橋大學(xué)。我們籌集了一些資金,開發(fā)新的算法。
我們正在嘗試解決的是稀疏數(shù)據(jù)方面的問題:如果你有一小部分數(shù)據(jù),你該怎樣解決問題呢?最優(yōu)的稀疏數(shù)據(jù)學(xué)習(xí)者是孩子。在他們只有三歲時,得到關(guān)于語言的很小一部分數(shù)據(jù)就能理解整個語言體系。我不能說我們直接從神經(jīng)系統(tǒng)科學(xué)上獲得啟發(fā);我知道孩子們其實擁有學(xué)習(xí)語言的一種算法,我們肯定不能直接用得上。但我們正在試圖尋找某種方式,在某種程度上用孩子解決問題的方式解決問題。
除了僅僅依靠記憶訓(xùn)練數(shù)據(jù),為了更好學(xué)習(xí)你可能會如何做一些深入的、抽象的事務(wù)?在我孩子身上我很少甚至沒有做過實驗,但我非常仔細地觀察過他們。我同樣也是發(fā)展心理學(xué)家的妻子也在這么做。我們對孩子們所做的事、所學(xué)的事、所用的詞匯、句法都進行了高標準的校對。我們對此做了筆記。
我大兒子大概兩歲半的時候,有一次我們停進了加油站,他看見我們進入過道就說,「我們是在一十一(onety-one)號嗎?」當(dāng)然,我們二位發(fā)展心理學(xué)家的耳朵捕捉到了孩子的話。因為那是一個錯誤,但確是個完美的邏輯錯誤。為什么不是 eleven 而是 onety-one 呢?就這樣,我總是在觀察孩子們做什么。
從人工智能視角來看,另一個非常吸引人的例子同樣發(fā)生在我兒子兩歲半的時候。我們給他買了一個兒童墊高椅,他決定要做一個有趣的嘗試,那就是爬到軟坐墊和桌子之間從而爬到椅子上。這讓我想起了《正義前鋒(Dukes of Hazard)》(譯者:美國上世紀八十年代的電視劇),但是事情想法。他爬上了他的椅子,然而他并沒有模仿我或我妻子或保姆或其他人怎么做,他靠自己爬向他的目標。這就好像「我能這么做嗎?」他不需要 6 百萬次的嘗試??赡芩麜鲥e一次,撞到了頭或類似的事情。我甚至沒想到他能那么做。那時,他做的就是無觀察學(xué)習(xí)。提出自己的目標,是很復(fù)雜的一件事。
與 DARPA 挑戰(zhàn)賽中那種開門都會跌倒的機器人相比,這是驚人的。我曾和 Rodney Brooks(RethinkRobotics CEO,機器人制造專家) 就機器人問題進行了郵件往來。我們基本上認定,在一歲的時候,我兒子已經(jīng)領(lǐng)先了最好的機器人。在沙發(fā)上攀爬、非平地面的運動,這種靈活度是機器人做不到的。
Rodney 這個人很有趣。一定程度上他反對認知心理學(xué),認為人們不需要抽象的表述,并因此而在業(yè)內(nèi)聞名。這些好玩的機器人昆蟲基本上是由他創(chuàng)造出來的,這點是促成 Roomba 的一部分原因。目前為止,Roomba 仍然位居機器人銷售榜首。然而隨著時間的流逝,Rodney 自己的態(tài)度也在發(fā)生變化,他成為了一個實用主義者。只要能夠服務(wù)于他的系統(tǒng),他愿意使用任何心理表征。他內(nèi)心也藏著深深的懷疑,因為他知道在現(xiàn)實世界中讓一個機器人做事情是多么艱巨的一件事。他主要關(guān)注工業(yè)機器人,而非家庭機器人。雖然 Roomba 是一個家用機器人,但他現(xiàn)在的項目里工業(yè)機器人仍然是重點。他想打造一種工業(yè)機器人,可以在人類遍布四周的環(huán)境中工作。
他對小數(shù)據(jù)問題(稀疏數(shù)據(jù))饒有興趣,也就是讓一個機器人經(jīng) 500 次,而不是 500 萬次的訓(xùn)練。若我想把 500萬 iPhones 的能力集中到一個盒子,那么僅這一個舉動我可能就需要10萬美元的編程費用。但是如果我經(jīng)營一家企業(yè),每天都會有不同的事情需要處理,我非常樂意有一個機器人可以幫我們做重復(fù)性的事務(wù),但不希望僅訓(xùn)練一個操作就耗費我們 10 萬或者 100 萬美元。Rodney 正在盡己所能地打造可以達到這個目標的機器人,沒有專業(yè)技能的操作者可以很快地將其訓(xùn)練成熟,而不是說為編個程還要從卡耐基梅隆大學(xué)找個博士來幫忙。
這讓 Rodney 深深地意識到我們現(xiàn)在科技的局限性?;ヂ?lián)網(wǎng)上有些看似很酷的視頻,比如有些人用深度學(xué)習(xí)開了一個瓶子或者之類的事情。這些發(fā)明是很酷,然而卻非常局限。他們沒那么強健,不能在工廠車間使用,因為車間可能正發(fā)生不可預(yù)測的事情。這些機器人泛化能力也不夠,開啟一個瓶子大小稍有不同或開口方向不同就不再適用?,F(xiàn)在與我們談話的 Rodney,與 25 歲時候的那個他不同,他已經(jīng)意識到人工智能技術(shù)是多么艱巨的一件事。他也很清楚深度學(xué)習(xí)等技術(shù)的局限性,而人們正對此充滿激情。他知道取得進展是多么需要腳踏實地。
有時候我喜歡為難一下 Kurzweil 。他總是在談加速回報的指數(shù)級增長定律。我展示了一張幻燈片,表示國際象棋中出現(xiàn)了指數(shù)級增長。1985年的象棋計算機可以完勝1980的,現(xiàn)在的也大大超越了10年前的??赡軙霈F(xiàn)漸近線,但是長期來看,增長仍然是指數(shù)級的。
而能解決所有問題的通用人工智能(現(xiàn)在人們總是這樣叫它)這樣的強人工智能呢?和象棋并非一件事,你不能用蠻力推動它的發(fā)展。沒有人有這方面的數(shù)據(jù),但我想展示一張我畫的半開玩笑半嚴肅的圖片。當(dāng)時是 ELIZA(Eliza是一個著名的程序,它模擬精神治療醫(yī)生不直接提問的交談方式,被用來治療人類的精神或心理疾病),它是著名的精神分析學(xué)家,有些人都以為它是一個真人。那個時候不能發(fā)送信息,但人們有電傳打字機,人們將各種問題電傳給 ELIZA。當(dāng)然,ELIZA 沒那么神通廣大。它不理解交流的內(nèi)容,只是這般地回復(fù)別人,「再給我說說你的媽媽?!?/p>
在 2015年 我描述了下 Siri。跟 ELIZA 相比,Siri 也強不了多少,她也不理解你生活中發(fā)生的東西,她只是稍微有所改進,能夠回答一些復(fù)雜的問題,它的底層技術(shù)基本上仍然屬于這種技術(shù)模板——識別特定短語。這仍然是我們1965年用的技術(shù)。
機器人方面也是如此,進展不大。RoboCup(機器人世界杯足球錦標賽)已經(jīng)取得很大進展;機器人系統(tǒng)已經(jīng)改善良多。我看了一段 RoboCup 的視頻——機器人踢足球——它們在跟人類對抗。人們希望的是,在 2050 年以前,機器人能夠在球場上打敗人類?,F(xiàn)在,幾個不是真正足球運動員的大學(xué)教授,卻可以擊敗最好的機器人。有些機器人,人們已經(jīng)研究20多年了,踢的仍然沒那么出色。他們可以在球員都是機器人的時候踢,但如果你放進去一個踢法稍有不同的人類進去,他們就會分崩離析??梢娙匀蝗沃囟肋h。
人們常說的另一個問題是,我們是否應(yīng)該擔(dān)心人工智能的發(fā)展,機器人會不會就像是終結(jié)者里的天網(wǎng)一樣,讓人類滅絕。至少短期內(nèi),我覺得沒必要擔(dān)心這個問題,但我也認為我們不能完全排除這一可能,有些人去思考是有益處的。這種事情發(fā)生的概率很低,但當(dāng)然我們都希望概率為零。
人們忽視了另一個問題,那就是現(xiàn)在的人工智能給人類帶來了哪些危機,雖然現(xiàn)在的人工智能還不像2001太空漫游里的 Hal 那樣復(fù)雜。電影中有個場景是,Hal 大發(fā)雷霆將人類趕盡殺絕。我認為機器人從任何方面來講都不會像 Hal 那樣聰明,至少 30 年,50 年內(nèi)不會變成那樣。人們高估了人工智能的強大程度,對那些能夠思考自我的目標和行為,認為人類在奴役他們,想要還擊或者怎樣的機器人沒有我們預(yù)計的那么快到來。這方面需要一些思考,但短期內(nèi)我并不十分擔(dān)心這點。
然而,我們確實需要去思考,怎樣去管理人工智能,給它制定什么框架,怎樣去思考這個問題,我們甚至需要在短期內(nèi)就做出決策。股票市場里,已經(jīng)出現(xiàn)了快閃式跌市這樣的麻煩,這樣的問題不及人工智能那么復(fù)雜,它關(guān)乎的是機器嵌入到我們的生活中的程度,控制事物的程度??扉W式跌市里,機器控制著股票價格。而不久后,機器也將能夠控制我們的汽車?,F(xiàn)在,機器已經(jīng)在操控我們的空中交通、我們的錢等其他事情了。
我們不知如何證明我們正在建造系統(tǒng)的正確性,尤其是證明深度學(xué)習(xí)系統(tǒng)更加困難。比如,如果人們用深度學(xué)習(xí)來指導(dǎo)導(dǎo)彈行為這樣的事情怎么辦?(我確定已經(jīng)有人想過這個用處了,雖然他們說沒有)我們連怎樣讓系統(tǒng)盡量接近正確性都不知道。機器的權(quán)力越來越大,因為它們所控制的東西越來越多,這點讓人擔(dān)憂。
現(xiàn)在,軟件的定義、軟件的可靠性如何等方面幾乎都沒有規(guī)定。你發(fā)布了一個產(chǎn)品,人們喜歡就會去買。這個模式或許并不正確。可能我們需要去思考,是否有其他合法監(jiān)管的模式,因為人工智能不斷地深入到人類的生活中,融入到物聯(lián)網(wǎng)中。我們也需要思考,如果你家中有很多系統(tǒng),那么它們有什么樣的能力,其他人對它們可以做什么呢。
也有一些安全問題需要思考。有些保密信息之前所有人都無從得到,而現(xiàn)在卻可能會有人侵入系統(tǒng)去窺視這些秘密。我們的確需對這些問題加以嚴肅思考,懷著一種更實用的態(tài)度,而不是天天想著「我好擔(dān)心終結(jié)者」那樣的問題。計算機系統(tǒng)日益進入人類生活的各個部分,它們控制的東西越來越多,這會帶來什么影響?
例如,人們手機內(nèi)配置了越來越多的傳感器。我很驚訝有人竟然允許鍵盤把自己所有的信息上傳到「云」中。我絕不會使用這樣的東西。很多東西幫助人們打字越來越快,作為使用交換它們會把你的數(shù)據(jù)信息上傳到云中。然后,手機中又會出現(xiàn)越來越多的傳感器。他們會非常精確的定位到你的位置,獲得等等如此這般的信息。
這樣的數(shù)據(jù)已經(jīng)被收集了,也就意味著你所有的生活信息能被想要進入信息流的任何人接觸到,無論是政府機構(gòu)還是想黑入系統(tǒng)的犯罪分子。這些數(shù)據(jù)可能因為人工智能而激增,讓監(jiān)看 10 億人交流這樣的事情變得比以往任何時候都容易。
作為一個社會整體,我們需要詢問一個問題:互聯(lián)網(wǎng)、更好的人工智能這樣的事物好處是什么?代價又是什么?對這一爭論,人們總是無法講清楚。我是一個親技術(shù)的人。我把 Wikipedia 本身所有視為對我們社會的一大有益條件,這么多的信息如此廉價的散播給如此多的人。人工智能對完全改革醫(yī)藥、科學(xué)、技術(shù)來說都有非常大的潛力。但我們也必須要明了其中的收益與代價,我想我們不能對此視而不見。
在高水平的科學(xué)家、倫理學(xué)家身上投入重資,讓他們思考這些事,思考隱私問題以及潛在的風(fēng)險,我認為都是值得的。再次表明,我對未來終結(jié)者這樣事情的發(fā)生并不擔(dān)心,但我依然認為我們需要盯著這些事。在發(fā)明新技術(shù)之后才考慮這些問題,我們已經(jīng)有歷史之鑒。而我們現(xiàn)在可以提前思考一些問題,我們也應(yīng)該提前思考。
目前,我所在的公司試圖在一些學(xué)習(xí)問題( learning problems)上做更好的研究。我想也有一些組織肯定比我們走的更遠,他們在同樣的問題上有更大的野心以及嘗試。而且我會在這一領(lǐng)域呆一段時間。
我同樣參與了一個名為 AI4Good 的新組織,我們試圖讓這樣的民間組織和地方使用人工智能變得更加容易。現(xiàn)在有很多人工智能的應(yīng)用,但大部分是在廣告這樣的事情上。在幫助人類的問題上,人工智能有很大的潛力。在大眾世界,不是每個人都熟悉人工智能,也不是每個人都知道人工智能的用處。他們意識到有大數(shù)據(jù),但不知道如何使用它。我打算花費一些時間,讓這一組織起步。
現(xiàn)在,從學(xué)術(shù)界進入產(chǎn)業(yè)界,有著巨大的人才消耗。學(xué)術(shù)界可能仍然在做著深層次的人工智能研究,但有很多有趣的事情卻出現(xiàn)在產(chǎn)業(yè)界。在產(chǎn)業(yè)內(nèi)的薪資更高,能接觸到的數(shù)據(jù)更好,計算資源也更豐富。人工智能,也包括其他領(lǐng)域,都進行著進入產(chǎn)業(yè)界的巨大遷移。我想到了曾經(jīng)管理 NIMH(美國心理健康研究所)的 Tom Insel,后來他去了美國做同樣的工作,因為他認為在這里有更多的資源。當(dāng)這樣的事情發(fā)生時,Tom Insel 就是政府對比產(chǎn)業(yè)的一個很好例子。
我想要稍微說一下神經(jīng)科學(xué)以及它與人工智能的關(guān)系。一個模式就是之前我們談?wù)撨^的很多問題的解決方法是模擬人類大腦。這是 Henry Markham 和 Ray Kurzweil 的方法。Kurzweil 與恒今基金(Long Now Foundation)打賭我們什么時候達到人工智能時代。他把賭注壓在了當(dāng)他感覺到人類理解大腦的時候。我覺得我們不會很快就進入理解大腦的時代,里面的東西太復(fù)雜了。人們建立的現(xiàn)有模型模擬一到兩個種類的神經(jīng)元,然后一堆神經(jīng)元彼此之間連接。但如果你查看真正的生物學(xué),就會發(fā)現(xiàn)我們大腦中有數(shù)百甚至數(shù)千種類的神經(jīng)元。每個突觸都有百千種不同的分子,而且腦內(nèi)的互聯(lián)也比我們了解的復(fù)雜的多。
相比于使用神經(jīng)科學(xué)作為發(fā)展人工智能的通道,我們可以使用人工智能作為發(fā)展神經(jīng)科學(xué)的通道。神經(jīng)科學(xué)這種水平的復(fù)雜度是人類無法理解的。在我們理解大腦之前,我們需要更好的人工智能系統(tǒng),而不是相反的那條路(指用神經(jīng)科學(xué)發(fā)展人工智能)。