Go to contents

只看前面,連背影都能知道的人工智能

Posted June. 15, 2018 09:46   

Updated June. 15, 2018 09:46

한국어

人從多種角度觀察事物,綜合之後以三維形態認識事物。等到積累起經驗,無需前後左右觀看,也可以想象得到事物的立體面貌。在感知空間結構和物體在空間的位置時也是如此。憑借人工智能“阿爾法狗”風靡世界的谷歌“深思”(DEEP MIND),這壹次又開發出了具有人類觀察能力的人工智能,成為人們熱議的話題。

被稱為“生成查詢網絡”(GENERATIVE QUERY NETWORK)的這壹人工智能,能以從部分有限的角度觀察物體的二維畫面為基礎,預測出空間和事物的整體立體構造,並將它轉化為3D形象。因此,人們可由此看到從觀察角度看不到的事物的背面等所有角度的畫面。預計這將成為開發能自主識別周邊環境的機器人和自動駕駛汽車等的基礎。

由谷歌“深思”研究員阿裏·伊斯拉米領導的研究小組在15日出版的國際學術雜誌《科學》發表了上述內容的研究結果。谷歌“深思”首席執行官德米斯·赫沙比斯(音譯)也作為共同作者參與了此次研究。伊斯拉米解釋說:“這是為了讓電腦能夠以與人壹樣的方式認知立體空間。”

現有的人工智能視覺系統必須把從多種角度看到的事物畫面和各個畫面所含的多種信息輸入電腦。它需要畫面的方向(正面、側面等)和畫面中事物的位置、特定事物的像素範圍等壹壹標註的數量龐大的學習數據。在制作學習數據的過程中,不僅花費了太多的時間,而且還存在無法正確認識由復雜的空間和曲面組成的事物的局限性。

相反,“生成查詢網絡”不依賴於人類輸入的學習數據。只要從多角度觀察空間和事物,就能自然而然地把握住立體的構造,塑造出多種多樣的畫面。在迷宮裏面觀察各個角落,它就能夠繪制出迷宮的整體3D地圖或通過視頻觀察。首爾大學電氣信息學院教授李京茂(音譯)表示:“可以說,它超越了需要人們壹壹傳授的機器學習的根本局限性,已經最為接近人的知覺能力。”

“生成查詢網絡”大致分為“表達網絡”和“生成網絡”。研究小組利用電腦制造的虛擬3D空間,使之學習兩個網絡。在虛擬空間裏,從正六面體等圖形到結構復雜的機器人胳膊,隨機擺放了各種各樣的事物。

首先是在虛擬空間移動照像機,抓取從各個角度觀察的畫面。“表達網絡”綜合這些2D畫面,從而掌握空間的3D結構和事物的顏色、形狀、位置等核心信息。以此為基礎,生成網絡則預測出從此前沒有觀察的新角度觀察的畫面並生成形象。生成的形象與實際畫面相比較的結果顯示,它已經達到了用肉眼難以分辨的壹致程度。不過,李京茂補充說:“如果想適用於實際環境,需要在假想空間以外、有著移動物體的實際空間內進行訓練。”

去年10月,“深思”推出了在沒有人類的圍棋棋譜的情況下,通過自學到達天下無敵境界的“阿爾法狗 零”,向多個研究領域擴張。上個月,“深思”還與英國倫敦學院的研究小組壹起,模仿在動物腦中負責位置感覺的神經細胞的功能,開發了具有包括人類在內哺乳動物找路功能的人工智能,相關論文發表在國際學術雜誌《自然》上。


宋京銀 東亞科學記者 kyungeun@donga.com