8月25號(hào),F(xiàn)acebook開放的一款計(jì)算機(jī)視覺算法就可以賦予計(jì)算機(jī)這種能力。該算法不僅可以識(shí)別圖像中的對(duì)象,還能識(shí)別與特定對(duì)象匹配的形狀。這看似雕蟲小技,實(shí)則超出了現(xiàn)有視覺系統(tǒng)的能力,且用編程實(shí)現(xiàn)難度很高。
目前為止,這個(gè)算法還只是一項(xiàng)研究工具,但將來可能會(huì)促成多種重要應(yīng)用:比如,讓圖像編輯程序自動(dòng)改變圖片背景或增強(qiáng)人像;為計(jì)算機(jī)盲人用戶詳細(xì)描述圖像;甚至還可以為皮卡丘識(shí)別要攀爬的物體,從而使Pokémon Go等增強(qiáng)現(xiàn)實(shí)游戲更逼真等。
近年來,計(jì)算機(jī)視覺取得了很多重大進(jìn)展,但大多集中于識(shí)別物體或場景類型上。研究人員已開始轉(zhuǎn)向更深度的圖像理解,這對(duì)提高機(jī)器的整體智能很重要。
“(對(duì)計(jì)算機(jī)來說)最難的就是理解現(xiàn)實(shí)——理解眼前的東西,”參與該算法研究的Facebook研究經(jīng)理Larry Zitnick說?!皥D像分割是場景推理的重要部分?!?/p>
Zitnick表示,該算法以后可能會(huì)用于研發(fā)一個(gè)系統(tǒng),目的是自動(dòng)增強(qiáng)Facebook用戶發(fā)布的圖像中的產(chǎn)品,或者用于創(chuàng)建更逼真的增強(qiáng)現(xiàn)實(shí)應(yīng)用。比如,“如果你想往房間里放一個(gè)虛擬小狗,”他說,“實(shí)際上,你是想把它放沙發(fā)上或沙發(fā)的某個(gè)部分上?!?/p>
過去幾年中,通過用大量樣例訓(xùn)練大型模擬神經(jīng)網(wǎng)絡(luò),從而實(shí)現(xiàn)對(duì)圖像的分類,計(jì)算機(jī)視覺能力出現(xiàn)了大幅度提升。這些“深度學(xué)習(xí)”的系統(tǒng)通常會(huì)識(shí)別出一系列特征,比如顏色、質(zhì)地等,但卻不必識(shí)別某個(gè)物體的輪廓。
Facebook的算法將一系列神經(jīng)網(wǎng)絡(luò)結(jié)合起來,具有“圖像分割”功能。前兩個(gè)神經(jīng)網(wǎng)絡(luò)用于決定單個(gè)像素屬于某個(gè)對(duì)象還是其他對(duì)象,第三個(gè)網(wǎng)絡(luò)則決定這些特定對(duì)象是什么。
UCLA的教授Stefano Soatto專門研究計(jì)算機(jī)視覺,他認(rèn)為這個(gè)算法“非常重要”且應(yīng)用前景非常廣闊,因?yàn)閳D像分割的難度具有迷惑性,雖然“每個(gè)兩歲小孩都能指出圖片中對(duì)象的位置并畫出它的輪廓,”Soatto說,“然而,這種輕松感非常具有欺騙性。因?yàn)檫@是幾百萬年的進(jìn)化過程加上一半大腦的齊心協(xié)力才完成的杰作。”