您好!歡迎參觀陜西華威科技股份有限公司官網(wǎng)!
人工智能下個(gè)挑戰(zhàn):教會(huì)機(jī)器理解圖像和動(dòng)作行為
資料圖:2017年12月4日,在浙江烏鎮(zhèn)舉行的第四屆世界互聯(lián)網(wǎng)大會(huì)“互聯(lián)網(wǎng)之光”博覽會(huì)上,民眾體驗(yàn)人工智能機(jī)器人。中新社記者 杜洋 攝
目前,人工智能(AI)在圖像和語音識別等領(lǐng)域表現(xiàn)出色,但科學(xué)家認(rèn)為這還遠(yuǎn)遠(yuǎn)不夠。據(jù)美國《麻省理工技術(shù)評論》雜志網(wǎng)站近日報(bào)道,對于AI的發(fā)展來說,理解視頻中的動(dòng)態(tài)行為是接下來的關(guān)鍵發(fā)展方向,這對于AI用其軟件理解世界至關(guān)重要,也有助于AI在醫(yī)療、娛樂和教育等領(lǐng)域的廣泛應(yīng)用。
理解圖像 還要理解動(dòng)作行為
解釋視頻的AI系統(tǒng),包括自動(dòng)駕駛汽車中的系統(tǒng),常常依賴于識別靜態(tài)框架中的對象,而非對行為進(jìn)行解釋。谷歌最近發(fā)布了一種能識別視頻中對象的工具,并納為云平臺的一部分,該平臺包含用于處理圖像、音頻和文本的AI工具。
但對AI來說,能理解貓為何會(huì)騎著Roomba掃地機(jī)器人在廚房與鴨子追逐嬉戲,才是彰顯其能力之處。
因此,科學(xué)家面臨的下一個(gè)挑戰(zhàn)可能是教會(huì)機(jī)器不僅理解視頻包含了什么內(nèi)容,還要理解鏡頭中發(fā)生了什么。這可能帶來一些實(shí)際的好處,比如帶來強(qiáng)大的搜索、注釋和挖掘視頻片段的新方法,也可以讓機(jī)器人或自動(dòng)駕駛汽車更好地理解周圍的世界如何運(yùn)轉(zhuǎn)。
各出奇招 用視頻訓(xùn)練計(jì)算機(jī)
目前,科學(xué)家使用一些視頻數(shù)據(jù)集來訓(xùn)練機(jī)器,以使其更好地理解真實(shí)世界中的行為,麻省理工學(xué)院(MIT)和IBM目前正攜手進(jìn)行相關(guān)研究。
去年9月,IBM與MIT宣布組建“IBM—MIT腦啟發(fā)多媒體機(jī)器理解實(shí)驗(yàn)室”,雙方將合作開發(fā)具有高級視聽能力的AI。
前不久,MIT和IBM發(fā)布了一個(gè)龐大的視頻剪輯數(shù)據(jù)集,這個(gè)名為“時(shí)間數(shù)據(jù)集時(shí)刻”的視頻數(shù)據(jù)集囊括了從釣魚到霹靂舞在內(nèi)的許多動(dòng)作的3秒鐘片段。該項(xiàng)目負(fù)責(zé)人、MIT首席研究科學(xué)家奧德·奧利瓦說,世界上許多事情瞬息萬變。如果你想明白為什么有些事情會(huì)發(fā)生,運(yùn)動(dòng)會(huì)給你提供很多信息。
之所以把視頻長度定成3秒,是因?yàn)榇蟛糠謺r(shí)候,人類需要3秒時(shí)間,去觀察并理解一個(gè)動(dòng)作意圖,比如,風(fēng)吹樹動(dòng),或者一個(gè)物體從桌上掉落下來等。
無獨(dú)有偶,谷歌去年也發(fā)布了一套由800萬個(gè)做了標(biāo)記的YouTube視頻組成的視頻集YouTube-8M;臉譜正在開發(fā)名為“場景”“操作”和“對象”集的注釋數(shù)據(jù)集。
普林斯頓大學(xué)助理教授奧爾加·魯薩克維斯基專門從事計(jì)算機(jī)視覺工作。他表示,此前科學(xué)家認(rèn)為,很難開發(fā)出有用的視頻數(shù)據(jù)集,因?yàn)樗鼈冃枰褥o止圖像更多的存儲和計(jì)算能力。他說:“我很高興能使用這些新的數(shù)據(jù)集,3秒的時(shí)長很棒——它提供了時(shí)間上下文,同時(shí)對存儲和計(jì)算的要求也比較低?!?/span>
還有其他機(jī)構(gòu)在研究更具創(chuàng)造性的方法。位于多倫多和柏林的創(chuàng)業(yè)公司“二十億神經(jīng)元(Twenty Billion Neurons)”創(chuàng)造了一個(gè)定制數(shù)據(jù)集。該公司聯(lián)合創(chuàng)始人羅蘭梅·尼塞維奇稱,他們還使用了專門處理時(shí)間視覺信息的神經(jīng)網(wǎng)絡(luò),“用其他數(shù)據(jù)集訓(xùn)練的AI可以告訴你,視頻中顯示的是足球比賽還是派對;用我們的定制數(shù)據(jù)集訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以告訴你,是否有人剛剛進(jìn)入房間?!?/span>
轉(zhuǎn)移學(xué)習(xí) 人工智能的未來
按照IBM的解釋,人類能夠觀看一段簡短的視頻并輕松地描繪出視頻內(nèi)容,甚至能預(yù)測后續(xù)事件的發(fā)生,而這樣的能力對機(jī)器來說依然是可望而不可及的。因此,IBM和MIT要做的就是,解決機(jī)器在認(rèn)知和預(yù)測上的技術(shù)難題,在這一基礎(chǔ)上開發(fā)出一套認(rèn)知系統(tǒng)。
IBM的丹尼·古特弗羅因德說,有效識別行為要求機(jī)器學(xué)習(xí)某個(gè)行動(dòng),并將獲得的知識應(yīng)用于正在進(jìn)行同樣行動(dòng)的情境中,這一領(lǐng)域的進(jìn)步,即轉(zhuǎn)移學(xué)習(xí),對于AI的未來非常重要;而且,這項(xiàng)技術(shù)在實(shí)際中大有用途,“你可以用它來幫助改善對老年人和殘疾人的護(hù)理,比如告訴護(hù)理人員是否有老人跌倒,或者他們是否已經(jīng)吃過藥等等?!?/span>
MIT和IBM也表示,一旦機(jī)器能夠看懂視頻,具備視覺能力的高級計(jì)算機(jī)認(rèn)知系統(tǒng)將能用于各種行業(yè),不僅僅是醫(yī)療,還有教育、娛樂等領(lǐng)域,包括對復(fù)雜的機(jī)器進(jìn)行保養(yǎng)和維修等。記者劉霞
人工智能下個(gè)挑戰(zhàn):教會(huì)機(jī)器理解圖像和動(dòng)作行為
資料圖:2017年12月4日,在浙江烏鎮(zhèn)舉行的第四屆世界互聯(lián)網(wǎng)大會(huì)“互聯(lián)網(wǎng)之光”博覽會(huì)上,民眾體驗(yàn)人工智能機(jī)器人。中新社記者 杜洋 攝
目前,人工智能(AI)在圖像和語音識別等領(lǐng)域表現(xiàn)出色,但科學(xué)家認(rèn)為這還遠(yuǎn)遠(yuǎn)不夠。據(jù)美國《麻省理工技術(shù)評論》雜志網(wǎng)站近日報(bào)道,對于AI的發(fā)展來說,理解視頻中的動(dòng)態(tài)行為是接下來的關(guān)鍵發(fā)展方向,這對于AI用其軟件理解世界至關(guān)重要,也有助于AI在醫(yī)療、娛樂和教育等領(lǐng)域的廣泛應(yīng)用。
理解圖像 還要理解動(dòng)作行為
解釋視頻的AI系統(tǒng),包括自動(dòng)駕駛汽車中的系統(tǒng),常常依賴于識別靜態(tài)框架中的對象,而非對行為進(jìn)行解釋。谷歌最近發(fā)布了一種能識別視頻中對象的工具,并納為云平臺的一部分,該平臺包含用于處理圖像、音頻和文本的AI工具。
但對AI來說,能理解貓為何會(huì)騎著Roomba掃地機(jī)器人在廚房與鴨子追逐嬉戲,才是彰顯其能力之處。
因此,科學(xué)家面臨的下一個(gè)挑戰(zhàn)可能是教會(huì)機(jī)器不僅理解視頻包含了什么內(nèi)容,還要理解鏡頭中發(fā)生了什么。這可能帶來一些實(shí)際的好處,比如帶來強(qiáng)大的搜索、注釋和挖掘視頻片段的新方法,也可以讓機(jī)器人或自動(dòng)駕駛汽車更好地理解周圍的世界如何運(yùn)轉(zhuǎn)。
各出奇招 用視頻訓(xùn)練計(jì)算機(jī)
目前,科學(xué)家使用一些視頻數(shù)據(jù)集來訓(xùn)練機(jī)器,以使其更好地理解真實(shí)世界中的行為,麻省理工學(xué)院(MIT)和IBM目前正攜手進(jìn)行相關(guān)研究。
去年9月,IBM與MIT宣布組建“IBM—MIT腦啟發(fā)多媒體機(jī)器理解實(shí)驗(yàn)室”,雙方將合作開發(fā)具有高級視聽能力的AI。
前不久,MIT和IBM發(fā)布了一個(gè)龐大的視頻剪輯數(shù)據(jù)集,這個(gè)名為“時(shí)間數(shù)據(jù)集時(shí)刻”的視頻數(shù)據(jù)集囊括了從釣魚到霹靂舞在內(nèi)的許多動(dòng)作的3秒鐘片段。該項(xiàng)目負(fù)責(zé)人、MIT首席研究科學(xué)家奧德·奧利瓦說,世界上許多事情瞬息萬變。如果你想明白為什么有些事情會(huì)發(fā)生,運(yùn)動(dòng)會(huì)給你提供很多信息。
之所以把視頻長度定成3秒,是因?yàn)榇蟛糠謺r(shí)候,人類需要3秒時(shí)間,去觀察并理解一個(gè)動(dòng)作意圖,比如,風(fēng)吹樹動(dòng),或者一個(gè)物體從桌上掉落下來等。
無獨(dú)有偶,谷歌去年也發(fā)布了一套由800萬個(gè)做了標(biāo)記的YouTube視頻組成的視頻集YouTube-8M;臉譜正在開發(fā)名為“場景”“操作”和“對象”集的注釋數(shù)據(jù)集。
普林斯頓大學(xué)助理教授奧爾加·魯薩克維斯基專門從事計(jì)算機(jī)視覺工作。他表示,此前科學(xué)家認(rèn)為,很難開發(fā)出有用的視頻數(shù)據(jù)集,因?yàn)樗鼈冃枰褥o止圖像更多的存儲和計(jì)算能力。他說:“我很高興能使用這些新的數(shù)據(jù)集,3秒的時(shí)長很棒——它提供了時(shí)間上下文,同時(shí)對存儲和計(jì)算的要求也比較低。”
還有其他機(jī)構(gòu)在研究更具創(chuàng)造性的方法。位于多倫多和柏林的創(chuàng)業(yè)公司“二十億神經(jīng)元(Twenty Billion Neurons)”創(chuàng)造了一個(gè)定制數(shù)據(jù)集。該公司聯(lián)合創(chuàng)始人羅蘭梅·尼塞維奇稱,他們還使用了專門處理時(shí)間視覺信息的神經(jīng)網(wǎng)絡(luò),“用其他數(shù)據(jù)集訓(xùn)練的AI可以告訴你,視頻中顯示的是足球比賽還是派對;用我們的定制數(shù)據(jù)集訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以告訴你,是否有人剛剛進(jìn)入房間?!?/span>
轉(zhuǎn)移學(xué)習(xí) 人工智能的未來
按照IBM的解釋,人類能夠觀看一段簡短的視頻并輕松地描繪出視頻內(nèi)容,甚至能預(yù)測后續(xù)事件的發(fā)生,而這樣的能力對機(jī)器來說依然是可望而不可及的。因此,IBM和MIT要做的就是,解決機(jī)器在認(rèn)知和預(yù)測上的技術(shù)難題,在這一基礎(chǔ)上開發(fā)出一套認(rèn)知系統(tǒng)。
IBM的丹尼·古特弗羅因德說,有效識別行為要求機(jī)器學(xué)習(xí)某個(gè)行動(dòng),并將獲得的知識應(yīng)用于正在進(jìn)行同樣行動(dòng)的情境中,這一領(lǐng)域的進(jìn)步,即轉(zhuǎn)移學(xué)習(xí),對于AI的未來非常重要;而且,這項(xiàng)技術(shù)在實(shí)際中大有用途,“你可以用它來幫助改善對老年人和殘疾人的護(hù)理,比如告訴護(hù)理人員是否有老人跌倒,或者他們是否已經(jīng)吃過藥等等?!?/span>
MIT和IBM也表示,一旦機(jī)器能夠看懂視頻,具備視覺能力的高級計(jì)算機(jī)認(rèn)知系統(tǒng)將能用于各種行業(yè),不僅僅是醫(yī)療,還有教育、娛樂等領(lǐng)域,包括對復(fù)雜的機(jī)器進(jìn)行保養(yǎng)和維修等。記者劉霞