作者:張少霆(商湯科技研究院副院長)
隨著人臉識別、語音識別和自動駕駛?cè)找娉蔀殛P(guān)注焦點,人工智能(AI)與社會、人類生活融合程度正在快速演進(jìn)。
其實早在1956年,人工智能這個“術(shù)語”就被正式提出。但在有限且昂貴的計算能力、已有計算方法存在缺陷、缺乏數(shù)據(jù)量這些無法克服的基礎(chǔ)性障礙面前,“模擬人類大腦”顯得非常遙遠(yuǎn)。此后,一直到20世紀(jì)80年代初,隨著一類名為“專家系統(tǒng)”的AI程序開始為全世界的公司所采用,人工智能才興起了第二次熱潮。各國開始投入大量資金,例如日本經(jīng)濟產(chǎn)業(yè)省雄心勃勃旨在打造“第五代計算機”的研究計劃,目標(biāo)是制造出能夠與人對話、翻譯語言、解釋圖像,并且能像人一樣推理的機器。80年代后期,產(chǎn)業(yè)界對人工智能系統(tǒng)投入巨大但只產(chǎn)生有限的應(yīng)用產(chǎn)生質(zhì)疑,人工智能的泡沫逐漸破裂,投入大幅消減,人工智能再一次步入寒冬。
那么,人工智能到底將靠什么走向大眾?筆者認(rèn)為,視覺AI技術(shù)將是發(fā)展方向。
對人類而言,70%到80%的信息獲取來自視覺。對人工智能來說,視覺AI也被視為目前最具應(yīng)用價值的AI技術(shù)。它能夠讓機器具備“從識人知物到辨識萬物”的能力,從而看懂、理解這個世界,幫助我們在生產(chǎn)和工作中,提升處理信息的效率。
簡單來說,視覺AI就是研究如何讓機器會“看”,即用攝影機和電腦代替人眼對圖像進(jìn)行特征提取和分析,并由此訓(xùn)練模型對新的圖像數(shù)據(jù)進(jìn)行檢測、識別等任務(wù),建立能夠從圖像或者多模態(tài)數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。
源于深度學(xué)習(xí)的突破,視覺AI的識別能力突飛猛進(jìn),2012年的兩個轟動事件,更被視為視覺AI的發(fā)展拐點。當(dāng)時,由多倫多大學(xué)Geoffrey Hinton領(lǐng)導(dǎo)的團(tuán)隊,在一項名為ImageNet的圖像識別競賽中,利用深度學(xué)習(xí)和GPU的強大計算能力,將錯誤率降低了10%,震驚學(xué)術(shù)界,因為之前這項錯誤率每年只會降低1%—2%。
同年,“谷歌大腦之父”吳恩達(dá)帶領(lǐng)團(tuán)隊,利用10億參數(shù)的神經(jīng)網(wǎng)絡(luò),在沒有任何先驗知識的情況下,僅僅通過觀看無標(biāo)注的YouTube的視頻,創(chuàng)造了一套貓臉識別系統(tǒng)——從海量照片里自動識別出貓臉。
視覺AI迅速成為人工智能領(lǐng)域最重量級的研究領(lǐng)域,源自于其在安防、醫(yī)療、無人駕駛等多個領(lǐng)域的應(yīng)用前景。
例如,在安防領(lǐng)域,視覺AI技術(shù)可進(jìn)行人群分析、逃犯追捕,可通過城市中成千上萬條路的攝像頭對目標(biāo)人群進(jìn)行鎖定與篩查,并做到實時告警,助力安防效率的提升;在手機領(lǐng)域,AI可提供刷臉解鎖、刷臉支付等更加安全和便捷的體驗,還可自動為面部美顏省去后期修圖的時間;在自動駕駛領(lǐng)域,AI技術(shù)可以通過攝像頭獲取的圖像,對車體的周圍環(huán)境進(jìn)行識別和分析,輔助做出精準(zhǔn)的路徑規(guī)劃。
在眾多的視覺AI應(yīng)用場景中,AI醫(yī)學(xué)圖像分析是近年來熱度極高的一個細(xì)分領(lǐng)域。這主要得益于醫(yī)院信息數(shù)字化建設(shè)的不斷提速,以醫(yī)學(xué)影像為核心的大數(shù)據(jù)不斷豐富,為AI在醫(yī)療領(lǐng)域的發(fā)展提供了充足的養(yǎng)料。與此同時,優(yōu)質(zhì)醫(yī)療資源的稀缺和分配不均也不斷催生著社會對人工智能的需求。
當(dāng)下AI+醫(yī)療的紅火,對推動這個行業(yè)的發(fā)展起到了不可磨滅的作用,還有豐富的應(yīng)用場景和海量的機會等待挖掘,例如個性化醫(yī)療、可穿戴智能醫(yī)療設(shè)備的實時監(jiān)測與分析等。
放眼未來,更多的應(yīng)用前景都將貼上視覺AI的標(biāo)簽。比如,人臉識別技術(shù)有望在更多的物聯(lián)網(wǎng)終端設(shè)備上應(yīng)用,讓安全便捷的身份認(rèn)證無處不在,提升生活體驗;在AI+工業(yè)領(lǐng)域,工業(yè)機器人、物流機器人將更多替代傳統(tǒng)勞動力;在AI+文化領(lǐng)域,基于AI的增強現(xiàn)實技術(shù),可以將古代文物、古代場景生動復(fù)原得以假亂真;在AI+教育領(lǐng)域,利用視覺技術(shù)實現(xiàn)學(xué)生的注意力管理、跟蹤學(xué)生的知識點掌握,實現(xiàn)真正的因材施教。
當(dāng)然,AI掀起的新一輪產(chǎn)業(yè)浪潮不過短短幾年,技術(shù)上需要持續(xù)不斷的突破創(chuàng)新,行業(yè)需要不斷的深耕和挖掘,大眾也需要對其給予足夠的耐心。
(責(zé)任編輯:張云文)