昨天,柯潔和AlphaGo的最后一戰(zhàn)結(jié)果出爐,柯潔再敗,總比分0:3完敗。另外,機(jī)器人小冰出了一本詩集,更是引起了廣泛討論。一時間,對人工智能的討論此起彼伏。
無論是寫詩,還是國際象棋冠軍加里·卡斯帕羅夫、李世石、柯潔這些頂尖高手一一敗給人工智能,都讓人不禁想,人工智能是如何做到這些的?
全文3591字,閱讀約需5分鐘
2016年3月9日,韓國首爾的一場棋賽反響空前。此戰(zhàn)不僅吸引了全球記者的長槍短炮,也成了人們茶余飯后的談資。這不是一場普通的圍棋賽事,而是被稱為“世紀(jì)大戰(zhàn)”的人機(jī)智慧對決。對弈的一方是人類頂級棋手李世石,另一方則是誕生于英國的人工智能程序——。五盤大戰(zhàn)最終以李世石1比4投子認(rèn)負(fù)結(jié)束。此役過后,人們記住了這個叫“阿爾法狗”的人工智能,也記住了它背后的“新”技術(shù):強(qiáng)化學(xué)習(xí)(Reinforcement Learning)。
━━━━━
AlphaGo:強(qiáng)化學(xué)習(xí)的空前成功
AlphaGo的出現(xiàn),讓人聯(lián)想起當(dāng)年的“深藍(lán)”——1997年,這臺IBM超級計算機(jī)就曾擊敗人類國際象棋冠軍加里·卡斯帕羅夫。那么,為什么時至今日人工智能界還會為一場棋賽的勝利而大肆狂歡?這還要從圍棋和國際象棋這兩種棋說起。20年前,雖然國際象棋程序已能逼平甚至戰(zhàn)勝人類冠軍,但當(dāng)時在圍棋上尚不及業(yè)余棋手。這是因為,對于計算機(jī)來說,后者的復(fù)雜程度遠(yuǎn)高于前者:國際象棋的棋盤為8行8列,而圍棋盤的縱橫則各有19路——361個可供落子的交叉點。也就是說從空間的復(fù)雜度來看,國際象棋約為1047,而圍棋則高達(dá)10170。復(fù)雜度的天壤之別,也意味著“深藍(lán)”的制勝套路無法復(fù)制到圍棋賽場。當(dāng)年有人質(zhì)疑“深藍(lán)”所謂的“智能”,不過是依靠每秒可運算2億步的“蠻力”,窮舉出棋盤的可能性而已。而在圍棋中難以測算某些走棋的優(yōu)劣,即便將“深藍(lán)”所采用的全部優(yōu)化算法放到如今最高性能的計算設(shè)備上,人們也無法將圍棋比賽中機(jī)器的決策用時修剪到合理的時間內(nèi)。那么,AlphaGo究竟是靠什么贏得比賽的呢?2016年1月,《自然》雜志詳細(xì)解析了AlphaGo背后的技術(shù):AlphaGo將“價值網(wǎng)絡(luò)”及“策略網(wǎng)絡(luò)”結(jié)合,并通過人類職業(yè)棋手的比賽數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練。通俗地說,就是先讓AlphaGo學(xué)會評價棋路的優(yōu)劣,然后再通過不斷與自己對弈進(jìn)行強(qiáng)化學(xué)習(xí),讓AlphaGo“參悟”下棋的感覺。而在實際的比賽現(xiàn)場,AlphaGo則根據(jù)積累的經(jīng)驗,動態(tài)地尋找最優(yōu)方法,如此才締造了AlphaGo 最終的“壓倒性”勝利。
▲Mel Bochner泡泡(Babble),2011年計算機(jī)和人工智能系統(tǒng)難以理解語言的其中一個原因在于,詞語的意思往往與語境甚至字母形態(tài)有關(guān)系。上圖中,幾位藝術(shù)家展示了如何通過不同的視覺線索來傳達(dá)文字背后的意義。
━━━━━
強(qiáng)化學(xué)習(xí)的發(fā)展和原理
如果說人工智能的研究發(fā)展史是全球一眾學(xué)者辛勤攻克的馬拉松,那么強(qiáng)化學(xué)習(xí)就是希望實現(xiàn)人工智能的一個技術(shù)手段。聽起來工業(yè)味十足的人工智能,與心理學(xué)等其他社會學(xué)科、科學(xué)學(xué)科都頗有淵源,強(qiáng)化學(xué)習(xí)因此無法免俗。實際上,現(xiàn)代強(qiáng)化學(xué)習(xí)的教父理查德·薩頓最早就來自斯坦福大學(xué)的心理系。他曾表示,心理學(xué)就像是個秘密武器,讓他在計算機(jī)研究中汲取了無數(shù)的靈感。在心理學(xué)實驗的基礎(chǔ)上,薩頓為強(qiáng)化學(xué)習(xí)的發(fā)展史梳理出了3條主流脈絡(luò)。第一條發(fā)展線是源自心理學(xué)動物實驗的“試錯”流派。簡單來講,就是通過不斷嘗試、犯錯、再嘗試,“偶然”完成目標(biāo),然后加強(qiáng)“成功”經(jīng)驗,不斷靠近解決方案。強(qiáng)化學(xué)習(xí)的第二條發(fā)展線主要采用“最優(yōu)控制”理論及“動態(tài)規(guī)劃”。舉個例子,當(dāng)司機(jī)駕駛汽車行駛在翻山越嶺的公路上時,在什么時機(jī)踩下油門加速、加速多久,都會對最終到達(dá)目的地的時長帶來影響。在這一過程中,又可能存在諸多限制條件,“最優(yōu)控制”要做的,就是在限定條件下尋求最優(yōu)結(jié)果。發(fā)展線則是時序差分法。時序差分與過往的經(jīng)驗和狀態(tài)有關(guān),它根據(jù)一些策略對環(huán)境進(jìn)行隨機(jī)取樣學(xué)習(xí)。時序差分法又汲取了動態(tài)規(guī)劃的精髓,在過去習(xí)得的估測結(jié)果的基礎(chǔ)上,對未來狀態(tài)進(jìn)行盡可能的“擬合”。在20世紀(jì)80年代末,這3條分支逐漸匯集一處,形成了現(xiàn)代的強(qiáng)化學(xué)習(xí)。
總的來說,強(qiáng)化學(xué)習(xí)是通過與環(huán)境交互獲得最優(yōu)解的過程。在強(qiáng)化學(xué)習(xí)中,機(jī)器代理會與環(huán)境進(jìn)行交互,根據(jù)當(dāng)前的環(huán)境狀態(tài)權(quán)衡“即時獎勵”以及“延遲獎勵”,然后采取行動,依此不斷地往復(fù)、試錯,尋找能夠最大化累積獎勵的策略。最終,獲得較高的獎勵后,得到這一獎勵的過程中的所有行動均會得到加強(qiáng)。
━━━━━
強(qiáng)化學(xué)習(xí)的應(yīng)用
強(qiáng)化學(xué)習(xí)技術(shù)該如何落地,在現(xiàn)實生活中找到用武之地,這是人們比較關(guān)心的話題。如今的強(qiáng)化學(xué)習(xí)技術(shù)已經(jīng)邁出了游戲競技的小賽場,在我們的生活中找到了更多“接地氣”的應(yīng)用場景。提到機(jī)器人,首先映入腦海的可能是電影《星球大戰(zhàn)》中外形呆萌人形機(jī)器人。但我們都忽略了機(jī)器人圈中兩個非常重要的成員——自動駕駛汽車和工業(yè)機(jī)器人。相比那些外形惹眼的擬生機(jī)器人,貌不驚人的自動駕駛汽車和工業(yè)機(jī)械手臂卻與我們的生活有著更緊密的聯(lián)系,它們也正是強(qiáng)化學(xué)習(xí)技術(shù)的主戰(zhàn)場。1.自動駕駛汽車:學(xué)會應(yīng)對復(fù)雜的路況2016 年年末,在巴塞羅那的一次人工智能會議上,播放了一段令人熱血沸騰的駕駛模擬視頻。在實時計算機(jī)模擬的畫面上,幾輛自動駕駛汽車在一條四車道虛擬高速公路上展開了一場瘋狂至極的演習(xí)。這幾輛車一半在嘗試從右側(cè)車道移向中間,而另一半則希望從左側(cè)向中間并線。即便對于人類老司機(jī)來說,遇上這樣的情況也會亂了陣腳,不過這些自動駕駛汽車卻能夠在混亂的情況中做到精確控制,成功地完成了這個棘手的任務(wù)。這些自動駕駛汽車的出色表現(xiàn),來自于反反復(fù)復(fù)的練習(xí),它們在練習(xí)中自己學(xué)會了如何流暢、安全地并線。每一次并線成功后,系統(tǒng)都會加強(qiáng)對這些動作的偏好。沒錯,這里所應(yīng)用的技術(shù)便是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)正在越來越多的領(lǐng)域中得到應(yīng)用。這一方法尤其適合自動駕駛汽車,因為駕駛的過程是一種“良好的決策序列”。未來,寶馬和英特爾將合作測試自動駕駛的軟件。谷歌、優(yōu)步等公司也會有研究團(tuán)隊用強(qiáng)化學(xué)習(xí)的方法訓(xùn)練自動駕駛汽車。
▲圖像來自Mobileye的強(qiáng)化學(xué)習(xí)汽車的視覺系統(tǒng)
2.智能工業(yè)機(jī)器人:機(jī)械臂被裝上了“大腦”20世紀(jì)50年代,美國人喬治 · 戴沃爾提出了工業(yè)機(jī)器人的概念并申請專利。后來這些機(jī)械手臂得到了長足進(jìn)步。它們的出現(xiàn)大幅提升了工廠的自動化程度,并降低了人力成本,已經(jīng)被大量采用。但對于機(jī)械手臂,即便是抓起物品這樣看似簡單的小動作,往往也需要程序員投入大量的時間,反復(fù)修改、實驗。當(dāng)工廠的生產(chǎn)任務(wù)發(fā)生改變時,修改、調(diào)整機(jī)械手臂的預(yù)設(shè)程序的成本也同樣不容小覷。不過隨著強(qiáng)化學(xué)習(xí)技術(shù)的到來,這些隱藏在“無人”工廠背后的程序員的工作負(fù)荷也可以被大幅降低。2015年年底的東京國際機(jī)器人展覽會上,出現(xiàn)了一種新型智能機(jī)械臂。只需給這些工業(yè)機(jī)器人布置簡單的小任務(wù)(如從盒中挑揀物品等),然后等上一晚的時間,第二天清晨它就基本可以“摸索”出一套自己的解決方案。令人驚奇的是,它的背后并沒有強(qiáng)大的專家系統(tǒng),也沒有一群加班熬夜、精通機(jī)械的程序員。這些新型工業(yè)機(jī)器人正是通過深度強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練自己學(xué)會執(zhí)行新的任務(wù)。揀拾物品的過程,這些機(jī)械手臂會錄制視頻,每次揀拾完成,根據(jù)效果它們會得到不同的獎勵值,這些知識不斷積累,強(qiáng)化那些更接近最終目標(biāo)的動作(如拾起物品)也得到了強(qiáng)化。在深度強(qiáng)化學(xué)習(xí)的幫助下,這些工業(yè)機(jī)器人仿佛擁有了屬于自己的“大腦”。3.互聯(lián)網(wǎng)營銷及推廣網(wǎng)絡(luò)營銷與推廣,是強(qiáng)化學(xué)習(xí)的另一個舞臺。搜索引擎廣告常采用競價排名機(jī)制,廣告主需要購置關(guān)鍵字并根據(jù)點擊等進(jìn)行付費。由于廣告界的競爭,整個廣告環(huán)境的競爭狀況構(gòu)成一個復(fù)雜網(wǎng)絡(luò)。廣告競價也變得復(fù)雜起來。強(qiáng)化學(xué)習(xí)技術(shù)正好可以滿足廣告競價的需求。為了實現(xiàn)更高投資回報率,強(qiáng)化學(xué)習(xí)根據(jù)當(dāng)前的各種環(huán)境狀態(tài),來訓(xùn)練對應(yīng)的神經(jīng)網(wǎng)絡(luò),最終通過比對,求得最優(yōu)的結(jié)果。借助強(qiáng)化學(xué)習(xí)所建立的模型,所有狀態(tài)都可以被反映出來,并能根據(jù)實時數(shù)據(jù)、狀態(tài)做出對應(yīng)的預(yù)測和調(diào)整。這一點與自動駕駛汽車有異曲同工之妙。
━━━━━
逃不出的“維數(shù)詛咒”
強(qiáng)化學(xué)習(xí)雖然已經(jīng)有了一些成功的案例,但是這一方法也遇到了一定的阻力。這些阻力中,最嚴(yán)重的當(dāng)屬 “維數(shù)災(zāi)難”。在現(xiàn)實世界中,走出了實驗室的機(jī)器人需要面對更多的未知情況,因此在進(jìn)行強(qiáng)化學(xué)習(xí)的過程中就要將幾十甚至上百個變量納入考慮,這會導(dǎo)致問題的困難程度呈指數(shù)級增長。
另外一個問題則是機(jī)器人制造及維修的成本。強(qiáng)化學(xué)習(xí)的本質(zhì)是不斷試錯的過程,因此在機(jī)器人進(jìn)行實踐的過程中,很有可能在訓(xùn)練中受損甚至報廢;即便設(shè)備還能繼續(xù)使用,也有可能因為損傷而影響訓(xùn)練中策略的準(zhǔn)確性,F(xiàn)在,強(qiáng)化學(xué)習(xí)的研究人員們?nèi)匀辉谂μ剿、找尋那些能夠讓?qiáng)化學(xué)習(xí)應(yīng)用于復(fù)雜場景的方法。也許在2017年的晚些時候,在你身邊的某一條高速公路上,強(qiáng)化學(xué)習(xí)會經(jīng)歷誕生以來最戲劇性也是最重要的測試。
更多>>熱門排行
更多>>長沙常用電話
長沙社區(qū)排行
·請注意語言文明,尊重網(wǎng)絡(luò)道德,并承擔(dān)一切因您的行為而直接或間接引起的法律責(zé)任。
·長沙社區(qū)通管理員有權(quán)保留或刪除其管轄留言中的任意非法內(nèi)容。