亚洲AV无码专区电影性船,日韩丝袜欧美人妻制服

您的位置：長沙社區(qū)通 > 新聞 > 國內(nèi) > 科技 > 科學(xué)解釋AlphaGo為什么會(huì)贏人工智能到底強(qiáng)在哪？

科學(xué)解釋AlphaGo為什么會(huì)贏人工智能到底強(qiáng)在哪？

網(wǎng)址：www.blackcollegiateintl.com 編輯：長沙社區(qū)通時(shí)間：2017-05-28

昨天，柯潔和AlphaGo的最后一戰(zhàn)結(jié)果出爐，柯潔再敗，總比分0:3完敗。另外，機(jī)器人小冰出了一本詩集，更是引起了廣泛討論。一時(shí)間，對(duì)人工智能的討論此起彼伏。

無論是寫詩，還是國際象棋冠軍加里·卡斯帕羅夫、李世石、柯潔這些頂尖高手一一敗給人工智能，都讓人不禁想，人工智能是如何做到這些的?

全文3591字，閱讀約需5分鐘

2016年3月9日，韓國首爾的一場棋賽反響空前。此戰(zhàn)不僅吸引了全球記者的長槍短炮，也成了人們茶余飯后的談資。這不是一場普通的圍棋賽事，而是被稱為“世紀(jì)大戰(zhàn)”的人機(jī)智慧對(duì)決。對(duì)弈的一方是人類頂級(jí)棋手李世石，另一方則是誕生于英國的人工智能程序——。五盤大戰(zhàn)最終以李世石1比4投子認(rèn)負(fù)結(jié)束。此役過后，人們記住了這個(gè)叫“阿爾法狗”的人工智能，也記住了它背后的“新”技術(shù)：強(qiáng)化學(xué)習(xí)（Reinforcement Learning）。

━━━━━

AlphaGo：強(qiáng)化學(xué)習(xí)的空前成功

AlphaGo的出現(xiàn)，讓人聯(lián)想起當(dāng)年的“深藍(lán)”——1997年，這臺(tái)IBM超級(jí)計(jì)算機(jī)就曾擊敗人類國際象棋冠軍加里·卡斯帕羅夫。那么，為什么時(shí)至今日人工智能界還會(huì)為一場棋賽的勝利而大肆狂歡？這還要從圍棋和國際象棋這兩種棋說起。20年前，雖然國際象棋程序已能逼平甚至戰(zhàn)勝人類冠軍，但當(dāng)時(shí)在圍棋上尚不及業(yè)余棋手。這是因?yàn)�，�?duì)于計(jì)算機(jī)來說，后者的復(fù)雜程度遠(yuǎn)高于前者：國際象棋的棋盤為8行8列，而圍棋盤的縱橫則各有19路——361個(gè)可供落子的交叉點(diǎn)。也就是說從空間的復(fù)雜度來看，國際象棋約為1047，而圍棋則高達(dá)10170。復(fù)雜度的天壤之別，也意味著“深藍(lán)”的制勝套路無法復(fù)制到圍棋賽場。當(dāng)年有人質(zhì)疑“深藍(lán)”所謂的“智能”，不過是依靠每秒可運(yùn)算2億步的“蠻力”，窮舉出棋盤的可能性而已。而在圍棋中難以測算某些走棋的優(yōu)劣，即便將“深藍(lán)”所采用的全部優(yōu)化算法放到如今最高性能的計(jì)算設(shè)備上，人們也無法將圍棋比賽中機(jī)器的決策用時(shí)修剪到合理的時(shí)間內(nèi)。那么，AlphaGo究竟是靠什么贏得比賽的呢？2016年1月，《自然》雜志詳細(xì)解析了AlphaGo背后的技術(shù)：AlphaGo將“價(jià)值網(wǎng)絡(luò)”及“策略網(wǎng)絡(luò)”結(jié)合，并通過人類職業(yè)棋手的比賽數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練。通俗地說，就是先讓AlphaGo學(xué)會(huì)評(píng)價(jià)棋路的優(yōu)劣，然后再通過不斷與自己對(duì)弈進(jìn)行強(qiáng)化學(xué)習(xí)，讓AlphaGo“參悟”下棋的感覺。而在實(shí)際的比賽現(xiàn)場，AlphaGo則根據(jù)積累的經(jīng)驗(yàn)，動(dòng)態(tài)地尋找最優(yōu)方法，如此才締造了AlphaGo 最終的“壓倒性”勝利。

▲Mel Bochner泡泡（Babble），2011年計(jì)算機(jī)和人工智能系統(tǒng)難以理解語言的其中一個(gè)原因在于，詞語的意思往往與語境甚至字母形態(tài)有關(guān)系。上圖中，幾位藝術(shù)家展示了如何通過不同的視覺線索來傳達(dá)文字背后的意義。

━━━━━

強(qiáng)化學(xué)習(xí)的發(fā)展和原理

如果說人工智能的研究發(fā)展史是全球一眾學(xué)者辛勤攻克的馬拉松，那么強(qiáng)化學(xué)習(xí)就是希望實(shí)現(xiàn)人工智能的一個(gè)技術(shù)手段。聽起來工業(yè)味十足的人工智能，與心理學(xué)等其他社會(huì)學(xué)科、科學(xué)學(xué)科都頗有淵源，強(qiáng)化學(xué)習(xí)因此無法免俗。實(shí)際上，現(xiàn)代強(qiáng)化學(xué)習(xí)的教父理查德·薩頓最早就來自斯坦福大學(xué)的心理系。他曾表示，心理學(xué)就像是個(gè)秘密武器，讓他在計(jì)算機(jī)研究中汲取了無數(shù)的靈感。在心理學(xué)實(shí)驗(yàn)的基礎(chǔ)上，薩頓為強(qiáng)化學(xué)習(xí)的發(fā)展史梳理出了3條主流脈絡(luò)。第一條發(fā)展線是源自心理學(xué)動(dòng)物實(shí)驗(yàn)的“試錯(cuò)”流派。簡單來講，就是通過不斷嘗試、犯錯(cuò)、再嘗試，“偶然”完成目標(biāo)，然后加強(qiáng)“成功”經(jīng)驗(yàn)，不斷靠近解決方案。強(qiáng)化學(xué)習(xí)的第二條發(fā)展線主要采用“最優(yōu)控制”理論及“動(dòng)態(tài)規(guī)劃”。舉個(gè)例子，當(dāng)司機(jī)駕駛汽車行駛在翻山越嶺的公路上時(shí)，在什么時(shí)機(jī)踩下油門加速、加速多久，都會(huì)對(duì)最終到達(dá)目的地的時(shí)長帶來影響。在這一過程中，又可能存在諸多限制條件，“最優(yōu)控制”要做的，就是在限定條件下尋求最優(yōu)結(jié)果。發(fā)展線則是時(shí)序差分法。時(shí)序差分與過往的經(jīng)驗(yàn)和狀態(tài)有關(guān)，它根據(jù)一些策略對(duì)環(huán)境進(jìn)行隨機(jī)取樣學(xué)習(xí)。時(shí)序差分法又汲取了動(dòng)態(tài)規(guī)劃的精髓，在過去習(xí)得的估測結(jié)果的基礎(chǔ)上，對(duì)未來狀態(tài)進(jìn)行盡可能的“擬合”。在20世紀(jì)80年代末，這3條分支逐漸匯集一處，形成了現(xiàn)代的強(qiáng)化學(xué)習(xí)。

總的來說，強(qiáng)化學(xué)習(xí)是通過與環(huán)境交互獲得最優(yōu)解的過程。在強(qiáng)化學(xué)習(xí)中，機(jī)器代理會(huì)與環(huán)境進(jìn)行交互，根據(jù)當(dāng)前的環(huán)境狀態(tài)權(quán)衡“即時(shí)獎(jiǎng)勵(lì)”以及“延遲獎(jiǎng)勵(lì)”，然后采取行動(dòng)，依此不斷地往復(fù)、試錯(cuò)，尋找能夠最大化累積獎(jiǎng)勵(lì)的策略。最終，獲得較高的獎(jiǎng)勵(lì)后，得到這一獎(jiǎng)勵(lì)的過程中的所有行動(dòng)均會(huì)得到加強(qiáng)。

━━━━━

強(qiáng)化學(xué)習(xí)的應(yīng)用

強(qiáng)化學(xué)習(xí)技術(shù)該如何落地，在現(xiàn)實(shí)生活中找到用武之地，這是人們比較關(guān)心的話題。如今的強(qiáng)化學(xué)習(xí)技術(shù)已經(jīng)邁出了游戲競技的小賽場，在我們的生活中找到了更多“接地氣”的應(yīng)用場景。提到機(jī)器人，首先映入腦海的可能是電影《星球大戰(zhàn)》中外形呆萌人形機(jī)器人。但我們都忽略了機(jī)器人圈中兩個(gè)非常重要的成員——自動(dòng)駕駛汽車和工業(yè)機(jī)器人。相比那些外形惹眼的擬生機(jī)器人，貌不驚人的自動(dòng)駕駛汽車和工業(yè)機(jī)械手臂卻與我們的生活有著更緊密的聯(lián)系，它們也正是強(qiáng)化學(xué)習(xí)技術(shù)的主戰(zhàn)場。1.自動(dòng)駕駛汽車：學(xué)會(huì)應(yīng)對(duì)復(fù)雜的路況2016 年年末，在巴塞羅那的一次人工智能會(huì)議上，播放了一段令人熱血沸騰的駕駛模擬視頻。在實(shí)時(shí)計(jì)算機(jī)模擬的畫面上，幾輛自動(dòng)駕駛汽車在一條四車道虛擬高速公路上展開了一場瘋狂至極的演習(xí)。這幾輛車一半在嘗試從右側(cè)車道移向中間，而另一半則希望從左側(cè)向中間并線。即便對(duì)于人類老司機(jī)來說，遇上這樣的情況也會(huì)亂了陣腳，不過這些自動(dòng)駕駛汽車卻能夠在混亂的情況中做到精確控制，成功地完成了這個(gè)棘手的任務(wù)。這些自動(dòng)駕駛汽車的出色表現(xiàn)，來自于反反復(fù)復(fù)的練習(xí)，它們?cè)诰毩?xí)中自己學(xué)會(huì)了如何流暢、安全地并線。每一次并線成功后，系統(tǒng)都會(huì)加強(qiáng)對(duì)這些動(dòng)作的偏好。沒錯(cuò)，這里所應(yīng)用的技術(shù)便是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)正在越來越多的領(lǐng)域中得到應(yīng)用。這一方法尤其適合自動(dòng)駕駛汽車，因?yàn)轳{駛的過程是一種“良好的決策序列”。未來，寶馬和英特爾將合作測試自動(dòng)駕駛的軟件。谷歌、優(yōu)步等公司也會(huì)有研究團(tuán)隊(duì)用強(qiáng)化學(xué)習(xí)的方法訓(xùn)練自動(dòng)駕駛汽車。

▲圖像來自Mobileye的強(qiáng)化學(xué)習(xí)汽車的視覺系統(tǒng)

2.智能工業(yè)機(jī)器人：機(jī)械臂被裝上了“大腦”20世紀(jì)50年代，美國人喬治 · 戴沃爾提出了工業(yè)機(jī)器人的概念并申請(qǐng)專利。后來這些機(jī)械手臂得到了長足進(jìn)步。它們的出現(xiàn)大幅提升了工廠的自動(dòng)化程度，并降低了人力成本，已經(jīng)被大量采用。但對(duì)于機(jī)械手臂，即便是抓起物品這樣看似簡單的小動(dòng)作，往往也需要程序員投入大量的時(shí)間，反復(fù)修改、實(shí)驗(yàn)。當(dāng)工廠的生產(chǎn)任務(wù)發(fā)生改變時(shí)，修改、調(diào)整機(jī)械手臂的預(yù)設(shè)程序的成本也同樣不容小覷。不過隨著強(qiáng)化學(xué)習(xí)技術(shù)的到來，這些隱藏在“無人”工廠背后的程序員的工作負(fù)荷也可以被大幅降低。2015年年底的東京國際機(jī)器人展覽會(huì)上，出現(xiàn)了一種新型智能機(jī)械臂。只需給這些工業(yè)機(jī)器人布置簡單的小任務(wù)（如從盒中挑揀物品等），然后等上一晚的時(shí)間，第二天清晨它就基本可以“摸索”出一套自己的解決方案。令人驚奇的是，它的背后并沒有強(qiáng)大的專家系統(tǒng)，也沒有一群加班熬夜、精通機(jī)械的程序員。這些新型工業(yè)機(jī)器人正是通過深度強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練自己學(xué)會(huì)執(zhí)行新的任務(wù)。揀拾物品的過程，這些機(jī)械手臂會(huì)錄制視頻，每次揀拾完成，根據(jù)效果它們會(huì)得到不同的獎(jiǎng)勵(lì)值，這些知識(shí)不斷積累，強(qiáng)化那些更接近最終目標(biāo)的動(dòng)作（如拾起物品）也得到了強(qiáng)化。在深度強(qiáng)化學(xué)習(xí)的幫助下，這些工業(yè)機(jī)器人仿佛擁有了屬于自己的“大腦”。3.互聯(lián)網(wǎng)營銷及推廣網(wǎng)絡(luò)營銷與推廣，是強(qiáng)化學(xué)習(xí)的另一個(gè)舞臺(tái)。搜索引擎廣告常采用競價(jià)排名機(jī)制，廣告主需要購置關(guān)鍵字并根據(jù)點(diǎn)擊等進(jìn)行付費(fèi)。由于廣告界的競爭，整個(gè)廣告環(huán)境的競爭狀況構(gòu)成一個(gè)復(fù)雜網(wǎng)絡(luò)。廣告競價(jià)也變得復(fù)雜起來。強(qiáng)化學(xué)習(xí)技術(shù)正好可以滿足廣告競價(jià)的需求。為了實(shí)現(xiàn)更高投資回報(bào)率，強(qiáng)化學(xué)習(xí)根據(jù)當(dāng)前的各種環(huán)境狀態(tài)，來訓(xùn)練對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)，最終通過比對(duì)，求得最優(yōu)的結(jié)果。借助強(qiáng)化學(xué)習(xí)所建立的模型，所有狀態(tài)都可以被反映出來，并能根據(jù)實(shí)時(shí)數(shù)據(jù)、狀態(tài)做出對(duì)應(yīng)的預(yù)測和調(diào)整。這一點(diǎn)與自動(dòng)駕駛汽車有異曲同工之妙。

━━━━━

逃不出的“維數(shù)詛咒”

強(qiáng)化學(xué)習(xí)雖然已經(jīng)有了一些成功的案例，但是這一方法也遇到了一定的阻力。這些阻力中，最嚴(yán)重的當(dāng)屬 “維數(shù)災(zāi)難”。在現(xiàn)實(shí)世界中，走出了實(shí)驗(yàn)室的機(jī)器人需要面對(duì)更多的未知情況，因此在進(jìn)行強(qiáng)化學(xué)習(xí)的過程中就要將幾十甚至上百個(gè)變量納入考慮，這會(huì)導(dǎo)致問題的困難程度呈指數(shù)級(jí)增長。

另外一個(gè)問題則是機(jī)器人制造及維修的成本。強(qiáng)化學(xué)習(xí)的本質(zhì)是不斷試錯(cuò)的過程，因此在機(jī)器人進(jìn)行實(shí)踐的過程中，很有可能在訓(xùn)練中受損甚至報(bào)廢；即便設(shè)備還能繼續(xù)使用，也有可能因?yàn)閾p傷而影響訓(xùn)練中策略的準(zhǔn)確性�，F(xiàn)在，強(qiáng)化學(xué)習(xí)的研究人員們?nèi)匀辉谂μ剿�、找尋那些能夠讓�?qiáng)化學(xué)習(xí)應(yīng)用于復(fù)雜場景的方法。也許在2017年的晚些時(shí)候，在你身邊的某一條高速公路上，強(qiáng)化學(xué)習(xí)會(huì)經(jīng)歷誕生以來最戲劇性也是最重要的測試。

TAGS：科技 | 新聞轉(zhuǎn)載：長沙社區(qū)通

頂一下

(0)

踩一下

(0)

最新評(píng)論 查看全部評(píng)論發(fā)表評(píng)論

發(fā)表評(píng)論

·網(wǎng)友評(píng)論僅供網(wǎng)友表達(dá)個(gè)人看法，并不表明網(wǎng)站同意其觀點(diǎn)或證實(shí)其描述。
·請(qǐng)注意語言文明，尊重網(wǎng)絡(luò)道德，并承擔(dān)一切因您的行為而直接或間接引起的法律責(zé)任。
·長沙社區(qū)通管理員有權(quán)保留或刪除其管轄留言中的任意非法內(nèi)容。

相關(guān)文章

精品導(dǎo)讀

更多>>熱門排行

更多>>長沙常用電話

長沙汽車西站
0731-88816332
長沙湖南巴士
0731-84127641
長沙黃花機(jī)場
0731-84798777
長沙汽車南站
0731-85630505
長沙龍?bào)J巴士
0731-85671110
長沙汽車東站
0731-84611731
長沙紅光巴士
0731-88165999
長沙汽車北站
0731-82805051
長沙眾旺公交
0731-88239596
長沙萬眾公交
0731-84064392
長沙三葉公交
0731-88803357
長沙火車站
0731-82637122

長沙社區(qū)排行

免責(zé)聲明：長沙社區(qū)通所載所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng)，均屬東拼西湊，部分文章原創(chuàng)，使用前請(qǐng)核實(shí)，社會(huì)有風(fēng)險(xiǎn)，請(qǐng)小心謹(jǐn)慎，以防上當(dāng)受騙！

所有網(wǎng)頁均在IE8,谷歌,火狐,360等相關(guān)瀏覽器試通過均無亂版，建議使用360瀏覽器瀏覽，其它瀏覽器如有版面亂版等其它版權(quán)問題，請(qǐng)及時(shí)聯(lián)系我們！

聯(lián)系郵箱：changshashequtong@foxmail.com 地址: 湖南省長沙市雨花區(qū)港島路128號(hào)長鑫美樹園

湘公網(wǎng)安備 43011102000981號(hào)

湘ICP備11017205號(hào)-2

長沙火車長沙航班長沙汽車長沙公交長沙醫(yī)院長沙房產(chǎn) 長沙銀行長沙移動(dòng) 長沙聯(lián)通長沙電信長沙學(xué)校長沙水業(yè) 長沙電網(wǎng)

0731-88816332

0731-84127641

0731-84798777

0731-85630505

0731-85671110

0731-84611731

0731-88165999

0731-82805051

0731-88239596

0731-84064392

0731-88803357

0731-82637122

新聞推薦

長沙火車 長沙航班 長沙汽車 長沙公交 長沙醫(yī)院 長沙房產(chǎn) 長沙銀行 長沙移動(dòng) 長沙聯(lián)通 長沙電信 長沙學(xué)校 長沙水業(yè) 長沙電網(wǎng)

0731-88816332

0731-84127641

0731-84798777

0731-85630505

0731-85671110

0731-84611731

0731-88165999

0731-82805051

0731-88239596

0731-84064392

0731-88803357

0731-82637122

新聞推薦

長沙火車長沙航班長沙汽車長沙公交長沙醫(yī)院長沙房產(chǎn) 長沙銀行長沙移動(dòng) 長沙聯(lián)通長沙電信長沙學(xué)校長沙水業(yè) 長沙電網(wǎng)