一二三四在线播放免费观看中文版视频, 上门服务24小时接单app免费安装, 久久久久久久久久久久久久久久久久久, 忘忧草视频在线播放免费观看黄片下载,超碰人人爽爽人人爽人人,中国一级A片AAA片,欧美老妇肥熟高清,久久精品最新免费国产成人,久久人人97超碰CaOPOren

首頁(yè) | 注冊(cè) | 登陸 | 網(wǎng)站繁體 | 手機(jī)版 | 設(shè)為首頁(yè) 長(zhǎng)沙社區(qū)通 做長(zhǎng)沙地區(qū)最好的社區(qū)門戶網(wǎng)站 正在努力策劃制作...

您的位置:長(zhǎng)沙社區(qū)通 > 新聞 > 國(guó)內(nèi) > 科技 > 科學(xué)解釋AlphaGo為什么會(huì)贏 人工智能到底強(qiáng)在哪?
科學(xué)解釋AlphaGo為什么會(huì)贏 人工智能到底強(qiáng)在哪?
網(wǎng)址:www.blackcollegiateintl.com 編輯:長(zhǎng)沙社區(qū)通 時(shí)間:2017-05-28

昨天,柯潔和AlphaGo的最后一戰(zhàn)結(jié)果出爐,柯潔再敗,總比分0:3完敗。另外,機(jī)器人小冰出了一本詩(shī)集,更是引起了廣泛討論。一時(shí)間,對(duì)人工智能的討論此起彼伏。

無(wú)論是寫詩(shī),還是國(guó)際象棋冠軍加里·卡斯帕羅夫、李世石、柯潔這些頂尖高手一一敗給人工智能,都讓人不禁想,人工智能是如何做到這些的?

全文3591字,閱讀約需5分鐘

2016年3月9日,韓國(guó)首爾的一場(chǎng)棋賽反響空前。此戰(zhàn)不僅吸引了全球記者的長(zhǎng)槍短炮,也成了人們茶余飯后的談資。這不是一場(chǎng)普通的圍棋賽事,而是被稱為“世紀(jì)大戰(zhàn)”的人機(jī)智慧對(duì)決。對(duì)弈的一方是人類頂級(jí)棋手李世石,另一方則是誕生于英國(guó)的人工智能程序——。五盤大戰(zhàn)最終以李世石1比4投子認(rèn)負(fù)結(jié)束。此役過(guò)后,人們記住了這個(gè)叫“阿爾法狗”的人工智能,也記住了它背后的“新”技術(shù):強(qiáng)化學(xué)習(xí)(Reinforcement Learning)。

━━━━━

AlphaGo:強(qiáng)化學(xué)習(xí)的空前成功

AlphaGo的出現(xiàn),讓人聯(lián)想起當(dāng)年的“深藍(lán)”——1997年,這臺(tái)IBM超級(jí)計(jì)算機(jī)就曾擊敗人類國(guó)際象棋冠軍加里·卡斯帕羅夫。那么,為什么時(shí)至今日人工智能界還會(huì)為一場(chǎng)棋賽的勝利而大肆狂歡?這還要從圍棋和國(guó)際象棋這兩種棋說(shuō)起。20年前,雖然國(guó)際象棋程序已能逼平甚至戰(zhàn)勝人類冠軍,但當(dāng)時(shí)在圍棋上尚不及業(yè)余棋手。這是因?yàn),?duì)于計(jì)算機(jī)來(lái)說(shuō),后者的復(fù)雜程度遠(yuǎn)高于前者:國(guó)際象棋的棋盤為8行8列,而圍棋盤的縱橫則各有19路——361個(gè)可供落子的交叉點(diǎn)。也就是說(shuō)從空間的復(fù)雜度來(lái)看,國(guó)際象棋約為1047,而圍棋則高達(dá)10170。復(fù)雜度的天壤之別,也意味著“深藍(lán)”的制勝套路無(wú)法復(fù)制到圍棋賽場(chǎng)。當(dāng)年有人質(zhì)疑“深藍(lán)”所謂的“智能”,不過(guò)是依靠每秒可運(yùn)算2億步的“蠻力”,窮舉出棋盤的可能性而已。而在圍棋中難以測(cè)算某些走棋的優(yōu)劣,即便將“深藍(lán)”所采用的全部?jī)?yōu)化算法放到如今最高性能的計(jì)算設(shè)備上,人們也無(wú)法將圍棋比賽中機(jī)器的決策用時(shí)修剪到合理的時(shí)間內(nèi)。那么,AlphaGo究竟是靠什么贏得比賽的呢?2016年1月,《自然》雜志詳細(xì)解析了AlphaGo背后的技術(shù):AlphaGo將“價(jià)值網(wǎng)絡(luò)”及“策略網(wǎng)絡(luò)”結(jié)合,并通過(guò)人類職業(yè)棋手的比賽數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練。通俗地說(shuō),就是先讓AlphaGo學(xué)會(huì)評(píng)價(jià)棋路的優(yōu)劣,然后再通過(guò)不斷與自己對(duì)弈進(jìn)行強(qiáng)化學(xué)習(xí),讓AlphaGo“參悟”下棋的感覺。而在實(shí)際的比賽現(xiàn)場(chǎng),AlphaGo則根據(jù)積累的經(jīng)驗(yàn),動(dòng)態(tài)地尋找最優(yōu)方法,如此才締造了AlphaGo 最終的“壓倒性”勝利。

Mel Bochner泡泡(Babble),2011年計(jì)算機(jī)和人工智能系統(tǒng)難以理解語(yǔ)言的其中一個(gè)原因在于,詞語(yǔ)的意思往往與語(yǔ)境甚至字母形態(tài)有關(guān)系。上圖中,幾位藝術(shù)家展示了如何通過(guò)不同的視覺線索來(lái)傳達(dá)文字背后的意義。

━━━━━

強(qiáng)化學(xué)習(xí)的發(fā)展和原理

如果說(shuō)人工智能的研究發(fā)展史是全球一眾學(xué)者辛勤攻克的馬拉松,那么強(qiáng)化學(xué)習(xí)就是希望實(shí)現(xiàn)人工智能的一個(gè)技術(shù)手段。聽起來(lái)工業(yè)味十足的人工智能,與心理學(xué)等其他社會(huì)學(xué)科、科學(xué)學(xué)科都頗有淵源,強(qiáng)化學(xué)習(xí)因此無(wú)法免俗。實(shí)際上,現(xiàn)代強(qiáng)化學(xué)習(xí)的教父理查德·薩頓最早就來(lái)自斯坦福大學(xué)的心理系。他曾表示,心理學(xué)就像是個(gè)秘密武器,讓他在計(jì)算機(jī)研究中汲取了無(wú)數(shù)的靈感。在心理學(xué)實(shí)驗(yàn)的基礎(chǔ)上,薩頓為強(qiáng)化學(xué)習(xí)的發(fā)展史梳理出了3條主流脈絡(luò)。第一條發(fā)展線是源自心理學(xué)動(dòng)物實(shí)驗(yàn)的“試錯(cuò)”流派。簡(jiǎn)單來(lái)講,就是通過(guò)不斷嘗試、犯錯(cuò)、再嘗試,“偶然”完成目標(biāo),然后加強(qiáng)“成功”經(jīng)驗(yàn),不斷靠近解決方案。強(qiáng)化學(xué)習(xí)的第二條發(fā)展線主要采用“最優(yōu)控制”理論及“動(dòng)態(tài)規(guī)劃”。舉個(gè)例子,當(dāng)司機(jī)駕駛汽車行駛在翻山越嶺的公路上時(shí),在什么時(shí)機(jī)踩下油門加速、加速多久,都會(huì)對(duì)最終到達(dá)目的地的時(shí)長(zhǎng)帶來(lái)影響。在這一過(guò)程中,又可能存在諸多限制條件,“最優(yōu)控制”要做的,就是在限定條件下尋求最優(yōu)結(jié)果。發(fā)展線則是時(shí)序差分法。時(shí)序差分與過(guò)往的經(jīng)驗(yàn)和狀態(tài)有關(guān),它根據(jù)一些策略對(duì)環(huán)境進(jìn)行隨機(jī)取樣學(xué)習(xí)。時(shí)序差分法又汲取了動(dòng)態(tài)規(guī)劃的精髓,在過(guò)去習(xí)得的估測(cè)結(jié)果的基礎(chǔ)上,對(duì)未來(lái)狀態(tài)進(jìn)行盡可能的“擬合”。在20世紀(jì)80年代末,這3條分支逐漸匯集一處,形成了現(xiàn)代的強(qiáng)化學(xué)習(xí)。

總的來(lái)說(shuō),強(qiáng)化學(xué)習(xí)是通過(guò)與環(huán)境交互獲得最優(yōu)解的過(guò)程。在強(qiáng)化學(xué)習(xí)中,機(jī)器代理會(huì)與環(huán)境進(jìn)行交互,根據(jù)當(dāng)前的環(huán)境狀態(tài)權(quán)衡“即時(shí)獎(jiǎng)勵(lì)”以及“延遲獎(jiǎng)勵(lì)”,然后采取行動(dòng),依此不斷地往復(fù)、試錯(cuò),尋找能夠最大化累積獎(jiǎng)勵(lì)的策略。最終,獲得較高的獎(jiǎng)勵(lì)后,得到這一獎(jiǎng)勵(lì)的過(guò)程中的所有行動(dòng)均會(huì)得到加強(qiáng)。

━━━━━

強(qiáng)化學(xué)習(xí)的應(yīng)用

強(qiáng)化學(xué)習(xí)技術(shù)該如何落地,在現(xiàn)實(shí)生活中找到用武之地,這是人們比較關(guān)心的話題。如今的強(qiáng)化學(xué)習(xí)技術(shù)已經(jīng)邁出了游戲競(jìng)技的小賽場(chǎng),在我們的生活中找到了更多“接地氣”的應(yīng)用場(chǎng)景。提到機(jī)器人,首先映入腦海的可能是電影《星球大戰(zhàn)》中外形呆萌人形機(jī)器人。但我們都忽略了機(jī)器人圈中兩個(gè)非常重要的成員——自動(dòng)駕駛汽車和工業(yè)機(jī)器人。相比那些外形惹眼的擬生機(jī)器人,貌不驚人的自動(dòng)駕駛汽車和工業(yè)機(jī)械手臂卻與我們的生活有著更緊密的聯(lián)系,它們也正是強(qiáng)化學(xué)習(xí)技術(shù)的主戰(zhàn)場(chǎng)。1.自動(dòng)駕駛汽車:學(xué)會(huì)應(yīng)對(duì)復(fù)雜的路況2016 年年末,在巴塞羅那的一次人工智能會(huì)議上,播放了一段令人熱血沸騰的駕駛模擬視頻。在實(shí)時(shí)計(jì)算機(jī)模擬的畫面上,幾輛自動(dòng)駕駛汽車在一條四車道虛擬高速公路上展開了一場(chǎng)瘋狂至極的演習(xí)。這幾輛車一半在嘗試從右側(cè)車道移向中間,而另一半則希望從左側(cè)向中間并線。即便對(duì)于人類老司機(jī)來(lái)說(shuō),遇上這樣的情況也會(huì)亂了陣腳,不過(guò)這些自動(dòng)駕駛汽車卻能夠在混亂的情況中做到精確控制,成功地完成了這個(gè)棘手的任務(wù)。這些自動(dòng)駕駛汽車的出色表現(xiàn),來(lái)自于反反復(fù)復(fù)的練習(xí),它們?cè)诰毩?xí)中自己學(xué)會(huì)了如何流暢、安全地并線。每一次并線成功后,系統(tǒng)都會(huì)加強(qiáng)對(duì)這些動(dòng)作的偏好。沒錯(cuò),這里所應(yīng)用的技術(shù)便是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)正在越來(lái)越多的領(lǐng)域中得到應(yīng)用。這一方法尤其適合自動(dòng)駕駛汽車,因?yàn)轳{駛的過(guò)程是一種“良好的決策序列”。未來(lái),寶馬和英特爾將合作測(cè)試自動(dòng)駕駛的軟件。谷歌、優(yōu)步等公司也會(huì)有研究團(tuán)隊(duì)用強(qiáng)化學(xué)習(xí)的方法訓(xùn)練自動(dòng)駕駛汽車。

圖像來(lái)自Mobileye的強(qiáng)化學(xué)習(xí)汽車的視覺系統(tǒng)

2.智能工業(yè)機(jī)器人:機(jī)械臂被裝上了“大腦”20世紀(jì)50年代,美國(guó)人喬治 · 戴沃爾提出了工業(yè)機(jī)器人的概念并申請(qǐng)專利。后來(lái)這些機(jī)械手臂得到了長(zhǎng)足進(jìn)步。它們的出現(xiàn)大幅提升了工廠的自動(dòng)化程度,并降低了人力成本,已經(jīng)被大量采用。但對(duì)于機(jī)械手臂,即便是抓起物品這樣看似簡(jiǎn)單的小動(dòng)作,往往也需要程序員投入大量的時(shí)間,反復(fù)修改、實(shí)驗(yàn)。當(dāng)工廠的生產(chǎn)任務(wù)發(fā)生改變時(shí),修改、調(diào)整機(jī)械手臂的預(yù)設(shè)程序的成本也同樣不容小覷。不過(guò)隨著強(qiáng)化學(xué)習(xí)技術(shù)的到來(lái),這些隱藏在“無(wú)人”工廠背后的程序員的工作負(fù)荷也可以被大幅降低。2015年年底的東京國(guó)際機(jī)器人展覽會(huì)上,出現(xiàn)了一種新型智能機(jī)械臂。只需給這些工業(yè)機(jī)器人布置簡(jiǎn)單的小任務(wù)(如從盒中挑揀物品等),然后等上一晚的時(shí)間,第二天清晨它就基本可以“摸索”出一套自己的解決方案。令人驚奇的是,它的背后并沒有強(qiáng)大的專家系統(tǒng),也沒有一群加班熬夜、精通機(jī)械的程序員。這些新型工業(yè)機(jī)器人正是通過(guò)深度強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練自己學(xué)會(huì)執(zhí)行新的任務(wù)。揀拾物品的過(guò)程,這些機(jī)械手臂會(huì)錄制視頻,每次揀拾完成,根據(jù)效果它們會(huì)得到不同的獎(jiǎng)勵(lì)值,這些知識(shí)不斷積累,強(qiáng)化那些更接近最終目標(biāo)的動(dòng)作(如拾起物品)也得到了強(qiáng)化。在深度強(qiáng)化學(xué)習(xí)的幫助下,這些工業(yè)機(jī)器人仿佛擁有了屬于自己的“大腦”。3.互聯(lián)網(wǎng)營(yíng)銷及推廣網(wǎng)絡(luò)營(yíng)銷與推廣,是強(qiáng)化學(xué)習(xí)的另一個(gè)舞臺(tái)。搜索引擎廣告常采用競(jìng)價(jià)排名機(jī)制,廣告主需要購(gòu)置關(guān)鍵字并根據(jù)點(diǎn)擊等進(jìn)行付費(fèi)。由于廣告界的競(jìng)爭(zhēng),整個(gè)廣告環(huán)境的競(jìng)爭(zhēng)狀況構(gòu)成一個(gè)復(fù)雜網(wǎng)絡(luò)。廣告競(jìng)價(jià)也變得復(fù)雜起來(lái)。強(qiáng)化學(xué)習(xí)技術(shù)正好可以滿足廣告競(jìng)價(jià)的需求。為了實(shí)現(xiàn)更高投資回報(bào)率,強(qiáng)化學(xué)習(xí)根據(jù)當(dāng)前的各種環(huán)境狀態(tài),來(lái)訓(xùn)練對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò),最終通過(guò)比對(duì),求得最優(yōu)的結(jié)果。借助強(qiáng)化學(xué)習(xí)所建立的模型,所有狀態(tài)都可以被反映出來(lái),并能根據(jù)實(shí)時(shí)數(shù)據(jù)、狀態(tài)做出對(duì)應(yīng)的預(yù)測(cè)和調(diào)整。這一點(diǎn)與自動(dòng)駕駛汽車有異曲同工之妙。

━━━━━

逃不出的“維數(shù)詛咒”

強(qiáng)化學(xué)習(xí)雖然已經(jīng)有了一些成功的案例,但是這一方法也遇到了一定的阻力。這些阻力中,最嚴(yán)重的當(dāng)屬 “維數(shù)災(zāi)難”。在現(xiàn)實(shí)世界中,走出了實(shí)驗(yàn)室的機(jī)器人需要面對(duì)更多的未知情況,因此在進(jìn)行強(qiáng)化學(xué)習(xí)的過(guò)程中就要將幾十甚至上百個(gè)變量納入考慮,這會(huì)導(dǎo)致問(wèn)題的困難程度呈指數(shù)級(jí)增長(zhǎng)。

另外一個(gè)問(wèn)題則是機(jī)器人制造及維修的成本。強(qiáng)化學(xué)習(xí)的本質(zhì)是不斷試錯(cuò)的過(guò)程,因此在機(jī)器人進(jìn)行實(shí)踐的過(guò)程中,很有可能在訓(xùn)練中受損甚至報(bào)廢;即便設(shè)備還能繼續(xù)使用,也有可能因?yàn)閾p傷而影響訓(xùn)練中策略的準(zhǔn)確性,F(xiàn)在,強(qiáng)化學(xué)習(xí)的研究人員們?nèi)匀辉谂μ剿、找尋那些能夠讓?qiáng)化學(xué)習(xí)應(yīng)用于復(fù)雜場(chǎng)景的方法。也許在2017年的晚些時(shí)候,在你身邊的某一條高速公路上,強(qiáng)化學(xué)習(xí)會(huì)經(jīng)歷誕生以來(lái)最戲劇性也是最重要的測(cè)試。

TAGS:科技 | 新聞轉(zhuǎn)載:長(zhǎng)沙社區(qū)通
頂一下
(0)
踩一下
(0)
最新評(píng)論     查看全部評(píng)論     發(fā)表評(píng)論
發(fā)表評(píng)論
·網(wǎng)友評(píng)論僅供網(wǎng)友表達(dá)個(gè)人看法,并不表明網(wǎng)站同意其觀點(diǎn)或證實(shí)其描述。
·請(qǐng)注意語(yǔ)言文明,尊重網(wǎng)絡(luò)道德,并承擔(dān)一切因您的行為而直接或間接引起的法律責(zé)任。
·長(zhǎng)沙社區(qū)通管理員有權(quán)保留或刪除其管轄留言中的任意非法內(nèi)容。
相關(guān)文章
精品導(dǎo)讀