亚洲av综合在线观看|中文字幕乱码亚洲无线码|蜜桃AV鲁一鲁一鲁一鲁樱花影院|中文字幕2019年最好看电视剧|精品人妻av一区|91精品国产青草综合久久不卡|亚洲国产一二三精品无码|无码成人一区二区三区入厕偷拍

知道解決
谷歌收購DeepMind的最大原因
瀏覽267次2018-02-02 15:18

2014年,谷歌花了5億多美元收購了位于倫敦的一家小公司:DeepMind。在此之前,DeepMind在2013年12月的NIPS大會上發(fā)表過一篇關(guān)于用深度強(qiáng)化學(xué)習(xí)來玩視頻游戲的論文Playing Atari with Deep Reinforcement Learning,后續(xù)研究成果Human-level control through deep reinforcement learning在2015年2月上了《自然》的封面。再后來,深度學(xué)習(xí)+強(qiáng)化學(xué)習(xí)的玩法用在了圍棋上,于是我們有了阿法狗。

blob.png

回頭看看讓DeepMind起家的Deep Q Learning,看上去只是一個非常簡單的軟件,一個專門為Atari視頻游戲設(shè)計的自動程序??墒牵灰暈?ldquo;通用智能”的第一次嘗試——論文顯示,這種算法可以應(yīng)用至50種不同的Atari游戲,而且表現(xiàn)均超過人類水平。這就是深度Q學(xué)習(xí)器。

blob.png

用超級瑪麗來舉個例子。我們擁有游戲的視頻片段作為數(shù)據(jù)輸入,用馬里奧移動的方向來標(biāo)注數(shù)據(jù)。這些訓(xùn)練數(shù)據(jù)是連續(xù)的,新的視頻幀持續(xù)不斷地在游戲世界產(chǎn)生,而我們想知道如何在這個世界中行動。

看上去,最好的辦法是通過嘗試。不斷嘗試,不斷犯錯,這樣我們就會了解我們與游戲世界的最佳互動形式。

blob.png

強(qiáng)化學(xué)習(xí)就是用來解決這類問題的。每當(dāng)馬里奧做了一些有助于贏得游戲的動作,正標(biāo)簽就會出現(xiàn),只是它們的出現(xiàn)有延遲。相比起把它們叫做標(biāo)簽,更確切的叫法是“獎勵Reward”。

blob.png

我們將整個游戲過程表示為一個由狀態(tài)(State)、動作(Action)和獎勵(Reward)構(gòu)成的序列,每個狀態(tài)的概率僅僅取決于前一個狀態(tài)和執(zhí)行的動作,這叫做“馬爾科夫特性”,以俄羅斯數(shù)學(xué)家馬爾科夫命名。這個決策過程稱之為馬爾科夫過程。

如果把某個點之后一系列的獎勵表示成一個函數(shù),這個函數(shù)值就代表游戲結(jié)束時,可能出現(xiàn)的最佳得分。當(dāng)在給定的狀態(tài)下執(zhí)行給定的動作之后,此函數(shù)用于衡量該狀態(tài)下某個動作的質(zhì)量(Quality),這就是Q函數(shù),也叫魁地奇函數(shù),啊不,質(zhì)量函數(shù)。

blob.png

當(dāng)馬里奧決定執(zhí)行哪個可能的動作時,他將選擇那些Q值最高的動作,計算Q值的過程,就是學(xué)習(xí)的過程。

右側(cè)廣告
關(guān)于我們 | 廣告服務(wù) | 會員服務(wù) | 隱私申明 | 友情鏈接 | 聯(lián)系我們 | 法律顧問 | 網(wǎng)站地圖 | 百方網(wǎng)信用評價制度 (c)2008-2025 BYF All Rights Reserved
網(wǎng)絡(luò)標(biāo)識
可信網(wǎng)站識