最近中文字幕完整在线看一,成人精品一区日本无码网站

谷歌收購DeepMind的最大原因

瀏覽267次2018-02-02 15:18

2014年，谷歌花了5億多美元收購了位于倫敦的一家小公司：DeepMind。在此之前，DeepMind在2013年12月的NIPS大會上發(fā)表過一篇關(guān)于用深度強(qiáng)化學(xué)習(xí)來玩視頻游戲的論文Playing Atari with Deep Reinforcement Learning，后續(xù)研究成果Human-level control through deep reinforcement learning在2015年2月上了《自然》的封面。再后來，深度學(xué)習(xí)+強(qiáng)化學(xué)習(xí)的玩法用在了圍棋上，于是我們有了阿法狗。

回頭看看讓DeepMind起家的Deep Q Learning，看上去只是一個非常簡單的軟件，一個專門為Atari視頻游戲設(shè)計的自動程序?？墒牵灰暈?ldquo;通用智能”的第一次嘗試——論文顯示，這種算法可以應(yīng)用至50種不同的Atari游戲，而且表現(xiàn)均超過人類水平。這就是深度Q學(xué)習(xí)器。

用超級瑪麗來舉個例子。我們擁有游戲的視頻片段作為數(shù)據(jù)輸入，用馬里奧移動的方向來標(biāo)注數(shù)據(jù)。這些訓(xùn)練數(shù)據(jù)是連續(xù)的，新的視頻幀持續(xù)不斷地在游戲世界產(chǎn)生，而我們想知道如何在這個世界中行動。

看上去，最好的辦法是通過嘗試。不斷嘗試，不斷犯錯，這樣我們就會了解我們與游戲世界的最佳互動形式。

強(qiáng)化學(xué)習(xí)就是用來解決這類問題的。每當(dāng)馬里奧做了一些有助于贏得游戲的動作，正標(biāo)簽就會出現(xiàn)，只是它們的出現(xiàn)有延遲。相比起把它們叫做標(biāo)簽，更確切的叫法是“獎勵Reward”。

我們將整個游戲過程表示為一個由狀態(tài)（State）、動作（Action）和獎勵（Reward）構(gòu)成的序列，每個狀態(tài)的概率僅僅取決于前一個狀態(tài)和執(zhí)行的動作，這叫做“馬爾科夫特性”，以俄羅斯數(shù)學(xué)家馬爾科夫命名。這個決策過程稱之為馬爾科夫過程。

如果把某個點之后一系列的獎勵表示成一個函數(shù)，這個函數(shù)值就代表游戲結(jié)束時，可能出現(xiàn)的最佳得分。當(dāng)在給定的狀態(tài)下執(zhí)行給定的動作之后，此函數(shù)用于衡量該狀態(tài)下某個動作的質(zhì)量（Quality），這就是Q函數(shù)，也叫魁地奇函數(shù)，啊不，質(zhì)量函數(shù)。

當(dāng)馬里奧決定執(zhí)行哪個可能的動作時，他將選擇那些Q值最高的動作，計算Q值的過程，就是學(xué)習(xí)的過程。

熱門百科

亚洲av综合在线观看|中文字幕乱码亚洲无线码|蜜桃AV鲁一鲁一鲁一鲁樱花影院|中文字幕2019年最好看电视剧|精品人妻av一区|91精品国产青草综合久久不卡|亚洲国产一二三精品无码|无码成人一区二区三区入厕偷拍