<form id="1tbf9"><nobr id="1tbf9"></nobr></form>

          <address id="1tbf9"></address>

            <address id="1tbf9"></address>

                    <form id="1tbf9"></form>

                    ./t20170717_532315_taonews.html
                    專題
                    首頁  >  專題  >  媒體視點  >  名刊精選  >  《科學24小時》

                    《科學24小時》

                    開博時間:2016-07-01 14:43:00

                    旨在向全國廣大群眾,特別是具有中等文化程度的廣大青年,普及科學技術知識,繁榮科普創作,啟迪思想,開拓視野。

                    文章數
                    分享到:

                    AlphaGo是學習達人嗎

                    2017-07-17 01:00:00

                      2017年年初,一位取得在線對弈60連勝的神秘棋手Master轟動了世界圍棋棋壇。在Master取得50連勝的時候,棋手古力在微博中這樣評價道:“50連勝……雖然我也曾想過,但事實擺在面前時,還是令我等職業棋士汗顏。 也許我們曾經認為永恒不變的圍棋定式、真理,會因 Master 的出現而發生顛覆性的改變……好好睡了吧,去迎接美好的明天與未來!”最終,在與古力進行最后一盤對決前, Master終于自己揭下面紗——正如人們猜測的那樣,它果然是升級后的 Alpha- Go。 此次代為執子走棋的,依然是AlphaGo團隊中惟一懂圍棋的工程師黃士杰(Aja Huang)博士。

                      AlphaGo的前輩——深藍

                      從2016年起, AlphaGo就成了一個家喻戶曉的名字。 它是一個圍棋游戲的計算機程序,最早由 Deep- Mind公司在英國開發,后被 Google 公司收購。 2015年10月,它成為在19×19的圍棋棋盤上第一個打敗專業棋手的計算機游戲程序。 2016年3月,它在5場比賽中以4: 1的比分擊敗了韓國棋手李世石,成為計算機游戲程序的又一個里程碑:第一次由計算機圍棋程序打敗了 9段的專業級棋手。 因此, AlphaGo被韓國棋院授予“名譽職業九段”證書。

                      其實計算機程序并非首次打敗人類專業選手。 早在1997年5月,I BM公司旗下的“深藍”電腦就成功挑戰國際象棋世界冠軍卡斯巴羅夫。比賽在5月11日結束,最終深藍以3. 5:2. 5的比分擊敗卡斯巴羅夫,成為首個在標準比賽時限內擊敗國際象棋世界冠軍的電腦系統。 既然深藍早在1 0年前就取得了人機大戰的勝利,那么10年之后,為什么 Alpha- Go的出現又會掀起如此大的波瀾?這就要從它們不同的原理說起了。

                      深藍取勝的秘訣是“窮舉”,也就是窮舉每一步所有可能的格局(落子方法),再根據當前格局窮舉下一步格局。 也就是說,事先就做成一棵博弈樹。深藍窮舉搜索完整棵博弈樹,也就遍歷了所有可能的格局,然后通過對每一種格局進行評分,最終選擇最優的解法。 從當今的人工智能角度解讀, 深藍的計算方式并不智能,只能用“暴力”去形容。 深藍之所以能取得勝利,靠的是計算機強大的窮舉計算能力。 當計算機的內存足夠大,計算速度足夠快時,這種窮舉的算法應付國際象棋綽綽有余。 那么,可以將這種方法運用到圍棋上嗎?答案是“不能”。 原因就在于國際象棋與圍棋規則的差異。 國際象棋的棋盤只有64格,而圍棋棋盤卻有36 1 格,從棋盤大小考慮,圍棋的博弈樹遍歷的復雜度已經比國際象棋加大了好幾十個量級。 而圍棋更復雜的計算在于其游戲規則。 看似簡單的游戲規則中,每一步的變化加上一些特殊規則所產生的計算復雜度是天文數字量級的。 據測算,國際象棋的窮舉復雜度為1046,而圍棋格局的窮舉復雜度需要10170。 這樣的計算復雜度, 已經遠遠超越了計算機的運算能力。 因此,圍棋長期以來被認為是對人工智能最具挑戰性的棋類游戲。

                      AlphaGo是如何學習的

                      AlphaGo的出現,是人工智能第一次成功挑戰圍棋這個棋類游戲,具有突破性的意義。 那么,當博弈樹窮舉不再可行時, AlphaGo是如何進行決策的呢? 于是,“學習”這一概念第一次在計算機程序對弈的領域中出現。 所謂“學習”,就是將專業棋手的對弈輸入計算機,計算機通過一定的算法,最終得到專業級的對弈策略。而近年來火了一把的深度神經網絡,就成了 AlphaGo學習的核心算法。在博弈中, AlphaGo使用“價值網絡”(value networks)來評估棋盤中的位置,使用“策略網絡”(policy net- works)來確定棋子的移動。 這些深度神經網絡,通過對人類專家對弈的監督學習和增強學習來進行組合訓練。

                      要解釋 AlphaGo的學習原理,首先要從人工神經網絡(artificial neural networks)開始談起。人工神經網絡簡稱神經網絡,是一種模仿人類神經網絡結構的計算模型。 神經網絡由多個神經元構成,每個神經元的結構(見圖 1)包含數據輸入、輸入權值、輸入函數、激活函數。 各種數據輸入后根據權值在輸入函數中進行疊加,然后通過非線性的激活函數進行變換后輸出。 多個神經元組成了神經網絡。 最簡單的神經網絡包含一個輸入層、一個隱層和一個輸出層(見圖 2)。 其特征是從輸入層輸入,經過隱層,最終由輸出層輸出。 訓練神經網絡的目的,就是根據若干訓練樣本給定的輸入和輸出,計算出權值。 深度神經網絡與單隱藏層神經網絡的區別,在于它們的深度和網絡的層數。 傳統的神經網絡是淺層網絡, 由一個輸入層和一個輸出層組成,并且最多有一個隱層。 隱層數目多于一個(不包括一個)的神經網絡,才可稱為深度神經網絡(見圖 3)。 在深度神經網絡中,每層神經元基于前一層輸出在一組不同的特征上進行訓練。 進入神經網絡越深,神經元識別的特征越復雜,因為這些特征是前一層特征的聚合和重組。 這種特征的層次結構可以挖掘出非結構化的原始數據中的潛在結構。換言之,深度神經網絡可以視為一種自動提取特征的方法。對于圍棋落子這樣的非結構化數據來說,深度神經網絡就是很適合的一種學習方法。

                      AlphaGo的學習流程包括三步(見圖 4):第一步,使用監督學習訓練策略網絡。 將3000萬個專業棋手的落子位置以狀態-動作對(s, a)作為輸入,訓練一個13層的監督學習策略網絡;第二步,使用增強學習強化策略網絡。 該步驟中的策略網絡與上一步驟結構相同,都是通過當前策略網絡和之前迭代中隨機選出的一個策略網絡進行對弈(自我博弈),根據勝負對策略網絡進行更新。 第三步,增強學習價值網絡。 使用隨機梯度下降方法,通過以狀態-結果對(s, z)作為輸入,訓練價值網絡的權重。 完成以上三步學習流程后, AlphaGo 就獲取到了圍棋落子的“知識”。 接下來, AlphaGo只需將策略網絡與價值網絡結合在一起,然后就能通過使用蒙特卡洛樹搜索法(Monte Carlo Tree Search,即MCTS)尋找到最佳落子方法了。

                      AlphaGo會超越人類嗎

                      相較于“深藍”的窮舉搜索, AlphaGo才算是真正的機器學習。 它巧妙使用了深度神經網絡這種自動提取特征的學習方法,從雜亂的棋局中挖掘出潛在的隱含特征,甚至是那些“只可意會不可言傳”的特征,學習到了專業棋手的落子套路。 而自我博弈的增強學習方法,又成了 Alpha- Go溫故知新、自我提升的強大工具。 正因如此, AlphaGo才能突破極限,攻破圍棋這個堅不可摧的人工智能堡壘。

                      AlphaGo 的勝利讓一些人產生了惶恐——今后人工智能是否能夠完全超越人類的智慧,甚至統治人類? 其實,我們大可不必惶恐。 AlphaGo的深度神經網絡和 MCTS法都是由人類設計出來的,其學習知識的來源也都是人類的對弈。 即便是看似“自我思考”的自我對弈,也僅僅是人類設計的增強學習算法。 不但無需惶恐,而且我們還期待, 隨著人類智慧的發展, 今后還將有更優秀的算法涌現出來,計算機的計算能力也會隨著硬件技術的發展而得到很大提升。 因此我們有理由相信,人工智能將會有能力攻克更多的難題,更好地為人類服務。 讓我們拭目以待吧。

                      蒙特卡洛樹搜索

                      蒙特卡洛樹搜索法(Monte Carlo Tree Search,即MCTS),是人工智能從問題中做出最優決策的方法,一般是在組合博弈中的行動規劃形式。 它是一種啟發式的搜索策略,能夠基于對搜索空間的隨機抽樣來擴大搜索樹,從而分析圍棋這類游戲中每一步棋應該怎么走才能夠創造最好機會。 它結合了隨機模擬的一般性和樹搜索的準確性。 不過, MCTS并不是只有一種算法,而是一類算法。

                      舉例來說,假如筐子里有100個蘋果,需要你挑出最大的,但是每次只能閉眼拿1個。 于是你隨機拿了1個,接著再隨機拿1個來跟第1個蘋果對比,留下大的那個,再從筐子里隨機拿1個……每拿1 次,留下的蘋果都至少比上一個的大。 但除非你拿100次,否則肯定無法挑出最大的。 這個挑蘋果的算法,就屬于蒙特卡洛樹搜索法的原則 :盡量找好的,但不保證是最好的。

                    上一篇:用地道逃生的方頭魚
                    下一篇:走進人工智能
                    ©2011-2020 版權所有:中國數字科技館
                    未經書面許可任何人不得復制或鏡像
                    京ICP備11000850號 京公網安備110105007388號
                    信息網絡傳播視聽節目許可證0111611號
                    國家科技基礎條件平臺
                    久久这里只精品国产免费99热4_一起射久久_久久在线视频_日日天天夜夜久久_日日扞夜夜燥国产