※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2017-10-19 10:49:01
看板 Gossiping
作者 標題 Re: [爆卦] AlphaGo終極版:AlphaGo Zero
時間 Thu Oct 19 09:25:15 2017
這真是太強了
強的地方在哪裡?
在於現在 alpha go 不需讀人類棋譜
簡單講就是一個新的 alpha go 從甚麼都不知道, 到最強
你不必告訴他規則
(傳統的程式就是如果A ,你去判斷一些東西,計算一些東西,敵我優略勢
一堆規則後,決定下在哪)
現在一個新生的 alpha go 他一開始甚麼都不知道
你不必告訴他圍棋則,不必告訴他怎樣叫做贏
不必告訴他一堆專有名詞,例如脫先.........
他甚麼都不知道,然後開始跟你下
第一盤它輸了,搞不好他不知道為什麼這叫做輸,他什麼都不知道
下到第100盤後,他可能還是輸,但是他會自己學習
漸漸的,他甚麼規則都不知道,就變最強的
-------------------------------------------
想像一下,如果沒人告訴你任何規則,
你沒辦法學一些套路,你對圍棋都不董
而且你沒任何資源可以去搜尋任何關於圍棋的東西
你就去下圍棋 (甚至於你根本不知道把對方圍起來的規則)
反正簡單講就是你一無所知任何關於圍棋的東西,連要圍起來這件事都不知道
然後你一直跟人下棋
你一直輸,沒人告訴你為什麼這樣叫做輸
你可能下到最後會抓狂
因為你完全不知道在下甚麼?
這就是 alpha go 強的地方
不需要棋譜,不需要知道規則
一直下,自我學習,最後變最強
有人說如果兩個alpha go 一直自我學習的互下會怎樣?
簡單講除非雙方每一步都是最佳解
否則一定還是有優略
現在 Alpga go 差不多 5000分,應該還不到每步都最佳解
現在怕的是雙方每一步都是最佳解
那可能要回歸最初的規則
倒底黑棋要貼幾目?
=================================
另外 deepmind 要用 AI玩 星海爭霸
很多人說 電腦控兵很強,根本無延遲,一定會贏
但AI玩遊戲重點不在這裡
重點在於 AI 甚麼都不知道
你丟它下去玩星海爭霸
它不知道玩法
它不知道每個種族的差異
它不知道每各兵種的優略
它不知道甚麼叫做贏
它甚麼都不知道
然後一直玩一直學習
最後把你打敗
AI玩遊戲重點在這裡
看看 AI 怎麼訓練玩遊戲?
https://www.youtube.com/watch?v=5iZlrBqDYPM
StarCraft II DeepMind feature layer API - YouTube
Today at BlizzCon 2016 in Anaheim, California, we announced our collaboration with Blizzard Entertainment to open up StarCraft II to AI and Machine Learning ...
Today at BlizzCon 2016 in Anaheim, California, we announced our collaboration with Blizzard Entertainment to open up StarCraft II to AI and Machine Learning ...
https://www.youtube.com/watch?v=6L448yg0Sm0
StarCraft II 'mini games' for AI research - YouTube
'Mini-games’ are an established technique for breaking down the game into manageable chunks that can be used to test agents on specific tasks, such as moving...
'Mini-games’ are an established technique for breaking down the game into manageable chunks that can be used to test agents on specific tasks, such as moving...
https://www.youtube.com/watch?v=St5lxIxYGkI
DeepMind Publishes StarCraft II Learning Environment | Two Minute Papers #182 - YouTube The paper "StarCraft II: A New Challenge for Reinforcement Learning" and its source code is available here:
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.241.215.5
※ 文章代碼(AID): #1Pv_x-ZS (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1508376318.A.8DC.html
※ 同主題文章:
10-19 05:59 ■ [爆卦] AlphaGo終極版:AlphaGo Zero
● 10-19 09:25 ■ Re: [爆卦] AlphaGo終極版:AlphaGo Zero
推 : 根本蟻王1F 10/19 09:26
推 : 圍棋規則還是需要啦2F 10/19 09:27
→ : 這是增強式學習 要告訴AI怎樣叫贏
→ : 怎麼可能什麼規則都不要 開玩笑嗎
→ : 這是增強式學習 要告訴AI怎樣叫贏
→ : 怎麼可能什麼規則都不要 開玩笑嗎
推 : 不知道規則不管怎麼下都說我贏會怎樣5F 10/19 09:28
不知道規則不代表沒規則,只是你不知道
→ : 最好是不跟他講什麼叫贏……你變魔術嗎6F 10/19 09:30
推 : AlphaGo Zero 簡直中二爆了7F 10/19 09:30
推 : 應該說要跟他說 輸贏的分數8F 10/19 09:31
→ : 這個理解有很大的問題 XD9F 10/19 09:31
推 : 為什麼不說規則?10F 10/19 09:32
→ : 否則AI還以為圍棋是擺花紋漂亮會贏 藝術有分數嗎?11F 10/19 09:32
→ : 如果 AI 真的能進步到理解人類的 藝術美學 那真的很神
※ 編輯: SangoDragon (111.241.215.5), 10/19/2017 09:33:35→ : 如果 AI 真的能進步到理解人類的 藝術美學 那真的很神
→ : 因為人類會受文化信仰影響 看到的東西也是感光受器影響13F 10/19 09:34
推 : 不用說規則跟不說輸贏是兩回事14F 10/19 09:35
→ : 人類覺得顏色繽紛 其他生物眼中可不是這樣15F 10/19 09:35
→ : 加強式學習沒給他獎懲條件 要怎麼加強? 你誤解大了喔16F 10/19 09:35
推 : 打磚塊也要告訴它可以做的動作是左右移,這就是規則17F 10/19 09:40
推 : 你這樣完全沒有目標,是能訓練什麼鬼東西18F 10/19 09:43
推 : 應該是讓他亂搞但是最後會告訴他結果吧19F 10/19 09:43
推 : 不給回饋要怎麼收斂行為20F 10/19 09:48
→ : 沒有懲罰下在棋盤外面的行為,AI永遠第一步下棋盤外
→ : 沒有懲罰下在棋盤外面的行為,AI永遠第一步下棋盤外
推 : 所以叫 zero! 太極最高境界 什麼招式都不記得 就是會贏22F 10/19 09:53
推 : 就文組想法… 先找一本機器學習基礎再來吧23F 10/19 09:59
噓 : 不要做夢還寫一大篇了..24F 10/19 10:02
→ : 原論文沒有提到不必告訴他怎樣叫做贏,盤面、下子方法也是25F 10/19 10:02
→ : 固定的,只是下一步該下哪是從一個隨機值開始
→ : 固定的,只是下一步該下哪是從一個隨機值開始
推 : 輸贏算是外界幫它判定啦 人類沒有教它的是怎樣下比較好27F 10/19 10:03
→ : 原始版本訓練是用人類棋譜開始, 等於在模仿人類的決策
→ : 原始版本訓練是用人類棋譜開始, 等於在模仿人類的決策
噓 : 規則最好不用告訴他,給他棋盤黑白子不告訴他規則,你確定29F 10/19 10:07
→ : 不會下成五子棋,黑白棋?
→ : 不會下成五子棋,黑白棋?
噓 : 是不參考人類棋譜 最好是沒規則啦 不懂裝懂 笑死我了31F 10/19 10:07
→ : 或自己發明別種玩法?32F 10/19 10:08
→ : 論文第22頁就有寫到有哪些是訓練前已知的Domain Knowledge33F 10/19 10:08
→ : 1. perfect knowledge of the game rules
→ : 1. perfect knowledge of the game rules
噓 : 你根本不懂吧...35F 10/19 10:09
噓 : 我知道你很興奮 但查清楚再發文36F 10/19 10:16
噓 : 。。。。。。。。。。。。37F 10/19 10:20
推 : 說的好 這樣以後統治者嘴出來嘴哲學等 大概就要跟AI辯論了吧?38F 10/19 10:22
推 : 這樣要光是前三天就下幾萬局了吧39F 10/19 10:24
噓 : 雖然原PO根本搞不懂狀況 至少顏色上的不錯40F 10/19 10:26
→ : 它知道規則啦!它也是一直往獲勝目標前進41F 10/19 10:30
噓 : 你改成不需要定石這篇就不會被噓了42F 10/19 10:32
推 : 應該說它是從隨機亂下開始 最後學到天下無敵43F 10/19 10:34
→ : 一開始什麼資料也沒有 所以就像小孩在棋盤上亂擺
→ : 裡面有講啊 訓練三小時後 開始認知佔愈多實地的贏
→ : 一開始什麼資料也沒有 所以就像小孩在棋盤上亂擺
→ : 裡面有講啊 訓練三小時後 開始認知佔愈多實地的贏
→ : 其實比亂擺還好一點,至少是合法的亂擺46F 10/19 10:39
→ : 19 小時後開始會考慮生死和厚勢... 70 小時已經變成超人47F 10/19 10:40
噓 : 廢文48F 10/19 10:42
--
※ 看板: Gossiping 文章推薦值: 2 目前人氣: 0 累積人氣: 1634
回列表(←)
分享