Re: [爆卦] AlphaGo終極版：AlphaGo Zero - Gossiping板

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2017-10-19 10:49:01

看板 Gossiping

作者 SangoDragon (SANGO)
標題 Re: [爆卦] AlphaGo終極版：AlphaGo Zero
時間 Thu Oct 19 09:25:15 2017

這真是太強了

強的地方在哪裡?

在於現在 alpha go 不需讀人類棋譜

簡單講就是一個新的 alpha go 從甚麼都不知道, 到最強

你不必告訴他規則

(傳統的程式就是如果A ,你去判斷一些東西,計算一些東西,敵我優略勢

一堆規則後,決定下在哪)

現在一個新生的 alpha go 他一開始甚麼都不知道

你不必告訴他圍棋則,不必告訴他怎樣叫做贏

不必告訴他一堆專有名詞,例如脫先.........

他甚麼都不知道,然後開始跟你下

第一盤它輸了,搞不好他不知道為什麼這叫做輸,他什麼都不知道

下到第100盤後,他可能還是輸,但是他會自己學習

漸漸的,他甚麼規則都不知道,就變最強的

-------------------------------------------

想像一下,如果沒人告訴你任何規則,

你沒辦法學一些套路,你對圍棋都不董

而且你沒任何資源可以去搜尋任何關於圍棋的東西

你就去下圍棋 (甚至於你根本不知道把對方圍起來的規則)

反正簡單講就是你一無所知任何關於圍棋的東西,連要圍起來這件事都不知道

然後你一直跟人下棋

你一直輸,沒人告訴你為什麼這樣叫做輸

你可能下到最後會抓狂

因為你完全不知道在下甚麼?

這就是 alpha go 強的地方

不需要棋譜,不需要知道規則

一直下,自我學習,最後變最強

有人說如果兩個alpha go 一直自我學習的互下會怎樣?

簡單講除非雙方每一步都是最佳解

否則一定還是有優略

現在 Alpga go 差不多 5000分,應該還不到每步都最佳解

現在怕的是雙方每一步都是最佳解

那可能要回歸最初的規則

倒底黑棋要貼幾目?

=================================

另外 deepmind 要用 AI玩星海爭霸

很多人說電腦控兵很強,根本無延遲,一定會贏

但AI玩遊戲重點不在這裡

重點在於 AI 甚麼都不知道

你丟它下去玩星海爭霸

它不知道玩法

它不知道每個種族的差異

它不知道每各兵種的優略

它不知道甚麼叫做贏

它甚麼都不知道

然後一直玩一直學習

最後把你打敗

AI玩遊戲重點在這裡

看看 AI 怎麼訓練玩遊戲?

https://www.youtube.com/watch?v=5iZlrBqDYPM

StarCraft II DeepMind feature layer API - YouTube
Today at BlizzCon 2016 in Anaheim, California, we announced our collaboration with Blizzard Entertainment to open up StarCraft II to AI and Machine Learning ...

https://www.youtube.com/watch?v=6L448yg0Sm0

StarCraft II 'mini games' for AI research - YouTube
'Mini-games’ are an established technique for breaking down the game into manageable chunks that can be used to test agents on specific tasks, such as moving...

https://www.youtube.com/watch?v=St5lxIxYGkI

DeepMind Publishes StarCraft II Learning Environment | Two Minute Papers #182 - YouTube The paper "StarCraft II: A New Challenge for Reinforcement Learning" and its source code is available here:

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.241.215.5
※ 文章代碼(AID): #1Pv_x-ZS (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1508376318.A.8DC.html

※ 同主題文章:

　 10-19 05:59 harrybbs. ■ [爆卦] AlphaGo終極版：AlphaGo Zero

● 10-19 09:25 SangoDragon. ■ Re: [爆卦] AlphaGo終極版：AlphaGo Zero

推 pponywong: 根本蟻王1F 10/19 09:26

推 derekhsu: 圍棋規則還是需要啦2F 10/19 09:27
→ derekhsu: 這是增強式學習要告訴AI怎樣叫贏
→ derekhsu: 怎麼可能什麼規則都不要開玩笑嗎

推 StellaNe: 不知道規則不管怎麼下都說我贏會怎樣5F 10/19 09:28

不知道規則不代表沒規則,只是你不知道

→ derekhsu: 最好是不跟他講什麼叫贏……你變魔術嗎6F 10/19 09:30

推 alog: AlphaGo Zero 簡直中二爆了7F 10/19 09:30

推 pponywong: 應該說要跟他說輸贏的分數8F 10/19 09:31

→ resudi: 這個理解有很大的問題 XD9F 10/19 09:31

推 callTM: 為什麼不說規則？10F 10/19 09:32

→ pponywong: 否則AI還以為圍棋是擺花紋漂亮會贏藝術有分數嗎?11F 10/19 09:32
→ pponywong: 如果 AI 真的能進步到理解人類的藝術美學那真的很神

※ 編輯: SangoDragon (111.241.215.5), 10/19/2017 09:33:35

→ pponywong: 因為人類會受文化信仰影響看到的東西也是感光受器影響13F 10/19 09:34

推 Murasaki0110: 不用說規則跟不說輸贏是兩回事14F 10/19 09:35

→ pponywong: 人類覺得顏色繽紛其他生物眼中可不是這樣15F 10/19 09:35

→ prestonia: 加強式學習沒給他獎懲條件要怎麼加強? 你誤解大了喔16F 10/19 09:35

推 airflow: 打磚塊也要告訴它可以做的動作是左右移，這就是規則17F 10/19 09:40

推 DIDIMIN: 你這樣完全沒有目標，是能訓練什麼鬼東西18F 10/19 09:43

推 b0920075: 應該是讓他亂搞但是最後會告訴他結果吧19F 10/19 09:43

推 neofish: 不給回饋要怎麼收斂行為20F 10/19 09:48
→ neofish: 沒有懲罰下在棋盤外面的行為，AI永遠第一步下棋盤外

推 ECZEMA: 所以叫 zero! 太極最高境界什麼招式都不記得就是會贏22F 10/19 09:53

推 derekhsu: 就文組想法… 先找一本機器學習基礎再來吧23F 10/19 09:59

噓 fewhy: 不要做夢還寫一大篇了..24F 10/19 10:02

→ ssccg: 原論文沒有提到不必告訴他怎樣叫做贏，盤面、下子方法也是25F 10/19 10:02
→ ssccg: 固定的，只是下一步該下哪是從一個隨機值開始

推 birdy590: 輸贏算是外界幫它判定啦人類沒有教它的是怎樣下比較好27F 10/19 10:03
→ birdy590: 原始版本訓練是用人類棋譜開始, 等於在模仿人類的決策

噓 snane: 規則最好不用告訴他，給他棋盤黑白子不告訴他規則，你確定29F 10/19 10:07
→ snane: 不會下成五子棋，黑白棋？

噓 leafgg: 是不參考人類棋譜最好是沒規則啦不懂裝懂笑死我了31F 10/19 10:07

→ snane: 或自己發明別種玩法？32F 10/19 10:08

→ ssccg: 論文第22頁就有寫到有哪些是訓練前已知的Domain Knowledge33F 10/19 10:08
→ ssccg: 1. perfect knowledge of the game rules

噓 andy5656: 你根本不懂吧...35F 10/19 10:09

噓 he00589298: 我知道你很興奮但查清楚再發文36F 10/19 10:16

噓 pinkowa: 。。。。。。。。。。。。37F 10/19 10:20

推 IHD: 說的好這樣以後統治者嘴出來嘴哲學等大概就要跟AI辯論了吧?38F 10/19 10:22

推 victorly: 這樣要光是前三天就下幾萬局了吧39F 10/19 10:24

噓 maayaleaf: 雖然原PO根本搞不懂狀況至少顏色上的不錯40F 10/19 10:26

→ pinjose: 它知道規則啦！它也是一直往獲勝目標前進41F 10/19 10:30

噓 jacklin2002: 你改成不需要定石這篇就不會被噓了42F 10/19 10:32

推 birdy590: 應該說它是從隨機亂下開始最後學到天下無敵43F 10/19 10:34
→ birdy590: 一開始什麼資料也沒有所以就像小孩在棋盤上亂擺
→ birdy590: 裡面有講啊訓練三小時後開始認知佔愈多實地的贏

→ ssccg: 其實比亂擺還好一點，至少是合法的亂擺46F 10/19 10:39

→ birdy590: 19 小時後開始會考慮生死和厚勢... 70 小時已經變成超人47F 10/19 10:40

噓 SuperCry: 廢文48F 10/19 10:42

※ 看板: Gossiping　文章推薦值: 2 目前人氣: 0 累積人氣: 1634　

分享網址: 複製

DispBBS

(￣︶￣)ｂ et79210 說讚！

1樓時間: 2017-10-19 10:28:06 (台灣)

→

a170508

　 10-19 10:28 TW

文組看不懂 說中文好嗎

2樓時間: 2017-10-19 10:58:03 (台灣)

→

storyo41662

　 10-19 10:58 TW

三類看得很痛苦，錯字不要那麼多好嗎?

3樓時間: 2017-10-19 12:21:38 (台灣)

讚

lecheck

　 10-19 12:21 TW

現在的ai都走視覺化輸入 跟一般人理解的差很多

回到看板(←)《Gossiping》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享