顯示廣告
隱藏 ✕
※ 本文為 tom50512 轉寄自 ptt.cc 更新時間: 2018-08-20 22:06:26
看板 C_Chat
作者 ohmylove347 (米特巴爾)
標題 Re: [新聞] AI玩Dota2可以戰勝半職業戰隊 專家:作弊
時間 Mon Aug 20 04:28:15 2018


※ 引述《madeinheaven ()》之銘言:
: AI玩《Dota2》可以戰勝半職業戰隊》專家:存在作弊行為
: http://news.17173.com/content/08192018/214546321.shtml
: 【17173新聞報導,轉載請註明出處】
: OpenAI是一家在2015年由馬斯克等諸多硅谷大亨聯合建立的AI非營利組織。前不久,他們
: 曾組織OpenAI Five和一支由半職業高手組成的戰隊進行了一場DOTA2比賽,結果直下兩盤
: 輕鬆獲勝,也讓大家驚呼AI的無限可能。
: 然而近日,一些外國專家卻指出這場勝利並不光彩,因為AI方存在作弊行為。因為OpenAI
: 直接通過API接口讀取比賽數據來進行反饋和操作,由於是完全即時的數據,相比起先看
: 到遊戲畫面再反應的人類來說,確實是屬於作弊行為。
: 此前DeepMind開發的一款AI也曾進行過《星際爭霸2》的訓練,不過由於是通過視覺識別
: 來進行操作,所以這款AI最終連簡單電腦都打不過。看來,AI對競技遊戲的攻略還得再花
: 些時間了。
: ----------------------------------------------------------------------------
: 原文:
: https://motherboard.vice.com/en_us/article/gy3nvq/ai-beat-humans-at-dota-2
OpenAI Is Beating Humans at ‘Dota 2’ Because It’s Basically Cheating - Motherboard AI defeating human players at 'Dota 2' is impressive, but it was only possible thanks to significant guardrails and an inhuman advantage. ...

 
: 想說DeepMind都還沒做出來怎麼OpenAI就彎道超車了
: 原來是靠作弊阿~!!!

我覺得目前ai真正的問題在記憶力不夠
先說這篇的重點好了,是否視覺化的接受資訊
其實啦,說真的,視覺化在是否視覺化其實「不那麼嚴重影響」
其實影響一定很多,但那不是核心
視覺化只是「資訊的接受方式」其中一種
比較間接但是以人類的角度來說卻更容易理解
Google真的是一件很恐怖的公司
要以視覺化接受資訊再處理和常使用強化學習這兩點
可以看出Google想要的機器學習是「最核心的研究」
而不是達成特定的目標,怎麼說呢?

如果今天是視覺化,那是否代表不用再改內部每個資訊的定義
反正只要有個攝影機之類的都能完成學習並進化
再來是強化學習,強化學習可以說是最沒有規範的學習方式
只告訴電腦什麼是贏,剩下全部自己去測試比較研究分析
而之前SC1的ai都是有寫腳本再學習的
強化學習可以說是兩種不一樣的方法
Google就是要從0開始,但很明顯,這真的幹爆難
連電腦都打不過,精英電腦大概銀牌金牌左右
所以,Google的堅持和目前的科技才會連銅牌都打不太贏XDD
不過這是好事啦,從根本去研究才是Google想做的
因為Google想要的並不是「學會遊戲」,而是用學會遊戲證明他的實用性

好那我講一些SC2 Google的強化學習目前無法突破的看法
我認為問題在「記憶量」
所謂的推理其實也是記憶的使用
https://youtu.be/lAaCeiqE6CE
科普: 人工神经网络 VS 生物神经网络 - YouTube
2-30年前, 一想到神经网络, 我们就会想到生物神经系统中数以万计的细胞联结, 将感官和反射器联系在一起的系统. 但是今天, 你可能的第一反应却是电脑和电脑程序当中的人工神经网络.... 更多内容:  通过 "莫烦 Python" 支持...

 
這篇還講的蠻清楚的大家可以看看
比起SC2,大部分的遊戲勝利方式都相對「很直接」
在戰略層面,dota要做的就是打倒敵人然後勝利
打倒方式簡單的就是用自己的技能,到難的dive之類的
基本上要前往勝利的道路已經寫在上面一半了
但想想看SC2,怎麼勝利?
首先,必須採集資源→製造建築→攀升科技→製造部隊→攻擊敵方直到投降或勝率
那在未經過教導的情況下,要如何從採集資源連結到勝利呢?
為何採計的資源升級科技比製造建築有用?
我認為這是目前機器學習的瓶頸
在這種勝利必須透過許多間接要素的情況下學習極為困難
而且沒記錯的話Google的野心超級大
他們不想要用人類定義的好壞來回饋給ai
因為這樣等於限制電腦對遊戲的理解是從人類為出發點
但不這樣做的話卻又變成ai無法有效率的用捷徑學習每個步驟在遊戲裡的影響力
所以我認為在ai有辦法輕易的縱深的了解各數據的意義在於記憶量
有辦法把每個數據步驟都學習吸收
我相信Google會做到的,對我是Google教的XD

SC2真的是一款很有魅力的遊戲
https://youtu.be/L2lG0DaU7SQ#t=10m40s
黃旭東在10m40s的地方說到這遊戲裡的欺騙
如何包戰術?如何改變戰術等等
而且偵查是有代價的
像是F91在後面說的提速王蟲飛進去看可行嗎?
可行!而且偵察效果良好,但如果戰術根本沒包裝呢?
我真的很希望看到ai能理解這遊戲到什麼境界
這是我身為人的動力吧,了解這個世界
看到這世界的成長,真的蠻有趣的

以上皆是我的從各文獻得到的資訊加上個人理解
如有錯煩請指教

--
https://www.youtube.com/watch?v=PwC1MxbVr8U

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.171.158.80
※ 文章代碼(AID): #1RUTBaI- (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1534710500.A.4BE.html
Minesweeper: 為什麼連走都有困難就要先學飛了...1F 08/20 04:34
Minesweeper: 呢
fearman5566: Google的作法才是學走路啊3F 08/20 04:39
Minesweeper: 無法理解視覺化的關鍵意義在哪4F 08/20 04:43
hollowland: 就啥怪怪的東西都可以套這樣5F 08/20 04:48
LF2Jeff: 如果你做了一個機器人,你覺得他學SC時靠頭牽一條線讀數據6F 08/20 04:57
LF2Jeff: 和用電子眼睛看新手教學來學,哪個算是比較成功的AI?
Minesweeper: 我會覺得先做出來打贏人類再說,因為我覺得現階段8F 08/20 04:59
Minesweeper: 就算給你讀數據好了,一樣打不贏
arrenwu: Clarify一下,AI的學習還是使用人類定義的好壞10F 08/20 05:00
arrenwu: 你的意思比較像是不屈就於人類覺得好的戰術
backzerg: 重點不是打贏 是像人類一樣的學習模式12F 08/20 05:05
backzerg: 不是什麼都讓人類輸入資料 而是電腦主動去看 去學
hollowland: mine的說法是告訴AI怎麼用火 但是以現在的模式這個AI14F 08/20 05:10
hollowland: 最後就只會用火其他什麼都不會
hollowland: google是想要讓AI靠自己摸索知道怎麼用火
hollowland: 最後就可以靠著這個自己摸索的流程會其他的東西
Minesweeper: 也就是說要建立學習典範,然後拿星海簡化情況18F 08/20 05:15
angel2210: 星海的情況其實有點複雜吧xd19F 08/20 05:17
backzerg: 是啊 未知情報很多 狀況也複雜多變 還有很長的路要走20F 08/20 05:19
backzerg: 但只要成功了 距離萌萌機娘蘿莉的誕生又更近了一步
Minesweeper: 他們有嘗試做局部的小遊戲去測試的樣子23F 08/20 05:24
arrenwu: 與其說星海複雜 不如說圍棋太簡單了24F 08/20 05:26
Minesweeper: 結果這篇論文主要碰到的問題依然是戰爭迷霧25F 08/20 05:38
enjoytbook: 太簡單個毛...啊不就是棒棒26F 08/20 05:40
enjoytbook: 好棒棒
Minesweeper: 簡單是相對於不完全資訊的遊戲的複雜度28F 08/20 05:41
orze04: 圍棋是完全資訊遊戲 雖然幾年前誰都不認為會被AI攻克29F 08/20 05:42
arrenwu: 除了不完全資訊,連action space 都不一樣複雜30F 08/20 05:46
arrenwu: 話說對SC2的project有嘗試過關閉戰爭迷霧的實驗嗎?
Minesweeper: 局部有專家水準,全局遊戲遇到一堆問題32F 08/20 05:50
Minesweeper: 我也覺得至少也嘗試一下開圖吧...
angel2210: 主要是戰爭迷霧下 偵查有可能得到假訊息34F 08/20 05:52
arrenwu: 妳上面連結那篇paper的abstract裡面是說ai玩mini-game可35F 08/20 05:53
arrenwu: 以學得跟novice player差不多 不是專家水準吧?
angel2210: 然後這個訊息可以直接影響勝負37F 08/20 05:54
arrenwu: 我比較懷疑的是...會不會開圖也還是屌輸啊XD38F 08/20 05:54
Minesweeper: 結論有寫39F 08/20 05:57
Minesweeper: 不知道他們覺得是勝之不武,還是根本就覺得我超屌,
Minesweeper: 這部分給其他團隊搞,反正RL局部強,推廣到全局就好
deathslipkno: 認真文,我走錯版了42F 08/20 06:05
ohmylove347: 我認為視覺化只是接收訊息的方式,但ai真正的重點在43F 08/20 06:07
ohmylove347: 訊息的處理,雖然視覺化的訊息也是需要處理,不過這
ohmylove347: 方面研究蠻久了算成熟的,所以我覺得視覺化不是很關
ohmylove347: 鍵
angel2210: 目前ai大概就是個內力100 招式0 智力0吧47F 08/20 06:11
lturtsamuel: reinforcement還是會有最先的模型吧 不能說是從0開始48F 08/20 06:22
smart0eddie: Alpha Go到後來真的是從零開始的49F 08/20 06:45
Minesweeper: With this initial release,we describe supervised50F 08/20 06:50
Minesweeper:  learning results on the human replay data for po
Minesweeper: licy and value networks
orze04: 上面有說到重點 圍牆頂多是一人輪流一子 每一輪的落子就53F 08/20 07:01
orze04: 那些盤上的位置
orze04: 即時戰略沒有回合的概念,可以採取的動作種類與數量超大
orze04: 資訊種類也大於棋類遊戲,資源量、建築與戰鬥單位、科技
orze04: ………
Minesweeper: 回原po,他們得處理方式是:We describe the observat58F 08/20 07:05
Minesweeper: ion, action, and reward
Minesweeper: specification for the StarCraft II domain
Minesweeper: 主地圖切成幾個小區域,然後詳細觀察小區域物件的互
Minesweeper: 動
Minesweeper: 不過即便如此,ai還是算不太完(電腦看到圖,要在有
Minesweeper: 限步驟內反應)
uloyoy: 這篇我覺得不行 RL可以定義reward和action,並不是只有輸贏65F 08/20 08:15
uloyoy: 然後讓電腦去測
ohmylove347: 沒記錯我記得deep mind好像用暴雪給的遊戲分數,可是67F 08/20 08:27
ohmylove347: 那個幫助好像也不大
kinomon: 母湯喔 機器人準備要毀滅人類惹69F 08/20 09:21
ssd860505da: 我倒不覺得記憶量是關鍵70F 08/20 11:09
ssd860505da: 人類大腦在判斷時也不會瞬間閃過一堆記憶,都是經年
ssd860505da: 累月累積的經驗,所以重點是要如何將經歷過的事件轉
ssd860505da: 化為有意義的經驗。例如replay buffer
Jotarun: 看c恰討論這種議題都笑笑就好 :P74F 08/20 11:19
WindSucker: 學alphago先看別人對戰記錄分析勝率75F 08/20 12:04
kira925: 用過了 一點意義都沒有76F 08/20 13:28

--
※ 看板: ACG 文章推薦值: 0 目前人氣: 0 累積人氣: 195 
分享網址: 複製 已複製
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇