※ 本文為 ryanlei 轉寄自 ptt.cc 更新時間: 2014-09-19 20:27:35
看板 Oversea_Job
作者 標題 Re: [北美] 請問machine learning的工作內容
時間 Fri Sep 19 13:41:02 2014
工作完來回一下好了~
我不知道各種業界怎樣~我就說我待過的公司跟teams
先說背景,不才小時候愛玩ML比賽,正值ML還不太紅的200x年,
贏了一些獎,覺得自己很厲害~
後來去學校發了些paper,自我覺得超強。
就衝去hackathon然後試試看startup,結果很慘。
只好join Google休息一下,繼續作machine learning,
做了兩年,幫公司賺了不少錢可是paper都發不出來,來點坐領乾薪的魯蛇分享。
先講玩比賽的時候:
比賽的時候我都只會一招,就是把feature expand很大,
然後用liblinear跑一次。
基本上那時候我是相信,只要有一個好的feature engineering tool
人生就無敵了。
我當時就寫了個這個:
http://www.csie.ntu.edu.tw/~b95028/software/lib-gundam/
然後我就去念博班:
唸了博班發現,很多paper都亂寫,model超漂亮,跑出來超overfit。
用一個paper的model跑另一個paper的data很常就會GG。
最後發現最強的還都只有liblinear跟隨機森林。
於是我就生氣了,想說去hackathon或是開開startup
初出茅廬:
當時做了一些health data,然後show說自己可以predict acc多高,覺得超屌。
我就去跟別人present,可是別人都看不懂。
這時候才知道業界很多人重視的一件事情「可解釋性」。
你有一個好model,如果不能解釋哪個feature強,在很多領域是無用的。
(像health他們好像就很注重,病的causality關係之類的。
像你可以predict一個人會生病,不過他想要知道哪個feature讓他生病的。
這種東西很多時候是model很難去數理上含括的。)
在Google:
基本上我現在都還是一直在用liblinear。
我遇到的很多不是純粹learning for accuracy的問題。
很多時候像stability很重要(e.g. 當有missing features,你的model是不是
不會go crazy)
有時候生data很重要,data生不好,很容易target leak,不小心train出來accuracy就
100%,還以為自己要得Turing Award了。
有時候prediction速度很重要,如果query很多,要怎樣才能快速serve。
我覺得其實很多work都會越作越general,但是多數是從domain example開始作。
就像可能你今天作text classification很猛,可是你可能想要improve。
你第一件事情大概還是去看data,看看是不是哪些字常常會是noise,
還是sentence的parser不好。那就會從中改善,最後也會越作越general。
最後可能就會有很好得方法可以給你在很多問題上都有
10%的accuracy gain然後改變世界。
但是其實人生大部分的事情是不能generalized的,就像愛情(?)。
所以大部分的事情都只是pointwise fix,例如說:cross兩個feature。
通常這種pointwise fix,都只會給你1%的accuracy gain。
所以這時候我就要來亂引用了,有人說過
「1% gain是engineering,10% gain是research。 」
最後,公司還是要賺錢的,所以也很難一直給你時間想好玩得新演算法去try。
我現在的mode就是邊做engineering邊做research,
也期望有一天能發個ICML Best Paper,
但是大部分的時間其實都還是找個新feature然後重跑liblinear。
對了,liblinear真的很強。請愛用liblinear!
※ 引述《milc (milc)》之銘言:
: 大家好
: 不好意思想請問一下關於ML的工作內容,
: 我是在coursera上Andrew Ng的ML影片課程自學,
: 之前也僅用過Weka取些features來做一些文件分類工作,
: 之後找工作想做這一方面的, 但是不知道業界工作內容,
: 想請問一下各位先進,
: 一般工作是用既有的ML方法套用來解決我們所面對的問題?
: 還是大部分都要提出新的演算法了?
: 另外請問找ML工作前有沒有什麼要再加強與自學的建議?
: 謝謝大家(如果我提出的問題太過無知請原諒)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.170.100.37
※ 文章網址: http://www.ptt.cc/bbs/Oversea_Job/M.1411105266.A.175.html
推 : Scan!1F 09/19 13:50
推 :2F 09/19 14:09
推 : 推3F 09/19 14:22
推 : 這是很熟ML的強者才有辦法解釋的這麼有趣又好懂。4F 09/19 16:16
推 : 想請問做這個 數學底子要很深嗎?5F 09/19 18:10
推 : 推,后生可畏,江山代有才人出呀6F 09/19 18:40
--
※ 看板: ryanlei 文章推薦值: 0 目前人氣: 0 累積人氣: 59
回列表(←)
分享