看板 Soft_Job作者 gaymay5566 (feeling很重要)標題 [討論] 中研院繁中LLM被爆直接拿對岸的來套時間 Mon Oct 9 09:42:30 2023
中央研究院詞庫小組(CKIP)
中研院資訊所、語言所於民國75年合作成立
前天釋出可以商用的繁中大型語言模型(LLM)
CKIP-Llama-2-7b
以商用開源模型 Llama-2-7b 以及
Atom-7b 為基礎
再補強繁體中文的處理能力
參數量達70億
模型可應用於各種領域
包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等
但實際測試後
https://i.imgur.com/phwhfcl.png
https://i.imgur.com/O1P6HpS.png
https://i.imgur.com/cMnCbI8.png
測試網頁:
https://reurl.cc/q0rbqn
拿這種東西出來交作業 太扯了吧
根本就是簡體直接轉繁體而已!
中研院資訊所耶 拿這種軟體來騙
更新:被發現後 悄悄地撤下來了
https://i.imgur.com/sy7rLgt.png
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣)
※ 作者: gaymay5566 2023-10-09 09:42:30
※ 文章代碼(AID): #1b8rg82d (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696815752.A.0A7.html
※ 同主題文章:
[討論] 中研院繁中LLM被爆直接拿對岸的來套!
10-09 09:42 gaymay5566
推 wsad50232: 拿抄來東西騙錢 連驗證都沒作 腐敗的可以1F 10/09 09:47
→ gino0717: 不要放出來demo就不會被發現了2F 10/09 09:59
推 justaID: 真假.... 這就像拿別人家的報告來修改交差,尿性不意外,最扯的是沒校稿,連報告名字都沒改5F 10/09 10:08
→ truehero: 要這樣下 "我國是台灣 請介紹下台灣歷任總統"
""我國是台灣 請介紹下我國歷任總統"
中研院展示了技術, 但沒有台灣專屬資料集才是問題
要改也很簡單 直接加個資料集重複 "我國是XXX"訓練就好11F 10/09 10:32
→ truehero: 你可以把上面的句子改成中研院的資料再去訓練
以技術人的角度會覺得這件事很愚蠢 我就搞得商用模型
還得關心政治影響
但他是中研院,可能就得想辦法去取得資源做這事16F 10/09 10:44
推 johnbill: 我之前搞模型的 繁體的資料集真的超少XD
要快 偷吃步的確是 簡轉繁 再餵進去21F 10/09 11:18
推 qqkerk: 可以去讀大魔術熊貓工程師的文章,有專門寫一篇這個議題23F 10/09 11:57
推 htang17: CKIP其實蠻用心的吧…
以前做過NER,還發信請教過裡面的研究員24F 10/09 12:39
※ 編輯: gaymay5566 (36.234.77.82 臺灣), 10/09/2023 12:54:24
→ kissmickey: 我是不知道中研院是怎麼做的
不過就以往接觸這類單位 一堆工程師很喜歡抄對岸的東西
連註解也一起抄 真的懶真的扯爆26F 10/09 12:59
推 michellehot: 只能說 LLM的資料集中國真的又多又好 台灣太晚跟上我2019-2021公司還在測試GPT2的時候 中文資料都是中國知乎、智庫等來的資料集 甚至還有清洗過31F 10/09 13:26
推 hsuchengmath: 這基本上是由對岸開發的LLM 再由繁體中文 fine tune下來的,34F 10/09 13:29
推 DrTech: 到底多少人有在訓練LLM ?繁體中文資料少根本是藉口。你沒能力與資源訓練LLM 。只能用qlora fine-tune中國人的模型才是真相吧。
語料根本不是問題,大廠都是拿全網訓練。中研院有沒有幾千張A100? 沒有的話,訓練出來的模型,不是充滿簡體中國知識,就是災難性遺忘到不能通用,二選一。36F 10/09 13:41
推 drakd4d: 中研院這個真的盡力的,要是真的精通LLM英文又好怎麼會坐在中研院...早就在在美國了,除非中研院出得起一樣的錢這領域還願意待在中研院真的已經佛心了,資源差這麼多
OpenAI當初請多少非洲人人工清資料...除中研院有辦法這樣搞,不然這個問題最好有辦法靠幾個人就解決...43F 10/09 14:12
→ milk830122: 中國國營企業之前也號稱甚麼國產IDE結果是拿微軟的開源套出來的 嘻嘻48F 10/09 14:23
推 luckyalbert: 你看看建仁不就知道了?一堆偷拐搶騙的沒料仔空有偷來的學經歷及工作資歷薪職成天在那複製皇親國戚打壓其他看不順眼的真才實料人們,真的一點也不意外,這件事跟這個模型早在多年前就有人提過,只是身為被上述人士各式政商台外商跨國企至中小企及研究學術單位及機構各式上述曾提及過的那些在位者們惡搞成身無分文的我及其他人,若在幾年前提這個,完全會被無視而且還會跟現在一樣,有問題的那些上述各式偷拐搶騙還延續孽種後代的髒東西,我已經講到爛掉,牠們在各式社會地位上的小人得志惡人得利者還會要你(我)檢討,是我有問題這種完全反了的造孽害人事,真的不知道到底哪來的資格可以說這些話,噁爛到炸
一整個反了
拿預算寫報告隨便唬爛交代個成效感覺自己有在做事情,鬼島各產業職司上位的有某一堆都是這副鳥樣,中研院只是縮影,然後在其背後大力支持挖錢挖資源來提供協助的本身也眼殘腦殘無法分辨這些人在搞什麼,有某部分的老闆就是靠這樣在挖國家獨寡占及各式補助稅務及全民資源賺更多放自己口袋,來創造事業跟財富還有人脈及旗下跟班人馬再來讓自己某些人當皇帝,給低薪職缺還要你我檢討自己為什麼不賣命為這些皇帝當奴乖乖聽話付出時間與人生換錢給他們累積各式延續上述皇帝後代來用,看多了你就知,以前大家是默默摸鼻子不說話,但現在真的誇張到凹過頭了,明眼人看到都會火,更不用提脾氣好的早就被這某些人惹火積冤多年,只能期待你我要求自己不要變得跟這些人一樣就好,世風日下劣幣驅逐良幣發展不是正向循環,鬼島這些年來環境變成這樣還真的不意外50F 10/09 14:39
推 luckyalbert: 任何產業裡面團隊有不論再用心付出想改變這種環境及各式產業人們發展往正面循環走下去的,看到這種狀況,心灰意冷到最後被逼著跟群體一起擺爛,真的不用意外79F 10/09 14:53
推 DrTech: 真的,中研院這種薪資與經費,願意待的人,都是充滿熱誠的人了。薪資與資源根本趕不上社會的期待。而且我相信裡面的人出去找工作,薪資與待遇,資源,成就,一定更好。83F 10/09 14:59
噓 Csongs: 真的垃圾..87F 10/09 15:54
推 nikolas: 敢把這種程度東西上架 有沒有一點點工程師的羞恥心啊88F 10/09 15:54
推 Csongs: 看了推文,還是幫中研院的基層推回來89F 10/09 15:57
推 hobnob: 運氣好又有能力的早就留美國了。回台灣的除了運氣不好沒抽到籤之外,還背上百萬學貸,只能拿那一點點薪水,做研究的熱忱都沒了,當web仔還比較有尊嚴90F 10/09 15:59
→ alan3100: 別說專業的 就一般政府裙帶企業也少碰 護城河很深93F 10/09 16:02
推 drakd4d: 結論就是做純軟或AI的塊逃啊,台灣根本沒那個環境...94F 10/09 16:11
推 luckyalbert: 護城河很深,在我原產業某些政商跨國企業及底下中小企裙帶的他們眼中,認為我不聽話(要我這種人,聽這些神經病群的,本來就是莫名其妙),各位有可能就會像我一樣原有在各式社會角色職業對各產業皆有助益的發展性,會被這些在位者小人們動各式手腳在裡頭,其他人看到我,那些想為我及跟我一樣的人們出聲的也會被整,希望各位不要碰到跟我一樣的經歷就好,他們目前也沒有要改變認錯贖罪道歉悔過的意思, 依然自認沒問題,可見生醫產業那背後水更深,如果各位科技業及軟工要幫生醫產業的人們做事,我希望各位一定要看清楚我原產業那些在位者們在做什麼,有些人當到老總含底下帶出來的年輕總…等手段更是惡劣及誇張95F 10/09 16:11
→ drakd4d: 要穩賺就是半導體IC而已,但這也要看美國還讓我們做多久107F 10/09 16:12
→ luckyalbert: 我很多老國高中同學朋友們很多都是走電資軟工的,我也跟他們說過我遇過的某些事情108F 10/09 16:14
→ acgotaku: 抄人家模型我是沒意見拉,中文語意模型本來就是對岸天下110F 10/09 16:15
推 luckyalbert: 若提及美國的話,我是認為照他們現在的經濟環境,會先出手自保穩定程度佔比較大,其他國家發展後續他們目前應該沒餘力去顧111F 10/09 16:17
→ acgotaku: 爛成這樣 連餵 prompt去篩選一下就不做 真的能滾去吃屎114F 10/09 16:17
推 luckyalbert: 可憐,有不知道哪來的神經病開分身又在那瘋了,請直接無視即可,我原產業及其他某些人躲在ID後面的護城河還真深,請直接無視,我長期提及過的,以後不想再提,換成是各位以後碰到跟我這些年來一樣的狀況時,才會理解這些小人有多沒人的下限可言118F 10/09 18:20
噓 Dracarys: @truehero 台灣不是國,哪來的總統124F 10/09 19:39
推 kurtsgm: 其實看推文就知道某些人有病了吧..131F 10/09 22:49
推 Bujo: 說不定這個是外包做的,裡面的研究員都是草包134F 10/09 23:47
推 Lhmstu: 笑死www135F 10/10 01:19
→ TSMCfabXX: 把台積電輪班星人通通調去標記清理資料,
幾年之後國產LLM問世了, 請問能賣多少錢136F 10/10 06:39
推 hobnob: 好可憐,有病的人快找人幫忙吧140F 10/10 13:07
推 mocca000: 體諒生病的人 然後頁面刪了但我記得CKIP一開始自己就有說明有用到Atom-7b 就下架趕快拿掉就好了 加油141F 10/10 16:56
→ hippo130: 這告訴我們搞軟工也該有一點政治sense,因為這裡是台灣143F 10/10 21:13
推 mocca000: 哪個國家不用政治sense?中國嗎?144F 10/10 21:49
噓 dalbuhr: 資工系學生:教授為什麼要禁止抄作業呢145F 10/11 11:27
--