顯示廣告
隱藏 ✕
※ 本文轉寄自 ptt.cc 更新時間: 2022-10-20 11:48:18
看板 C_Chat
作者 robertchun (你是一個可悲的人你的城)
標題 Re: [情報]祖克柏推出AI口譯 閩南語無文字也可翻譯
時間 Thu Oct 20 04:09:22 2022



https://huggingface.co/spaces/facebook/Hokkien_Translation
Hokkien Translation - a Hugging Face Space by facebook
[圖]
Discover amazing ML apps made by the community ...

 

已經可以在上面網站玩台英語音對譯了,需要等幾秒鐘。
效果很不錯,台語語音可以拿來玩。
模型用兩種不同技術(unitY和s2ut)做的,成果略有差異。

台譯英:hk-en (hokkien to english)
英譯台:en-hk(english to hokkien)

想要讓ai講台語還要先練英文(

------
補一些資訊,期待神人大大講解:

github頁面:
https://github.com/facebookresearch/fairseq/tree/ust
GitHub - facebookresearch/fairseq at ust
[圖]
Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - GitHub - facebookresearch/fairseq at ust ...

 

影片中的工程師是台灣人,可參考本篇臉書貼文
https://tinyurl.com/23azb2uf

或長版介紹影片:(還有出現簡體字筆記,團隊應該包含各地來的)
https://www.youtube.com/watch?v=6bca6M6uEz4

在展示即時台翻英的畫面有加註是後製成果:
Translation are generated by Meta AI's open source model and integrated into
the video for illustrative purposes. Not representative of a final product.


Meta AI部落格冒出一篇中文文章:
Meta 發佈第一個全新 AI 技術支援的非書寫語音翻譯系統
https://ai.facebook.com/blog/ai-translation-hokkien/

我不懂深度學習,抓一些看熱鬧的東西:

1.跟元宇宙計畫有關

「我們相信口語溝通有助於打破隔閡,拉近人們之間的距離,無論身在何處,甚至在元宇
中也不例外。」

2.使用的是台灣的語料庫

「我們也根據名為 Taiwanese Across Taiwan 的閩南語語音語料庫,建立第一個閩南語與
英語雙向的語音翻譯基準資料集。」

3.使用華語做標注,但也使用台羅來評價成果

4.仍在開發中,目前每次只能翻譯一個完整句子

5.相關研究論文請點進去看

另一篇較親民的英文文章:
AI translates Hokkien, an unwritten language, for the first time
https://tinyurl.com/ytczzmbr
AI translates Hokkien, an unwritten language, for the first time
[圖]
[圖]
Peng-Jen Chen is well aware of how language barriers can affect people’s ability to communicate. Chen grew up in Taiwan speaking Mandarin Chinese, but ...

 

節錄渣翻:

1.主角 Meta 研究員 Peng-Jen Chen 在台灣長大,他爸是南部的退休技師,用華語講複雜
的事情常不太順,他單純的心願就是老爸可以跟任何人用他最熟悉的台語交流。

2.Meta想做一個可以即時翻譯的萬用語音翻譯器(Universal Speech Translator)

3.祖刻薄:「AI將會在我們的有生之年帶給我們用任何語言跟任何人交流的能力」

4.網路空間對於非書寫(或沒有書寫傳統、以口語使用為主)語言的使用者來說障礙重重
,若讓這些人都能在網路上使用他們的語言,將使他們更舒適且有自信。

----

其他台語語音生成系統:

意傳科技的line聊天機器人:
https://page.line.me/241byfcj
意傳科技 | LINE Official Account
[圖]
意傳科技's LINE official account profile page. Add them as a friend for the latest news. ...

 

陽交大語音實驗室台語語音合成
http://tts001.iptcloud.net:8804/

//再補充,發布的模型用哪些資料訓練的?

根據 Speech-to-speech translation for a real-world unwritten language,個案研究
的對象是Taiwanese Hokkien(台語)。

pdf網址: https://tinyurl.com/3bt4yk4w

雖然看不懂但抓一下關鍵字,訓練中用到有關閩南語或台語的資料:

1.有華語字幕的閩南語戲劇(跟台大拿的,應該都是台語?)

2.前面提到的Taiwanese across Taiwan語料庫,再找人將台語翻成英語。

3.MUST-C,英文TED影片轉成其他語言的語料庫。找人將英語翻成台羅+漢字。

4.SpeechOcean北京海天瑞聲的600小時台語以外的閩南語,算佔相對少數

可能是以下這幾個語音資料庫
https://www.speechocean.com/?m=index&c=index&a=searchset&keyword=闽

有誤或需補充請告知!

※ 引述《medama ( )》之銘言:
: 之前因「元宇宙」遊戲人數不如預期而虧損的meta
: https://i.imgur.com/gCXvLX7.png
: 今天祖克柏宣布將推出AI口譯系統
: 即使是沒有統一標準書寫系統的閩南語(HOKKIEN)
: 雖然難以利用文字翻譯軟體,
: 但透過AI技術,也能讓閩南語即時跟英語進行雙向口語對譯
: 展示影片:
: https://reurl.cc/KQZbGM
: 等AI技術更加精進後
: 想必之後在meta的「元宇宙」遊戲中
: 各國玩家可突破語言藩籬,彼此聊天
: 創造出一個嶄新的宇宙


--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.170.86.176 (臺灣)
※ 文章代碼(AID): #1ZK5buP- (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1666210168.A.67E.html
BITMajo: 有人能成功翻譯"幹你娘"嗎?認真1F 10/20 04:32
BITMajo: 我怎麼試都是 Only you 或 You're the only one 之類的
BITMajo: OK "你家死人" 翻譯正確
BITMajo: 苗可麗的去死啦也能正確翻譯
BITMajo: 還是有些怪怪的,大概五成吧,雖然我試的都是髒話就是了
BITMajo: 對他唱"家後"前兩句,有翻譯出來
※ 編輯: robertchun (1.170.86.176 臺灣), 10/20/2022 04:47:21
BITMajo: 感覺翻譯正經台語還是可以啦,不過發音要正確7F 10/20 04:45
BITMajo: 我試著念"酒干倘賣無"結果第一次沒念對,瓶子被翻成橘子
BITMajo: OK,來玩玩英文髒話轉台語嘿嘿嘿嘿
aegis123321: 幹這個字好像翻不了10F 10/20 04:48
BITMajo: 真的,換模型試也翻不了11F 10/20 04:49
BITMajo: 我覺得開發的人很明白
BITMajo: 試了英文翻台語,我覺得是國罵辭彙都沒有收錄進去

不知道是不是語料庫裡沒有 不然即時翻譯裡沒有辨識髒話功能感覺蠻困擾的
※ 編輯: robertchun (1.170.86.176 臺灣), 10/20/2022 04:55:05
※ 編輯: robertchun (1.170.86.176 臺灣), 10/20/2022 04:55:36
trywish: 沒有收錄(X),被排除(O),為了怕被玩壞,應該會排除一些14F 10/20 04:55
trywish: 字,所以沒有很正常。你說去死可以?單純就還沒排除而已
BITMajo: 不管有沒有做,應該是沒有放進去16F 10/20 04:56
trywish: 要是一直玩一直亂用,改天可能就禁了。17F 10/20 04:56
rockmanx52: 看到這些很怕未來會有政治力介入亂搞...18F 10/20 04:57
BITMajo: 我覺得台翻英都蠻順的,英翻台比較難19F 10/20 04:57
BITMajo: 英文感覺要刻意字正腔圓一個字一個字念對才翻得好
BITMajo: 反而台語感覺可以講得比較順,英翻台的結果也念得蠻順的
BITMajo: 平偉的"你在大聲什麼"翻英文很簡單
bluejark: 叫福建話有些人可能會不同意23F 10/20 04:58
其實都是拿台語的語料和標準玩的,東南亞和其他海外閩裔比較會用福建話稱呼。

BITMajo: 但要把英文翻回"你在大聲什麼"就沒那麼順利了24F 10/20 04:58
※ 編輯: robertchun (1.170.86.176 臺灣), 10/20/2022 05:02:08
BITMajo: 不過有可能是我先入為主預設要翻怎樣才對吧25F 10/20 04:59
rockmanx52: 平偉那句其實英文口語就「What do you want?」啊26F 10/20 04:59
BITMajo: 不,我翻譯出來是 What are you yelling/shouting at27F 10/20 05:00
rockmanx52: @bluejark:Wikipedia是用「台灣福建話」 因為福建話28F 10/20 05:00
BITMajo: 我覺得這句兩個模型翻譯都蠻精確的29F 10/20 05:00
rockmanx52: 實在太多種...30F 10/20 05:00
BITMajo: "死"字我覺得沒辦法排除吧...畢竟他是必要的詞彙31F 10/20 05:00
rockmanx52: @BITMajo:一般吵架不會用這麼文謅謅的用詞啦32F 10/20 05:00
rockmanx52: 吵架會用的其中一種就是我說的
rockmanx52: 英文口語What do you want還可以作「看三洨」解
rockmanx52: 是非常不禮貌但用途很多的粗話
BITMajo: 平偉那句哩喜咧ㄉㄨㄚˇ蝦呷不就是吵架的時候說的嗎XD36F 10/20 05:02
rockmanx52: 對啊 所以以平偉那個情境翻成What are you yelling/37F 10/20 05:03
rockmanx52: shouting at太過文雅啊
BITMajo: 是沒錯,不過英文翻譯蠻正確的39F 10/20 05:04
rockmanx52: 不過這種口譯AI最好還是不要把粗話翻出來比較好也是事40F 10/20 05:04
BITMajo: 改成What the fuck are you 就更精確的口語化了41F 10/20 05:04
rockmanx52: 實42F 10/20 05:04
BITMajo: 不過翻譯機應該是不會這麼做43F 10/20 05:05
bluejark: 這分別很微妙 老外可能搞不懂44F 10/20 05:06
rockmanx52: What do you want的無禮程度其實跟What the fuck are45F 10/20 05:06
rockmanx52: you是同等級的了
BITMajo: 歐都拜 (autobike) 可以台翻英欸 (motorcycle)47F 10/20 05:07
rockmanx52: @bluejark:美東跟加拿大部份省份是把福州話稱為福建話48F 10/20 05:08
rockmanx52:  所以說真的前面加個「使用較多的地區名」是更精準啦
BITMajo: 不過羅賴把就不行了,大失敗XDDDD50F 10/20 05:08
rockmanx52: 各種福建話的歧異度根本就比英美英文還大了...51F 10/20 05:09
BITMajo: 台:羅賴把 → s2ut英:It's all right (???52F 10/20 05:10
BITMajo: 另一個直接語無倫次秀斗了
BITMajo: 很多這種通俗用的名詞大概沒辦法吧
BITMajo: 結果我用英文講 screwdriver 翻回去...結果有點微妙
zizc06719: 還不錯玩56F 10/20 05:12
BITMajo: 欸,第二次英翻台翻成螺絲刀,感覺正確了57F 10/20 05:12
zizc06719: 可惜現在只有這幾種語言轉換58F 10/20 05:12
donkilu: 螺絲起子是日文轉音 這種滿難的...59F 10/20 05:13
WYchuang: 臭零呆也不行 ~60F 10/20 05:16
BITMajo: 我:賴打 → unity翻譯機:FEFFEFPFEFPFEFFEFEFEFFEF61F 10/20 05:16
trywish: AI就是訓練資料庫,訓練多了就不難。只是要花時間對應。62F 10/20 05:17
BITMajo: s2ut翻譯機:I love to hit63F 10/20 05:17
BITMajo: 感覺unity翻譯機一翻不出來就會崩潰,s2ut還會試坳看看
aegis123321: 我幹你娘 --> Let's go. I'll be your mother.65F 10/20 05:40
Vulpix: 不應該是 I'll be your father. 嗎?66F 10/20 05:51
joey0vrf: 先看video game 的翻譯是什麼 希望不要被支語洗成髒東西67F 10/20 05:57
isaza: 地方口音它聽不懂QQ68F 10/20 06:11
※ 編輯: robertchun (1.170.86.176 臺灣), 10/20/2022 06:18:34
jeremy7986: 玩了一下 還滿厲害的 不過目前依然是機翻等級w69F 10/20 07:08
TaiwanFight: 機翻等級?那厲害的點在哪?70F 10/20 07:25
robertchun: 目前也不確定meta會怎樣利用這些模型,但他有開源,71F 10/20 07:37
robertchun: 會搞的人應該可以自己餵資料,要什麼腔都有
misscodfish: 哩欸表情金變態很完美的翻成英文了哈哈哈哈73F 10/20 08:39
Lb1916: 宜蘭腔、鹿港腔、海口腔、內埔腔、混合腔都上去試試看74F 10/20 09:15
Lb1916: 泉州話、漳州話、廈門話會得或許能試試
Lb1916: 還有新馬華人的福建話(可參考新加坡電影)
b160160: 推77F 10/20 09:30
leviathan36: 流氓土話,禍延子孫。78F 10/20 10:06
※ 編輯: robertchun (1.170.86.176 臺灣), 10/20/2022 10:21:27
--
※ 看板: ACG 文章推薦值: 0 目前人氣: 0 累積人氣: 80 
作者 robertchun 的最新發文:
點此顯示更多發文記錄
分享網址: 複製 已複製
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇