[新聞] Google 的新 AI 技術可以將兩個同時在說1 - Gossiping板

Disp BBS guest 註冊登入(i) 線上人數: 367

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2018-04-14 17:03:41

看板 Gossiping

作者 ohmylove347 (米特巴爾)
標題 [新聞] Google 的新 AI 技術可以將兩個同時在說1
時間 Sat Apr 14 11:59:09 2018

※ 例如蘋果日報、奇摩新聞

2.完整新聞標題:Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來
※ 標題沒有寫出來 ---> 依照板規刪除文章

3.完整新聞內文:

※ 社論特稿都不能貼! 違者刪除(政治類水桶3個月)，貼廣告也會被刪除喔!

Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來

祕訣是深度學習結合臉部辨識技術！

人類一個極為強大的能力，是能在一片有著許多人在說話的背景雜音中，精準地「過濾」掉其他人的聲音，只留下自己對話的對象。過去一直認為電腦要獲得這樣的能力不容易，但 Google 的專家們取了個巧，利用深度學習結合臉部辨識，達到了相當好的效果。

簡單來說，研究學者先用「乾淨」的人聲與對應的視覺影像混合成一個假想的吵鬧場景，然後訓練機器去辨識如何從場景中還原出單一的人聲來，最後產生一個模型。以這個臉部與聲線對應的模型為基礎，餵給電腦真實世界的影片時，當臉部偵測到目標嘴巴在動，系統就會試圖抓取音訊檔，將相關的部份分離出來。如同下面的脫口秀影片所示，這效果驚人地好，不僅可以把背景的雜音濾掉，就算有兩個人同時在大聲說話，也可以把目標分離出來。而且，即使講者用麥克風擋住了嘴巴，似乎也不影響辨識呢。

Google 目前正在「探索使用這個技術到產品中的方法」，最明顯的可能就是像 Hangouts 或 Duo 這樣的語音電話中，只要你開著 Webcam，系統就能把背景的雜音過濾掉。其他像是自動化的字幕，以及自動翻譯等，也都有可能因此而受惠呢。

https://youtu.be/NzZDnRni-8A

Looking to Listen: Stand-up - YouTube
This video accompanies our paper: "Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation". Project webpage:...

4.完整新聞連結 (或短網址):https://goo.gl/v8pi9G

Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來

人類一個極為強大的能力，是能在一片有著許多人在說話的背景雜音中，精準地「過濾」掉其他人的聲音，只留下自己對話的對象。過去一直認為電腦要獲得這樣的能力不容易，但 Google 的專家們取了個巧，利用深度學習結合臉部辨識，達到了相當好的效果。
簡單來說，研究學者先用「乾淨」的人聲與對應的視覺影像混合成一 ...

※ 當新聞連結過長時，需提供短網址方便網友點擊

5.備註:
這個科技出來，基本上語音輸入系統等於是跨入下個紀元
讓語音輸入的泛用性提高到極為實用的程度
而且目前配合影響來辨識
說不定之後能利用AI反向把依賴影像的部分拿掉
變成真正只靠音訊就能辨識
真不知道蘋果看不看得到谷歌的車尾燈
感覺人工智慧方面還是亞馬遜和微軟比較有競爭力
※ 一個人一天只能張貼一則新聞，被刪或自刪也算額度內，超貼者水桶，請注意

--
https://www.youtube.com/watch?v=PwC1MxbVr8U

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.204.72.142
※ 文章代碼(AID): #1QqNoMbU (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1523678358.A.95E.html

推 watashiD: 沒有人跟得上Google了...1F 04/14 12:02

推 AndyWT: 現有技術可以聽聲辨人卻沒辦法從背景噪音中過濾對象?2F 04/14 12:02

推 bill6613: 天網3F 04/14 12:05

推 sheepxo: 這不算吧......沒影像只有聲音怎麼辦？4F 04/14 12:07

推 zzro: 天網近了5F 04/14 12:10

推 C13H16ClNO: 下一步就是從群眾裡抓造謠發反動言論份子了6F 04/14 12:12
→ C13H16ClNO: 然後高價賣給政府噱翻了

推 p2p8ppp: 強8F 04/14 12:14

推 mystage: 分隔聲音本來就是機器學習的強項，搭上機器視覺更強了9F 04/14 12:16

推 ZMittermeyer: 用影像來輔助，好聰明，又簡單10F 04/14 12:17

推 magic1104: 參在一起做灑尿牛丸阿笨蛋11F 04/14 12:17

→ ZMittermeyer: 從嘴形判斷發音，再找出當下聲音最符合的吧12F 04/14 12:17

→ mystage: 只有聲音可以啊，從嘈雜聲音裡去找規律，去除雜音。雖然13F 04/14 12:17
→ mystage: 受限很大，但原理是可行的。

→ jeffwei66: 天網進化形成中。15F 04/14 12:20

推 barkingdog: 推16F 04/14 12:20

推 mystage: 其實深度學習搭配機器視覺不算什麼取巧，人類大腦本來就17F 04/14 12:21
→ mystage: 是靠這樣運作的。在餐廳鬧哄哄時兩個人聊天，本來就會看
→ mystage: 著對方的臉協助解析對方在講什麼。

→ tim9527: 理論可以但實作出來就是猛20F 04/14 12:27

推 sheepxo: 用語意分析判斷才是王道用影像算取巧21F 04/14 12:31

推 avans: google 超強...22F 04/14 12:35

推 ruokcnn: 我個人覺得領頭羊google的角色很難改變了23F 04/14 12:41

推 willy0206: 可以很強24F 04/14 12:42

推 knlove1220: 我覺得立法院可以用25F 04/14 12:45

推 wei502: 老師請下魔鬼終結者2配樂登登登登登登登登登登26F 04/14 12:51

推 reader2714: 不就ICA27F 04/14 12:55

推 skyangle0607: http://i.imgur.com/jQ3iDWr.jpg 兼一長老示範過了28F 04/14 13:03

推 larrymama: 傅立葉轉換表示:29F 04/14 13:18

→ king00000000: 開發出機器學習套件的公司，不意外30F 04/14 14:00

推 evilture: google黑科技31F 04/14 14:06

推 max006: 強32F 04/14 14:10

推 sazdj: 以後吵架可以聽清楚兩邊在說什麼33F 04/14 14:33

推 teddy30416: https://www.youtube.com/watch?v=780pXDch2dc34F 04/14 15:43

郭富城梁家輝對罵視頻,激情四射 - YouTube

推 NEWSTAY: 最實用的領域應該就是監控了35F 04/14 16:28

※ 看板: Gossiping　文章推薦值: 2 目前人氣: 0 累積人氣: 1248　
※ 本文也出現在看板: K_hot

作者 ohmylove347 的最新發文:

+5 [討論] 鐵三角AT-SP3X 6.5k的書架式音響 - Audiophile 板

作者: ohmylove347 223.136.74.115 (台灣) 2024-10-29 10:25:24

19F 5推
+22 [選購] 入門變焦求推薦(長焦風景 + 人像) - DSLR 板

作者: ohmylove347 223.137.197.10 (台灣) 2024-07-10 10:38:18

46F 22推
+17 [討論] FP正在殺死設計模式嗎？ - Soft_Job 板

作者: ohmylove347 114.136.159.79 (台灣) 2024-06-25 11:02:11

104F 18推 1噓
+12 [心得] 安卓大記憶體需求的一知半解 - MobileComm 板

作者: ohmylove347 42.73.243.34 (台灣) 2024-02-01 13:35:01

49F 14推 2噓
+8 [閒聊] 蟻王喚醒爆庫兒記憶會怎樣？ - C_Chat 板

作者: ohmylove347 111.71.213.165 (台灣) 2023-10-14 20:00:34

11F 8推

點此顯示更多發文記錄

分享網址: 複製

DispBBS

(￣︶￣)ｂ Sifox, sin8143 說讚！

1樓時間: 2018-04-14 17:04:30 (台灣)

→

freedomxi

　 04-14 17:04 TW

中國會偷這項技術吧,雪亮工程還包括監聽人聲

回到看板(←)《Gossiping》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享