顯示廣告
隱藏 ✕
※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2018-04-14 17:03:41
看板 Gossiping
作者 ohmylove347 (米特巴爾)
標題 [新聞] Google 的新 AI 技術可以將兩個同時在說1
時間 Sat Apr 14 11:59:09 2018


※ 例如蘋果日報、奇摩新聞


2.完整新聞標題:Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來
※ 標題沒有寫出來 ---> 依照板規刪除文章


3.完整新聞內文:
※ 社論特稿都不能貼! 違者刪除(政治類水桶3個月),貼廣告也會被刪除喔!

Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來


祕訣是深度學習結合臉部辨識技術!

人類一個極為強大的能力,是能在一片有著許多人在說話的背景雜音中,精準地「過濾」掉其他人的聲音,只留下自己對話的對象。過去一直認為電腦要獲得這樣的能力不容易,但 Google 的專家們取了個巧,利用深度學習結合臉部辨識,達到了相當好的效果。

簡單來說,研究學者先用「乾淨」的人聲與對應的視覺影像混合成一個假想的吵鬧場景,然後訓練機器去辨識如何從場景中還原出單一的人聲來,最後產生一個模型。以這個臉部與聲線對應的模型為基礎,餵給電腦真實世界的影片時,當臉部偵測到目標嘴巴在動,系統就會試圖抓取音訊檔,將相關的部份分離出來。如同下面的脫口秀影片所示,這效果驚人地好,不僅可以把背景的雜音濾掉,就算有兩個人同時在大聲說話,也可以把目標分離出來。而且,即使講者用麥克風擋住了嘴巴,似乎也不影響辨識呢。

Google 目前正在「探索使用這個技術到產品中的方法」,最明顯的可能就是像 Hangouts 或 Duo 這樣的語音電話中,只要你開著 Webcam,系統就能把背景的雜音過濾掉。其他像是自動化的字幕,以及自動翻譯等,也都有可能因此而受惠呢。

https://youtu.be/NzZDnRni-8A
Looking to Listen: Stand-up - YouTube
This video accompanies our paper: "Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation". Project webpage:...

 


4.完整新聞連結 (或短網址):https://goo.gl/v8pi9G
Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來
[圖]
人類一個極為強大的能力,是能在一片有著許多人在說話的背景雜音中,精準地「過濾」掉其他人的聲音,只留下自己對話的對象。過去一直認為電腦要獲得這樣的能力不容易,但 Google 的專家們取了個巧,利用深度學習結合臉部辨識,達到了相當好的效果。
簡單來說,研究學者先用「乾淨」的人聲與對應的視覺影像混合成一 ...

 
※ 當新聞連結過長時,需提供短網址方便網友點擊


5.備註:
這個科技出來,基本上語音輸入系統等於是跨入下個紀元
讓語音輸入的泛用性提高到極為實用的程度
而且目前配合影響來辨識
說不定之後能利用AI反向把依賴影像的部分拿掉
變成真正只靠音訊就能辨識
真不知道蘋果看不看得到谷歌的車尾燈
感覺人工智慧方面還是亞馬遜和微軟比較有競爭力
※ 一個人一天只能張貼一則新聞,被刪或自刪也算額度內超貼者水桶,請注意

--
https://www.youtube.com/watch?v=PwC1MxbVr8U

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.204.72.142
※ 文章代碼(AID): #1QqNoMbU (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1523678358.A.95E.html
watashiD: 沒有人跟得上Google了...1F 04/14 12:02
AndyWT: 現有技術可以聽聲辨人卻沒辦法從背景噪音中過濾對象?2F 04/14 12:02
bill6613: 天網3F 04/14 12:05
sheepxo: 這不算吧......沒影像只有聲音怎麼辦?4F 04/14 12:07
zzro: 天網近了5F 04/14 12:10
C13H16ClNO: 下一步就是從群眾裡抓造謠發反動言論份子了6F 04/14 12:12
C13H16ClNO: 然後高價賣給政府  噱翻了
p2p8ppp: 強8F 04/14 12:14
mystage: 分隔聲音本來就是機器學習的強項,搭上機器視覺更強了9F 04/14 12:16
ZMittermeyer: 用影像來輔助,好聰明,又簡單10F 04/14 12:17
magic1104: 參在一起做灑尿牛丸阿笨蛋11F 04/14 12:17
ZMittermeyer: 從嘴形判斷發音,再找出當下聲音最符合的吧12F 04/14 12:17
mystage: 只有聲音可以啊,從嘈雜聲音裡去找規律,去除雜音。雖然13F 04/14 12:17
mystage: 受限很大,但原理是可行的。
jeffwei66: 天網進化形成中。15F 04/14 12:20
barkingdog: 推16F 04/14 12:20
mystage: 其實深度學習搭配機器視覺不算什麼取巧,人類大腦本來就17F 04/14 12:21
mystage: 是靠這樣運作的。在餐廳鬧哄哄時兩個人聊天,本來就會看
mystage: 著對方的臉協助解析對方在講什麼。
tim9527: 理論可以 但實作出來就是猛20F 04/14 12:27
sheepxo: 用語意分析判斷才是王道 用影像算取巧21F 04/14 12:31
avans: google 超強...22F 04/14 12:35
ruokcnn: 我個人覺得領頭羊google的角色很難改變了23F 04/14 12:41
willy0206: 可以很強24F 04/14 12:42
knlove1220: 我覺得立法院可以用25F 04/14 12:45
wei502: 老師請下魔鬼終結者2配樂 登登登登登 登登登登登26F 04/14 12:51
reader2714: 不就ICA27F 04/14 12:55
skyangle0607: http://i.imgur.com/jQ3iDWr.jpg 兼一長老示範過了28F 04/14 13:03
[圖]
 
larrymama: 傅立葉轉換表示:29F 04/14 13:18
king00000000: 開發出機器學習套件的公司,不意外30F 04/14 14:00
evilture: google黑科技31F 04/14 14:06
max006: 強32F 04/14 14:10
sazdj: 以後吵架可以聽清楚兩邊在說什麼33F 04/14 14:33
NEWSTAY: 最實用的領域應該就是監控了35F 04/14 16:28

--
※ 看板: Gossiping 文章推薦值: 2 目前人氣: 0 累積人氣: 1246 
※ 本文也出現在看板: K_hot
作者 ohmylove347 的最新發文:
點此顯示更多發文記錄
分享網址: 複製 已複製
( ̄︶ ̄)b Sifox, sin8143 說讚!
1樓 時間: 2018-04-14 17:04:30 (台灣)
  04-14 17:04 TW
中國會偷這項技術吧,雪亮工程還包括監聽人聲
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇