※ 本文為 MindOcean 轉寄自 ptt.cc 更新時間: 2018-04-14 17:03:41
看板 Gossiping
作者 標題 [新聞] Google 的新 AI 技術可以將兩個同時在說1
時間 Sat Apr 14 11:59:09 2018
※ 例如蘋果日報、奇摩新聞
2.完整新聞標題:Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來
※ 標題沒有寫出來 ---> 依照板規刪除文章
3.完整新聞內文:
※ 社論特稿都不能貼! 違者刪除(政治類水桶3個月),貼廣告也會被刪除喔!
Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來
Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來
祕訣是深度學習結合臉部辨識技術!
人類一個極為強大的能力,是能在一片有著許多人在說話的背景雜音中,精準地「過濾」掉其他人的聲音,只留下自己對話的對象。過去一直認為電腦要獲得這樣的能力不容易,但 Google 的專家們取了個巧,利用深度學習結合臉部辨識,達到了相當好的效果。
簡單來說,研究學者先用「乾淨」的人聲與對應的視覺影像混合成一個假想的吵鬧場景,然後訓練機器去辨識如何從場景中還原出單一的人聲來,最後產生一個模型。以這個臉部與聲線對應的模型為基礎,餵給電腦真實世界的影片時,當臉部偵測到目標嘴巴在動,系統就會試圖抓取音訊檔,將相關的部份分離出來。如同下面的脫口秀影片所示,這效果驚人地好,不僅可以把背景的雜音濾掉,就算有兩個人同時在大聲說話,也可以把目標分離出來。而且,即使講者用麥克風擋住了嘴巴,似乎也不影響辨識呢。
Google 目前正在「探索使用這個技術到產品中的方法」,最明顯的可能就是像 Hangouts 或 Duo 這樣的語音電話中,只要你開著 Webcam,系統就能把背景的雜音過濾掉。其他像是自動化的字幕,以及自動翻譯等,也都有可能因此而受惠呢。
https://youtu.be/NzZDnRni-8A
Looking to Listen: Stand-up - YouTube
This video accompanies our paper: "Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation". Project webpage:...
This video accompanies our paper: "Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation". Project webpage:...
4.完整新聞連結 (或短網址):https://goo.gl/v8pi9G
Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來
人類一個極為強大的能力,是能在一片有著許多人在說話的背景雜音中,精準地「過濾」掉其他人的聲音,只留下自己對話的對象。過去一直認為電腦要獲得這樣的能力不容易,但 Google 的專家們取了個巧,利用深度學習結合臉部辨識,達到了相當好的效果。
簡單來說,研究學者先用「乾淨」的人聲與對應的視覺影像混合成一 ...
人類一個極為強大的能力,是能在一片有著許多人在說話的背景雜音中,精準地「過濾」掉其他人的聲音,只留下自己對話的對象。過去一直認為電腦要獲得這樣的能力不容易,但 Google 的專家們取了個巧,利用深度學習結合臉部辨識,達到了相當好的效果。
簡單來說,研究學者先用「乾淨」的人聲與對應的視覺影像混合成一 ...
5.備註:
這個科技出來,基本上語音輸入系統等於是跨入下個紀元
讓語音輸入的泛用性提高到極為實用的程度
而且目前配合影響來辨識
說不定之後能利用AI反向把依賴影像的部分拿掉
變成真正只靠音訊就能辨識
真不知道蘋果看不看得到谷歌的車尾燈
感覺人工智慧方面還是亞馬遜和微軟比較有競爭力
※ 一個人一天只能張貼一則新聞,被刪或自刪也算額度內,超貼者水桶,請注意
--
https://www.youtube.com/watch?v=PwC1MxbVr8U
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.204.72.142
※ 文章代碼(AID): #1QqNoMbU (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1523678358.A.95E.html
推 : 沒有人跟得上Google了...1F 04/14 12:02
推 : 現有技術可以聽聲辨人卻沒辦法從背景噪音中過濾對象?2F 04/14 12:02
推 : 天網3F 04/14 12:05
推 : 這不算吧......沒影像只有聲音怎麼辦?4F 04/14 12:07
推 : 天網近了5F 04/14 12:10
推 : 下一步就是從群眾裡抓造謠發反動言論份子了6F 04/14 12:12
→ : 然後高價賣給政府 噱翻了
→ : 然後高價賣給政府 噱翻了
推 : 強8F 04/14 12:14
推 : 分隔聲音本來就是機器學習的強項,搭上機器視覺更強了9F 04/14 12:16
推 : 用影像來輔助,好聰明,又簡單10F 04/14 12:17
推 : 參在一起做灑尿牛丸阿笨蛋11F 04/14 12:17
→ : 從嘴形判斷發音,再找出當下聲音最符合的吧12F 04/14 12:17
→ : 只有聲音可以啊,從嘈雜聲音裡去找規律,去除雜音。雖然13F 04/14 12:17
→ : 受限很大,但原理是可行的。
→ : 受限很大,但原理是可行的。
→ : 天網進化形成中。15F 04/14 12:20
推 : 推16F 04/14 12:20
推 : 其實深度學習搭配機器視覺不算什麼取巧,人類大腦本來就17F 04/14 12:21
→ : 是靠這樣運作的。在餐廳鬧哄哄時兩個人聊天,本來就會看
→ : 著對方的臉協助解析對方在講什麼。
→ : 是靠這樣運作的。在餐廳鬧哄哄時兩個人聊天,本來就會看
→ : 著對方的臉協助解析對方在講什麼。
→ : 理論可以 但實作出來就是猛20F 04/14 12:27
推 : 用語意分析判斷才是王道 用影像算取巧21F 04/14 12:31
推 : google 超強...22F 04/14 12:35
推 : 我個人覺得領頭羊google的角色很難改變了23F 04/14 12:41
推 : 可以很強24F 04/14 12:42
推 : 我覺得立法院可以用25F 04/14 12:45
推 : 老師請下魔鬼終結者2配樂 登登登登登 登登登登登26F 04/14 12:51
推 : 不就ICA27F 04/14 12:55
推 : 傅立葉轉換表示:29F 04/14 13:18
→ : 開發出機器學習套件的公司,不意外30F 04/14 14:00
推 : google黑科技31F 04/14 14:06
推 : 強32F 04/14 14:10
推 : 以後吵架可以聽清楚兩邊在說什麼33F 04/14 14:33
推 : 最實用的領域應該就是監控了35F 04/14 16:28
--
回列表(←)
分享