小說頻道 購物頻道 聊天室 MyGCH 討論區 電子報專區 加入會員 設為首頁 加到我的最愛
遊戲頻道
暱稱:
密碼:
Google
今日熱門話題
超自然【聊天+詢問+公告+建議+申訴+黑名單】炎炎夏日 -- 超自然現象研究社 (1)
超自然【聊天+詢問+公告+建議+申訴+黑名單】太長的東西很難打開 -- 超自然現象研究社 (1)
嚴重缺水的4月!! -- 音樂板 (1)

投票主題
好奇!?現在還有幾個人在這裡閒逛?
人+1
動物算?
物品算?
不明類型算?
外星人?
神.......
從異次元過來的
(趴........)

會員註冊 MyGCH 看新文章 搜尋文章 行事曆 登出系統 新手必看

  遊戲頻道討論區音樂板討論主題 (轉)把歌曲變成伴唱帶 如何從樂曲中分離音樂與人聲

作    者 WUALF  E-mail   日    期 2021/03/04 23:48
摘要 (轉)把歌曲變成伴唱帶 如何從樂曲中分離音樂與人聲 IP 61.228.171.*

回本討論區 | 寫新話題 | 上一則 | 下一則 | 最後一則 | 則次:598/600    •回討論區目錄到精華區
科學月刊 SCIENCE MONTHLY 601 2020.01月號
專欄文章
前瞻未來 Technology

把歌曲變成伴唱帶 如何從樂曲中分離音樂與人聲
https://www.scimonth.com.tw/tw/article/show.aspx?num=2477&kw=%e6%8a%8a%e6%ad%8c%e6%9b%b2%e8%ae%8a%e6%88%90&page=1
蘇黎

Take Home Message

對於愛唱卡拉OK(Karaoke)或音樂迷來說,如果有個系統或軟體就能將音樂檔的人聲與背景音
分離,就能隨時高歌一曲或編輯音樂了。但電腦軟體處理音樂的方式與人腦不同,需要在音
樂的訊號中找尋及分辨進行分析,而近年來的卷積式神經網路,也使音訊分離的能力更上層
樓,未來可透過更多訓練資料提升準確度。

在一場喧囂的派對中,高分貝的電子音樂似乎蓋過了所有的聲音。孤獨的你置身其中,只看
見四周的人們互相交談,卻聽不見彼此說話的內容。但他們依然持續交談著,臉上的表情充
分顯示自己聽得懂彼此訴說的話語。此情景並不罕見,人們往往能夠專注在特定對象的聲音
上,而忽略其它噪音干擾,這即是雞尾酒會效應(cocktail party effect)。類似雞尾酒會效
應的能力也出現在日常的聽覺經驗中,例如收聽流行歌曲時,有時候會特別注意主旋律的人
聲,而當陶醉於歌手的聲線時,人的聽覺或多或少能把伴奏的成分排除。

而讓機器自動辨識吵雜的環境中說話的內容,在伴奏中分析歌手的音高與音色,甚至將人聲
及伴奏的樂器聲分離,都是音訊處理與人工智慧領域中探索久遠的技術。這些技術在音樂工
程中有相當多的應用,其中一個重要的例子就是本文的主題:分離單聲道(mono-channel),
將音樂中的人聲及作為伴奏器樂聲進行聲源分離(source separation)。相信這對許多愛唱卡
拉OK的朋友來說,把完整版的音樂檔轉成卡拉OK版本,是長久以來所期待的夢想。過往數十
年來所發展的工具大多有人聲分得不夠乾淨的問題,如今由於深度學習(deep learning)的發
展,才有越來越多方便好用的單聲道聲源分離工具問世。

  
回應
摘    要 RE:(轉)把歌曲變成伴唱帶 如何從樂曲中分離音樂與人聲 日期 2021/03/04 23:49
回應人 WUALF 回應對象 ─ WUALF  IP 61.228.171.*
不同聲源的聲源分離

在進入正題之前,必須先釐清聲源分離問題的範疇。首先,聲源分離問題與雞尾酒會效應中
所指的音高或音色的辨識問題不同。當辨識吵雜環境中對方說話的內容,指的是直接「聽見」
或「聽懂」特定的聲源;而聲源分離則要求「復現」此聲源,例如在派對中聽著歌手的高音,
聽者可立即知道歌手所唱的那是哪一首歌,甚至能精準地跟著唱出還原每個音高與歌詞,但
此精準的辨識能力與復現歌手唱歌的原始訊號無關。事實上,聽者完全不需要、也無法因為
聽懂音樂就能把音樂訊號處理乾淨,更無法因此復現每個聲部的訊號。相對而言,機器即便
是能復現原音,也未必能像人類理解原音的內容與意義。

其次,必須進一步規範何謂一個獨立而特定的聲源。試比較下列兩種情形:一名歌手獨唱一
段旋律與一大群歌手合唱同一段旋律,前者固然是一個聲源,但後者則是多個聲源?還是依
然是同一個聲源,但整體而言音色是否不同?假如是多個聲源,那聽者有辦法聽出每一位歌
手的聲音嗎?假如無法,有可能復現每一位歌手的歌聲嗎?當歌手與歌手之間音色高度相似,
演唱內容雷同,則似乎很難界定每位歌手彼此都是不同的聲源,而彼此的聲音可以被分離。
換句話說,何謂一個獨立而特定的聲源,是由彼此的音色及演唱內容所決定,而以訊號處理
的語言來說,則是藉由訊號特徵(feature)所決定。 因此,筆者將從訊號特徵的討論出發。

找尋聲波中的訊號特徵

接下來的挑戰,就是如何從聲波中找出訊號特徵。一般人平常所聽到的音樂,都是由不同波
形的聲波訊號疊加而成。讀者可以觀察到這種訊號的規律性:每隔一個週期(period)的時間,
會觀察到相似的波形(wave shape),而人類的聽覺機制中,不同週期可對應不同的音高,不
同的波形則能對應到不同的音色。但觀察兩個聲波的疊加時,其實很難從疊加後的波形回推
原本的波形。換句話說,一般人很難從波形本身找到足夠的訊號特徵描述兩種聲音。

此時就需要利用頻譜分析(spectral analysis)。頻譜分析中最重要的工具是傅立葉變換
(Fourier transform),傅立葉變換能夠將週期性訊號,表示成各種不同振幅與頻率正弦波訊
號的加總。頻率可以描述聲音訊號的基音(fundamental frequency)與泛音(harmonic),振幅
則能描述訊號的音量。在音樂訊號中,音高與音量隨著時間改變是很常見的,因此再使用時
頻圖(spectrogram)進一步描述隨著時間變化的頻譜。一個音的特徵可以被完整描述。當比較
人聲與鋼琴的聲音,則可以觀察到好幾種非常不一樣的特徵。

不同樂器的聲音特徵

分析音樂時,首先是顫音(vibrato),人聲的頻率會隨著時間高低抖動,而鋼琴則沒有顫音的
現象。即便在顫音不明顯的區域,人聲的頻率往往也沒有鋼琴穩定。此外,人聲的泛音區域
中,在特定頻段(如1 kHz與3 kHz附近)的能量較大,即共振峰(formant)。人聲在發出不同的
母音如a、i、u、e、o時,會調整口腔的形狀,而不同的形狀會產生不同位置的共振峰,此特
徵也是鋼琴所沒有的。最後,還可以觀察到人聲與鋼琴的起音─衰減─延持─釋音曲線
(attack-decay-sustain-release curve, ADSR)〔註一〕很不一樣。鋼琴是一種擊弦樂器,
聲音是藉由琴槌敲打琴弦而發出,而在敲擊的瞬間,聲音的能量由零突然產生,迅速到達最
高點,然後再慢慢衰減,而人聲則不會出現這種突如其來的起音和衰減行為,基本上人聲的
能量控制是隨著歌手的詮釋而定。

利用時頻圖則能分辨出人聲與鋼琴的音色特徵,這比直接觀察波形還要明確許多。而更重要
的是,時頻圖正好能為當今深度學習領域發展最為蓬勃的圖像辨識(pattern recognition)技
術所用。近年來,各式各樣的影像辨認工具,舉凡手寫文字辨識、臉部辨識、車流辨識到醫
療影像辨識等,都已達到真人判斷的水平,甚至超越專業人士的水準。而在音訊處理領域,
聲源分離作為在時頻圖上的圖像辨識問題也已有不錯的成果,很多地方都有公開的介面可以
使用,例如的開源工具Open-unmix及臺灣大學資訊工程學系張智星老師實驗室所開發的SVS
(Singing Voice Separation)系統。

  
摘    要 RE:(轉)把歌曲變成伴唱帶 如何從樂曲中分離音樂與人聲 日期 2021/03/04 23:50
回應人 WUALF 回應對象 ─ WUALF  IP 61.228.171.*
該怎麼將聲源分離?

聲源分離工具跟與多數的圖像辨識技術類似,其核心皆為卷積式神經網路
(convolutional neural networks)。卷積式神經網路將輸入的時頻圖經過各式各樣的濾波單
元(filter)轉換成特徵分布(feature map)。每個濾波器有各自的任務,例如有一些是負責辨
認顫音的深度與速度,有一些是負責判斷ADSR曲線中起音的激烈程度,有一些則是兼而有之,
而有更多的濾波器負責整合其他濾波器的特徵辨識成果,最後對時頻圖上每個屬於人聲或屬
於器樂的區域分別框出。換言之,這些濾波器和特徵分布是多層的,每層可能有數十到數百
個,延續幾層,便產生數以百萬計的組合,進而有能力分析非常複雜的時頻圖。更重要的是,
這些濾波器都不需要透過人類設計,而是可以藉由訂訓練資料自動學習。因此,為了實現高
品質的聲源分離工具,工程師必須準備大量的人聲與各種伴奏樂器的聲音資料以訓練卷積式
神經網路。

聲源分離技術的挑戰與未來

越來越多研究顯示聲源分離技術發展已經漸趨成熟,讀者肯定訝異於深度學習配合大量訓練
資料居然可以達成如此好的效果。然而,畢竟目前還無法做出完美的個別聲源分離工具,研
究者還是可以討論這項技術的極限與挑戰。首先,聲源分離與圖像辨識的問題仍舊有一些基
本差異。在大多數文字、人臉、車輛與醫療影像中,若兩個物件出現在同一處,必有一個物
件被遮蔽(ocdusion)。而在音訊的時頻圖中,人聲與器樂伴奏則通常沒有遮蔽現象,但兩者
卻往往重疊並存,就如同圖二的例子,這種並存的物件或多或少會混淆卷積式神經網路的辨
識能力,而這正是聲源分離問題比影像辨識問題更為困難的地方。

最後,讀者必須認知單聲道訊號的聲源分離問題之所以難以接近理想狀況,是因為我們過度
簡化聲音辨識時所處理的大量資訊。在喧囂的派對中,聽者畢竟有相當多的輔助資訊協助辨
識自己所注意的聲音,如耳朵協助辨認聲源的方向,視覺協助則能確認對方的位置,臉部和
肢體語言更是幫助理解對方的意思。因此未來聲源分離技術或許需要結合視覺、肢體感測器
等資訊,此時的挑戰可能已不是設計效率更高的神經網路,而是要如何同時記載足夠多樣化
的資訊作為訓練資料。

〔註一〕ADSR曲線是描述一個音的能量隨著時間變化的行為。

〔註二〕以鋼琴來說中央「Do」簡稱為C4,高一個八度則為CS依此類推;D4則是在中央「Do」
隔壁的「Re」。

蘇黎 臺大電機系及數學系雙學士,臺大電信所博士。目前為中研院資訊所助研究員,研究
興趣為音樂人工智慧。

SCIENCE MONTHLY 2020.01
Vol.51 No.1 46∼49

  
回本討論區 | 寫新話題 | 上一則 | 下一則 | 最後一則 | 則次:598/600    •回討論區目錄到精華區

您必須先登入會員才能發言


  本站所報導之產品、畫面及商標、版權分屬各產品公司所有,
其餘圖文版權為本站所有,非經書面同意不得轉載節錄。