前言

Meta 在本月23日發表了一系列的 AI 大型多語言模型(Massively Multilingual Speech,簡稱 MMS)。這項 AI 模型可以辨識超過 4,000 種口語語言,而文字和語音之間的轉換也支援超過 1,100 種語言。它不僅可以依照使用者的偏好進行語言操作,還可以用於增強實境AR和虛擬實境VR,更好地理解每個人的聲音。

Meta表示,世界上許多語言都有消失的可能性,而目前語音辨識和語音生成技術的局限恐怕加速此一趨勢。因此發表新的AI模型,希望藉此幫助大家以自己習慣的語言,更輕鬆地獲取資訊。而這項AI技術也將會公開分享模型的開放原始碼,讓其他研究人員可以繼續發展相關技術。

本文就帶大家來認識MMS-AI大型多語言模型。

Meta「MMS」AI模型,可以轉換千種語言、也能辨識4,000種口語語言!

Meta 大型多語言模型(Massively Multilingual Speech,簡稱 MMS)可擴展至文字轉語音和語音轉文字技術的應用範圍,最初支援 100 種語言,現在已能轉換超過 1,100 種語言,超越過去的 10 倍。此外,它還能識別超過 4,000 種口語語言,超過過去的 40 倍,讓不同語言的使用者能順利溝通。

此模型還可應用於擴增實境、虛擬實境等領域,讓所有人能以各自習慣的語言進行溝通。Meta 表示,此技術可保留多數口傳語言,進而保存更多文化資產。

▲Meta 的AI模型MMS技術的應用範圍,至今已可轉換超過1100種語言。/圖 Meta


Meta 蒐集上千種語言,《聖經》也作為AI訓練資料

過去最大型的語音資料庫最多僅涵蓋100種語言,因此開發此技術所面臨的第一個挑戰即為

「蒐集數千種語言的語音訓練資料」

。為了克服這項挑戰,Meta 使用已翻譯成多種語言、譯文已被廣泛閱讀及研究的宗教經典,例如《聖經》,作為AI語言的文字訓練資料。

聖經譯文有多種語言的公開錄音檔,而 Meta 創造的語言資料集,收集超過 1,107 種語言的《新約聖經》有聲讀物資料,平均為每種語言提供 32 小時的語音訓練資料。後續又加入其他未標記的基督教有聲讀物,可用的語言訓練資料涵蓋超過 4,000 種語言。



Meta 表示,之所以選擇宗教文本,包括聖經,是因為它們已被翻譯成多種不同的語言,且其譯文廣泛用於書面語言翻譯研究。這些譯文都有公開的錄音,可供人們使用不同的語言閱讀這些文本。

這種方法吸引了外界的目光,因為乍聽之下,Meta 在培養一個世界觀嚴重傾向基督教的 AI 模型。但是,Meta 表示情況並非如此:「雖然音檔內容是宗教性的,但我們的分析表明,模型不會生成更多的宗教語言」。此外,儘管大多數宗教音檔都為男性的聲音,但AI模型在女性和男性的聲音識別方面表現同樣出色。

▲Meta 的AI模型中,男女聲的聲音辨識表現同樣出色。/圖 Meta


運用 MMS AI模型,保護世界語言多樣性

世界上許多語言面臨消失的危險,而現有的語音識別和語音生成技術的局限性只會加速這一趨勢。Meta希望透過AI技術可以鼓勵人們保持他們特有語言(方言)的活力,因為他們可以通過,說著他們自己喜歡的語言來獲得訊息與技術。而MMS正向這個方向邁出了重要一步。

Meta接下來,將持續擴大型多語言模型對應語言,並且支援更多語言之間識別及轉換,藉此克服更多以現有技術難以處理的方言內容。


▲Meta 推出的AI模型MMS 語音文字轉換示範影片。/影 Meta


目前MMS還處於研發的狀態,但Meta已經開源該模型與代碼,讓更多的開發人員參與其中。而隨著更多開發人員的加入,相信我們距離能夠使用不同語言,進行平等交流的那一天,很快就會到來了。


總結

本文介紹了 Meta 公司推出的 AI 大型多語言模型(Massively Multilingual Speech,簡稱 MMS)。MMS 可以識別超過 4,000 種口語語言,而文字和語音之間的轉換也支援超過 1,100 種語言。

此外,MMS 還可應用於擴增實境、虛擬實境等領域,讓使用者能夠使用自己習慣的語言進行溝通。本文還介紹了 MMS 開發過程中所面臨的挑戰以及使用的語言資料集,以及該模型對保護世界語言多樣性的意義。最後,Meta 公司開源了 MMS 的模型與代碼,讓更多的開發人員參與其中,相信未來的世界將更加多元化。