Mozilla Common Voice 7.0 帶來超過 13,000 小時的語音數據

最近 NVIDIA 和 Mozilla 宣布發布新版本“Mozilla Common Voice 7.0” 這代表了超過 13.000 小時的集體來源語音數據以及另外 16 種語言的添加以及 與上次更新相比, 的大小 材料體積 在集合中說話 它增加了近 50%。

另外, 支持的語言數量從 60 種增加到 76 種,包括首次額外支持白俄羅斯語、哈薩克語、烏茲別克語、保加利亞語、亞美尼亞語、阿塞拜疆語和巴什基爾語。

對於那些不熟悉 Common Voice 的人,他們應該知道 e這是一個開放數據語音數據集 世界上最大的,旨在使語音技術民主化。 它被研究人員、學者和開發人員使用 世界各地。

員工動員所在社區捐贈語音數據 到 MCV 的公共數據庫,任何人都可以使用它來訓練語音技術。 作為 NVIDIA 合作的一部分 c在 Mozilla Common Voice 上, 在這個和其他公共數據集中訓練的模型可以免費獲得 通過一個名為 NVIDIA NeMo 的開源工具包。

該項目 旨在組織聯合工作以積累語音模板數據庫,考慮到各種不同的聲音和說話方式。 具有人類語音典型短語不同發音記錄的累積數據庫可以在機器學習系統和研究項目中不受限制地使用。

根據 Vosk 連續語音識別庫作者的說法,Common Voice 集的缺點是人聲素材的片面性(20 多歲和 30 多歲的男性佔優勢,缺乏女性、兒童聲音的素材)和老年人)、缺乏詞彙可變性(相同短語的重複)以及 MP3 錄音的分佈容易失真。

關於新版Common Voice 7.0

在這個新版本中 超過 75 人參與 在準備英文材料方面,口授確認演講2637小時(參加人數66萬,1686小時)。

同樣正如我們開頭提到的, 這個新版本引入了 16 種新語言 進入 Common Voice 數據集共有 76 種語言,其中按總小時數排名前五位的語言是英語(2.630 小時)、近盧旺達語(2.260 小時)、德語(1.040 小時)、加泰羅尼亞語(920 小時)和世界語(840 小時)。

百分比增長最多的語言是泰語 (增長近20倍,從12小時到250小時),luganda(增長9倍,從8小時到80小時), 世界語 (增長7倍以上,從100小時到840小時) 和泰米爾語 (增長超過 8 倍,從 24 小時到 220 小時)。 奇怪的是, 盧旺達累計數據排名第二,為此收集了 2260 小時。 緊隨其後的是德語 (1040)、加泰羅尼亞語 (920) 和世界語 (840)。 該數據集現在擁有超過 182,000 個獨特的聲音,在短短六個月內,納稅人社區增長了 25%。

還提到,作為他們參與該項目的一部分, NVIDIA 為機器學習系統準備了現成的訓練模型 基於收集的數據(與 PyTorch 兼容)。 這些模型作為免費和開放的 NVIDIA NeMo 工具的一部分進行分發,例如,該工具已用於 MTS 和 Sberbank 的自動語音服務。

模型是 針對自然語言的語音識別、語音合成和信息處理系統 它們對設計語音對話系統、轉錄平台和自動呼叫中心的研究人員很有用。 與以前可用的項目不同,已發布的模型不僅限於英語識別,還涵蓋各種語言、口音和語音形式。

終於 如果您有興趣了解更多信息,您可以在中查看詳細信息 以下鏈接。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責資料:AB Internet Networks 2008 SL
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。