請輸入關鍵字:

熱門搜尋:

Mozilla開源語音募集計畫Common Voice擴大支援簡體中文

日期: 2019年5月8日 下午7:39
* Mozilla 開始收集大陸地區漢語語音資料,更進一步充實其公開語音資料集 * 現已收集27種不同語言的錄音音檔,並將再擴大支援72種語言 * Common Voice (「同聲計畫」)是史上最大的開源語音轉錄文字資料集,其最新釋出的資料庫囊括來自逾4.2萬貢獻者以18種語言錄製的音檔,總長近1,400小時 台灣台北2019年5月8日 /美通社/ -- 開發開源 Firefox 瀏覽器的非營利組織 Mozilla 宣布,其所推動之最大語音資料募集計畫 -- Common Voice  平台已正式支援簡體中文。在廣大的 Mozilla 社群及語言專家夥伴的辛勤努力下,從現在開始,網友可到 Common Voice 的簡中網站(https://voice.mozilla.org/zh-CN )錄製音檔。
語音介面是網際網路未來大勢之所趨。車用語音助理、智慧手錶、智慧燈泡等,內建語音辨識技術的裝置可謂與日俱增。然而,相關技術的創新仍面臨重大阻礙 -- 有意打造語音輔助方案的新創公司、研究人員或各種開發者都需取得大量、轉錄為文字的語音數據,才能訓練機器學習的演算法。但現有公開語音資料集的語音資料量與支援語種數都極其有限,而私有的語音資料不但僅掌握在少數幾家公司手中,而且費用高昂。
有鑑於此,Mozilla 自2017年6月起展開  Common Voice 計畫,希望建立全球化的開源語音語料庫,以因應語音介面的發展需求並突破現階段的市場侷限。Mozilla 認為,此類介面不該只把持在少數幾家握有語音服務技術的廠商手中,而且,Mozilla 希望能讓使用者以自己的語言和熟悉的腔調來吸收和了解資訊。
已收集包括漢語 (簡中) 在內的27種語音資料
Common Voice 在2018年6月開始收集多語語音資料。從那時起,此專案便不斷壯大,變得更全球化、更具包容性。在過去10個月間,大批的熱血貢獻者踴躍響應,已在 Common Voice 網站上發起27種語言音檔的收集計畫,另外還有高達72種語言的錄音計畫正在進行中。
最新加入的語言是漢語(簡體中文)。現在,世界各地的網友都可到  https://voice.mozilla.org/zh-CN 網站捐聲音,或驗證其他人錄音的音檔。
 


Mozilla 開源語音募集計畫 Common Voice 擴大支援簡體中文。  
語音貢獻者還可選擇保留專案紀錄,以掌握自己的錄音紀錄。此外,他們也可選擇提供人口特徵資訊,以協助 Mozilla 改善用以訓練語音識別引擎的語音資料。
一如 Common Voice 收集的其他語言資料,Mozilla 對於漢語(簡中)的目標是要累積約1萬小時之通過驗證的音檔,因為1萬小時的音檔量才足以訓練出完備的語音辨識系統。除此以外,這還附帶另一個好處:所有人都可「同聲」一氣,共同推動語音辨識技術的進展。無論在上班途中、在公車上、午休時間、在家裡,或與親朋好友齊聚一堂時 ,不管是透過  voice.mozilla.org 網站或  iOS 應用 ,只要有手機或電腦,就能捐聲音或驗證其他人的音檔。
Mozilla 開源創新計劃總監 George Roter 表示:「就算一個人只錄或聽幾秒鐘的音檔,但若貢獻者多達數十萬,加起來的資料量就非常驚人!當更多人都願意出一份力時,這套語音資料集的價值就能更快提升。」
釋出多語語音資料集
Mozilla 將一本初衷、繼續充實語音資料集的內涵,使其成為人人可用的公有資源。Mozilla 已於今年二月釋出第一批的多語語音資料集,其中共涵蓋18種語言的錄音音檔,包括:英文、法文、德文和華語(正體中文)等廣泛通行的語言,以及威爾斯語及卡拜爾語等較為冷門的語言。Common Voice 至今已收集逾4.2萬人貢獻的錄音,總長度約1,400小時,且語音資料量仍持續成長中。
在此資料集釋出後,Common Voice 的規模已超越其他同類型的語音資料集,並已將數萬人的錄音音檔及對應文字開放給公眾使用(採 CC0  授權)。任何人都可到 Common Voice 網站 下載完整的語音資料集。 
Mozilla 開源語音募集計畫 Common Voice 擴大支援簡體中文。
George Roter 進一步表示:「Mozilla 致力於促進更多元創新之語音科技生態系的發展。我們不但希望能自行推出語音技術的產品,也立志傾力支援研究人員及小公司的發展,在建立全球最大公共的多語語音資料集的過程中,我們很榮幸得到越來越多人的幫助,也很感謝志願者的熱情相挺,讓我們成功展開對於簡體中文的支持。」
圖片 - https://photos.prnasia.com/prnh/20190508/2460230-1-a 圖片 - https://photos.prnasia.com/prnh/20190508/2460230-1-b


財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。

如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。

下載APP 下載財華財經APP,把握投資先機
更多精彩内容,請點擊: 財華網(https://www.finet.hk/) 財華智庫網(https://www.finet.com.cn) 現代電視FINTV(http://www.fintv.hk)

下一篇新聞

視頻

快訊

17:31
毛戈平(01318.HK)完成H股全流通
17:21
【盈警】南華集團控股(00413.HK)預期2025年度錄得虧損
17:11
【盈警】科勁國際(06822.HK)預期2025年度盈轉虧
16:55
匯量科技(01860.HK)2025年股東應佔溢利6161.9萬美元 同比增長291.46%​
16:34
恆益控股(01894.HK):魏華平獲任執行董事
16:28
加科思-B(01167.HK)2025年股東應佔虧損收窄至1.46億元
16:20
【異動股】港股跌幅榜前十,亞博科技控股(08279.HK)跌28.26%,瑞豐動力(02025.HK)跌21.20%
16:20
【異動股】港股漲幅榜前十,坤集團(00924.HK)漲41.33%,港灣數字(00913.HK)漲35.42%
16:09
騰景科技:自研CPO(共封裝光學)光連接器產品已在開發驗證中
16:03
唐人神:預計26年公司外購仔豬佔比較小 自有仔豬佔比將逐步提升