谷歌AI攻克亞洲語言難題,2300種語言數字化計劃正在推進

谷歌AI攻克亞洲語言難題,2300種語言數字化計劃正在推進

文章圖片


亞洲擁有全球三分之一的語言 , 卻在數字世界里”失聲”了!
最新數據顯示 , 亞洲大陸上存在著超過2300種本土語言 , 占全球現存語言的32% 。 然而這些語言在數字化呈現方面卻存在著巨大的鴻溝 。 谷歌正在通過一系列AI項目改變這一現狀 , 從印度的773個地區到東南亞的1200種語言 , 再到日本喜劇的全球化傳播 , 一場覆蓋整個亞洲的語言數字化革命正在展開 。
21500小時語音數據:Project Vaani深入印度腹地 【谷歌AI攻克亞洲語言難題,2300種語言數字化計劃正在推進】
三年前 , 谷歌與印度科學研究所聯手啟動了Project Vaani項目 。 這個項目的野心相當大:要覆蓋印度全部773個地區的語言變體 。
目前的成果已經相當驚人 。 項目已經收集了近21500小時的語音音頻和835小時的轉錄語音數據 , 涵蓋86種獨特語言 。 這些數據來自印度22個邦120個地區的112000多名發言者 。 更重要的是 , 這些數據已經通過印度國家語言任務Bhashini和開源平臺HuggingFace向公眾免費開放 。
為什么要覆蓋所有773個地區?項目負責人在問答環節解釋道:”人們通常認為一個邦內的語言是統一的 , 但事實并非如此 。 以比哈爾邦為例 , 那里就有超過100種不同的語言及變體 。 ”印度人口流動頻繁 , 當一個人從一個邦遷移到另一個邦 , 他們說母語的方式會產生變體和細微差異 。 要讓技術真正服務于全國所有人 , 捕捉這些自然存在的變體就成了必要條件 。
目前項目正在發布第一階段和第二階段的數據 , 已經覆蓋了160個區縣 。 谷歌正在與Megdap、Karya等合作伙伴攜手 , 繼續推進這項龐大的工程 。
Aquarium平臺:為東南亞1200種語言建立數據庫東南亞的語言環境復雜程度不亞于印度 。 這個擁有11個國家、6.5億人口的地區 , 四大不同語系涵蓋了約1200種語言 。 僅印度尼西亞一國就有超過700種語言 。
谷歌與AI Singapore合作推出的Project SEALD , 專門應對這種復雜性 。 項目的核心是Aquarium平臺——一個面向東南亞語言數據集的綜合性資源庫 。

Aquarium的目標很明確:構建一個全面的東南亞數據集目錄 , 讓社區中的任何人都能獲取和貢獻數據 , 助力開發出能真正反映地區生態的AI模型 。 最終目標是打造出更出色的工具和解決方案 , 以當地語言滿足東南亞的特定應用場景需求 。
面對低資源或瀕危語言的挑戰 , SEALD團隊采取了獨特的策略 。 項目負責人William介紹:”我們始終與當地機構合作 , 通過他們找到這些鮮為人知的方言 。 ”這些資料通常是非數字化的 , 需要轉化為可用數字格式并請當地人員進行校驗 。 在某些特定情況下 , 如果某種語言確實瀕臨滅絕且完全沒有相關資源 , 團隊會向該語言的母語使用者分享圖像提示或文本提示 , 收集他們的音頻數據并進行轉錄 , 然后將這些數據作為語料庫的一部分 。
90%準確率:吉本興業用AI讓日本喜劇走向世界語言AI的應用不僅限于保護瀕危語言 。 日本最大的娛樂經紀公司吉本興業正在用谷歌的AI技術解決一個特殊問題:如何讓全世界理解日本喜劇 。
吉本興業成立于1912年 , 管理著6000多名藝人 , 每年制作5000多部作品 。 但日本喜劇的全球擴張面臨兩大挑戰:許多笑點依賴于高語境化的表達 , 涉及大量文化細節與典故 , 對外來觀眾難以理解;語言障礙依然顯著 , 日本英語普及率較低 , 阻礙了與全球觀眾建立聯系 。
2014年開始 , 吉本興業與谷歌合作開發了CHAD 2系統——一個由Gemini 2.0 Flash驅動的AI翻譯系統 。 這個系統專為喜劇設計 , 能將日語視頻翻譯成英語、中文和韓語 。 只需上傳電影文件 , 系統便會自動生成字幕文件 。
最令人印象深刻的是準確率 。 CHAD 2的轉錄和翻譯準確率約為90% , 大幅領先于其他模型60%-75%的準確率 。 更重要的是 , 翻譯時間從數月縮短至幾分鐘 。
系統還包含了一個專門為”Owarai(日本喜劇)”量身定制的自定義詞典 , 目前包含超過200個條目 。 如果要將系統調整為其他內容類型 , 比如動漫、電視劇或體育 , 只需額外添加針對特定類型的詞典 , 核心提示無需進行任何特殊調整 。
吉本興業的代表表示:”我們的終極愿望是創建一個無論何時何地 , 任何人都能實時理解日本喜劇的世界 。 ”目前CHAD 2還在內部使用階段 , 但公司正在加速推進外部商業化銷售 , 并持續提升翻譯質量與新增語言支持 。
這些項目展示了AI技術在語言保護和文化傳播方面的巨大潛力 。 從印度腹地的方言到東南亞的瀕危語言 , 再到日本喜劇的文化細節 , 谷歌正在用技術彌合亞洲語言的數字鴻溝 。 隨著更多數據的收集和技術的進步 , 亞洲2300種語言在數字世界獲得應有地位的那一天 , 或許并不遙遠 。

    推薦閱讀