深耕東盟語料庫 暢通數字合作路
馬駿 自治區政協委員、南寧學院創新創業教育學院院長
唐平秋 自治區人大代表、廣西民族大學黨委書記
政府工作報告提到,打造高質量數據集和東盟語料庫。這一部署精準切中廣西與東盟數字合作的核心痛點。
“廣西作為中國與東盟唯一陸海相連的省區,在東盟語料庫建設上具有天然優勢。”馬駿委員表示,廣西與東盟國家地緣相近、人文相親、民心相通,長期積累了海量多語言原生語料,為獲取鮮活語言資源提供了便利。
語料庫是推動信息化建設、賦能數字化轉型、助力智能化升級的關鍵基礎要素。因此,區內多所高校已前瞻布局東南亞語言與人工智能交叉學科,校企協同育人機制日益完善,初步形成專業化人才儲備與實踐梯隊。依托中國—東盟信息港平臺支撐,疊加“語料券”等政策工具賦能,以及“人工智能+跨境電商”等場景的持續拓展,進一步催生了東盟語料庫建設的迫切需求,為產業落地筑牢了基礎。
“東盟非通用語種語料庫建設是廣西人工智能領域的‘一號工程’,不僅賦能千行百業數字化轉型,筑牢人工智能倫理與安全防線,更為‘北上廣研發+廣西集成+東盟應用’的人工智能發展路徑服務打通關鍵環節,鋪就一條數字合作高速通道。”唐平秋代表表示,當前廣西東盟語料庫建設已完成初步框架搭建,語種覆蓋雖初具規模,但高質量細粒度標注語料稀缺,尤其在口語對話、專業術語等領域缺口明顯,多數行業缺乏高質量垂類語料庫;語料采集渠道多元但標準不一,數據復用率偏低,跨境支付與數據流通不暢等問題制約建設進程;越南語、泰語等核心東盟語種的標注人才需求和標注數據缺口較為突出。
針對這些問題,唐平秋代表建議,要加快搭建高水平語料庫科研平臺,整合高校、企業、科研機構資源,集中攻關面向東盟非通用語種語料精準標注等核心技術。健全跨境數據治理機制,積極推動中國—東盟數字規則互認,打通數據流通壁壘,為語料合法合規使用提供制度保障。
記者 羅丹
來源:廣西云-廣西日報
中國—東盟商貿資訊平臺精選:
- 2026年02月19日 10:26:29
- 2026年02月07日 07:41:21
- 2026年01月26日 19:11:18











































京公網安備 11010202009201號