科技與語言

當ChatGPT的廣東話「講唔正」:AI年代,低資源語言是否注定被邊緣化?

2025年3月15日
AI語言
AI時代的語言困境

2023年的某個下午,香港中文大學的教授正嘗試用ChatGPT翻譯一段廣東話口語。結果讓他皺起眉頭——這個被譽為「史上最強AI」的模型,竟然把「食飯未?」翻譯成了「Have you eaten rice yet?」,語氣僵硬得像上世紀的課本。

一、語言的數位階級

在AI席捲全球的今天,一個隱蔽的問題正在浮現:我們的母語,是否正在被技術時代拋棄?

廣東話的困境只是冰山一角。從台灣閩南語到馬來西亞華語,從非洲斯瓦希里語到北歐薩米語,數以千計的語言在全球AI系統中處於「低資源」狀態。

語言學習
語言是文化的載體,而不僅是溝通工具

二、數據霸權的陰影

為什麼AI擅長英語,卻對廣東話力不從心?答案藏在訓練數據裡。

當前主流的大型語言模型,其訓練數據絕大部分來自網絡爬蟲。而網絡內容的語言分佈極度不均:英語佔據超過50%,中文(普通話)約佔5%,廣東話則可能不到0.1%。

「這不是技術問題,是權力問題,」語言學博士林瑋婷指出,「誰控制了數位空間,誰的語言就成為AI的『默認設置』。」

三、在地化的抗爭

面對這一困境,香港和粵語區的技術社群開始了自救。

2024年,一個名為「Cantonese AI」的開源專案悄然啟動。這個由香港工程師和語言學家組成的團隊,正在手動整理廣東話的語料庫。

編程
開源社群的努力:為廣東話建立數位資源

四、技術解方還是政治選擇?

科技巨頭並非沒有注意到這個問題。OpenAI在2024年發布的報告中承認,其模型對「低資源語言」的支援「仍有顯著提升空間」。

但批評者指出,這些努力本質上仍是商業邏輯的延伸——只服務於有利可圖的市場。

結語:誰的未來?

ChatGPT的廣東話「講唔正」,表面上是技術限制,實際上反映了更深層的權力結構。在AI重塑世界的過程中,語言不僅是溝通工具,更是文化身份、歷史記憶和社會權力的載體。

當我們討論AI的未來時,不應只問「AI能做多好」,還要問「AI為誰服務」。

資料來源