當ChatGPT的廣東話「講唔正」：AI年代，低資源語言是否注定被邊緣化？

科技與語言

當ChatGPT的廣東話「講唔正」：AI年代，低資源語言是否注定被邊緣化？

2025年03月15日 · 閱讀約 3 分鐘 · 943+ 字

2023年的某個下午，香港中文大學的教授正嘗試用ChatGPT翻譯一段廣東話口語。結果讓他皺起眉頭——這個被譽為「史上最強AI」的模型，竟然把「食飯未？」翻譯成了「Have you eaten rice yet?」，語氣僵硬得像上世紀的課本。

當ChatGPT的廣東話「講唔正」：AI年代，低資源語言是否注定被邊緣化？

2025年3月15日

AI時代的語言困境

2023年的某個下午，香港中文大學的教授正嘗試用ChatGPT翻譯一段廣東話口語。結果讓他皺起眉頭——這個被譽為「史上最強AI」的模型，竟然把「食飯未？」翻譯成了「Have you eaten rice yet?」，語氣僵硬得像上世紀的課本。

一、語言的數位階級

在AI席捲全球的今天，一個隱蔽的問題正在浮現：我們的母語，是否正在被技術時代拋棄？

廣東話的困境只是冰山一角。從台灣閩南語到馬來西亞華語，從非洲斯瓦希里語到北歐薩米語，數以千計的語言在全球AI系統中處於「低資源」狀態。

語言是文化的載體，而不僅是溝通工具

二、數據霸權的陰影

為什麼AI擅長英語，卻對廣東話力不從心？答案藏在訓練數據裡。

當前主流的大型語言模型，其訓練數據絕大部分來自網絡爬蟲。而網絡內容的語言分佈極度不均：英語佔據超過50%，中文（普通話）約佔5%，廣東話則可能不到0.1%。

「這不是技術問題，是權力問題，」語言學博士林瑋婷指出，「誰控制了數位空間，誰的語言就成為AI的『默認設置』。」

三、在地化的抗爭

面對這一困境，香港和粵語區的技術社群開始了自救。

2024年，一個名為「Cantonese AI」的開源專案悄然啟動。這個由香港工程師和語言學家組成的團隊，正在手動整理廣東話的語料庫。

開源社群的努力：為廣東話建立數位資源

四、技術解方還是政治選擇？

科技巨頭並非沒有注意到這個問題。OpenAI在2024年發布的報告中承認，其模型對「低資源語言」的支援「仍有顯著提升空間」。

但批評者指出，這些努力本質上仍是商業邏輯的延伸——只服務於有利可圖的市場。

結語：誰的未來？

ChatGPT的廣東話「講唔正」，表面上是技術限制，實際上反映了更深層的權力結構。在AI重塑世界的過程中，語言不僅是溝通工具，更是文化身份、歷史記憶和社會權力的載體。

當我們討論AI的未來時，不應只問「AI能做多好」，還要問「AI為誰服務」。

資料來源

端傳媒：當ChatGPT的廣東話「講唔正」

OpenAI Technical Report: Language Support in GPT-4 (2024)

香港中文大學語言學系：粵語數位化研究報告