2023年的某個下午,香港中文大學的教授正嘗試用ChatGPT翻譯一段廣東話口語。結果讓他皺起眉頭——這個被譽為「史上最強AI」的模型,竟然把「食飯未?」翻譯成了「Have you eaten rice yet?」,語氣僵硬得像上世紀的課本。
一、語言的數位階級
在AI席捲全球的今天,一個隱蔽的問題正在浮現:我們的母語,是否正在被技術時代拋棄?
廣東話的困境只是冰山一角。從台灣閩南語到馬來西亞華語,從非洲斯瓦希里語到北歐薩米語,數以千計的語言在全球AI系統中處於「低資源」狀態。
二、數據霸權的陰影
為什麼AI擅長英語,卻對廣東話力不從心?答案藏在訓練數據裡。
當前主流的大型語言模型,其訓練數據絕大部分來自網絡爬蟲。而網絡內容的語言分佈極度不均:英語佔據超過50%,中文(普通話)約佔5%,廣東話則可能不到0.1%。
「這不是技術問題,是權力問題,」語言學博士林瑋婷指出,「誰控制了數位空間,誰的語言就成為AI的『默認設置』。」
三、在地化的抗爭
面對這一困境,香港和粵語區的技術社群開始了自救。
2024年,一個名為「Cantonese AI」的開源專案悄然啟動。這個由香港工程師和語言學家組成的團隊,正在手動整理廣東話的語料庫。
四、技術解方還是政治選擇?
科技巨頭並非沒有注意到這個問題。OpenAI在2024年發布的報告中承認,其模型對「低資源語言」的支援「仍有顯著提升空間」。
但批評者指出,這些努力本質上仍是商業邏輯的延伸——只服務於有利可圖的市場。
結語:誰的未來?
ChatGPT的廣東話「講唔正」,表面上是技術限制,實際上反映了更深層的權力結構。在AI重塑世界的過程中,語言不僅是溝通工具,更是文化身份、歷史記憶和社會權力的載體。
當我們討論AI的未來時,不應只問「AI能做多好」,還要問「AI為誰服務」。
資料來源
- 端傳媒:當ChatGPT的廣東話「講唔正」
- OpenAI Technical Report: Language Support in GPT-4 (2024)
- 香港中文大學語言學系:粵語數位化研究報告