展廳 03 · Studio Lab · 實驗室
進行中 est. 2026 首席研究員

魯凱語 TTS — 為一個瀕危台灣南島語打造的開源語音合成引擎

為魯凱語(臺灣南島語系瀕危語言)開發的開源語音合成引擎。遵循 CARE 原則:程式碼開源,訓練資料由社群保有主權。

為什麼做這個專案

魯凱語(Rukai)是臺灣南部使用的南島語系語言,被聯合國教科文組織列為「極度瀕危」。目前沒有任何商用語音合成支援、沒有公開的 TTS 訓練資料集、也沒有維護中的發音字典可以讓開發者建構在其上。

這個專案是試圖改變第一項——建立一個社群可以使用、研究與延伸的開源 TTS 引擎,同時保留為數不多的流利使用者的生物識別隱私。

與屏東魯凱社群夥伴共同開發

這個專案有一位來自屏東的魯凱社群共同作者。經其要求,本作品不公開其姓名。 這個選擇本身,就是 CARE 原則中「掌控權(Authority to Control)」的體現——原住民貢獻者有權決定自己參與被如何標示,包括選擇不被公開列名的權利。他/她的貢獻是根本性的;對於是否公開,則由本人決定。

開放程式碼、社群掌控語料

引擎程式碼會以開源授權釋出。訓練語料則不會公開。

這個區分是經過慎重考量的,符合原住民資料治理的 CARE 原則——Collective benefit (集體效益)、Authority to control (掌控權)、Responsibility (責任)、Ethics (倫理)。錄音、轉寫與標注屬於魯凱語社群,他們對這些資料如何被使用、分享、再利用,保有主權。

完整的技術與倫理思路,請參考長文:Open code, community-controlled corpus: a privacy-first design for Rukai TTS(目前僅有英文版,中文版翻譯中)。

目前進度 — 2026 年 5 月

  • 專案摘要已存放於 Open Science Framework 開放科學框架 (DOI 連結將於正式發表後補上)
  • 本專案的工作論文版本將於 2026 年 6 月 3 日,在東南亞語言學會年會(SEALS 35)發表。
  • 引擎架構與語料蒐集規程正在積極開發中。
  • 程式碼尚未公開;將與 SEALS 發表同步釋出。

持續關注

如果你的研究領域是台灣南島語、語言記錄、或低資源語言的 TTS,歡迎聯繫——頁面底部的工作室電子郵件可以直接寄給我。

申請使用魯凱語 TTS 試聽 →

回到文章列表 →