為什麼做這個專案
魯凱語(Rukai)是臺灣南部使用的南島語系語言,被聯合國教科文組織列為「極度瀕危」。目前沒有任何商用語音合成支援、沒有公開的 TTS 訓練資料集、也沒有維護中的發音字典可以讓開發者建構在其上。
這個專案是試圖改變第一項——建立一個社群可以使用、研究與延伸的開源 TTS 引擎,同時保留為數不多的流利使用者的生物識別隱私。
與屏東魯凱社群夥伴共同開發
這個專案有一位來自屏東的魯凱社群共同作者。經其要求,本作品不公開其姓名。 這個選擇本身,就是 CARE 原則中「掌控權(Authority to Control)」的體現——原住民貢獻者有權決定自己參與被如何標示,包括選擇不被公開列名的權利。他/她的貢獻是根本性的;對於是否公開,則由本人決定。
開放程式碼、社群掌控語料
引擎程式碼會以開源授權釋出。訓練語料則不會公開。
這個區分是經過慎重考量的,符合原住民資料治理的 CARE 原則——Collective benefit (集體效益)、Authority to control (掌控權)、Responsibility (責任)、Ethics (倫理)。錄音、轉寫與標注屬於魯凱語社群,他們對這些資料如何被使用、分享、再利用,保有主權。
完整的技術與倫理思路,請參考長文:Open code, community-controlled corpus: a privacy-first design for Rukai TTS(目前僅有英文版,中文版翻譯中)。
目前進度 — 2026 年 5 月
- 專案摘要已存放於 Open Science Framework 開放科學框架 (DOI 連結將於正式發表後補上)。
- 本專案的工作論文版本將於 2026 年 6 月 3 日,在東南亞語言學會年會(SEALS 35)發表。
- 引擎架構與語料蒐集規程正在積極開發中。
- 程式碼尚未公開;將與 SEALS 發表同步釋出。
持續關注
如果你的研究領域是台灣南島語、語言記錄、或低資源語言的 TTS,歡迎聯繫——頁面底部的工作室電子郵件可以直接寄給我。
申請使用魯凱語 TTS 試聽 →