什麼是 CARE Principles?從一場讓我沈默的演講說起

那個讓我沈默的下午

那年我還是博士生。台上,是我自己。

我滔滔不絕地說著 language documentation(語言紀錄)與 language revitalization(語言復振)的重要性。每個禮拜都有瀕危的語言永遠地消失,我們得趕在最後一位流利使用者離開之前,把語法、詞彙、發音、敘事方式都記錄下來,放進公開的資料庫,讓未來的學者可以接續研究,也讓社群的後代有一天能回頭學習自己祖先的語言。

我相信這套說法。我說得非常有信念。

然後一位資深的研究員舉手了。他的語氣很溫和,沒有任何挑釁:

「你有考慮過 community(社群)的感受嗎?」

我愣了一下,但還是繼續回答。我說當然,我會徵求知情同意、會做匿名化處理、會在出版前回去跟社群確認。

「不是這個。」他說。

「你想做語言保存的那個社群,可能真的很想要有人幫忙。但這世界上的社群很多,他們不見得關心這些事。甚至,他們可能希望外人不要再來打擾。」

「再者,你呼籲 language documentation,是為了什麼?最後 community 又可以得到什麼?」

我沈默了。

得到什麼?一本書?一本字典?那些東西真的會被族人翻開嗎?

我突然意識到一件事:我所建構起來的學術正義感,有一部分是把社群當成「被服務的對象」。但對方真正在乎的事情,可能根本不是字典,而是怎麼樣才能提高生活的品質,怎麼樣在這個變化萬千的世界裡找到一份工作。

我想到我自己。我來自一個說閩南語的家庭,聽得懂,但說得非常不流利。閩南語在台灣並不是瀕危語言,可是它也不是官方語言,所以從小到大,我並沒有特別在意自己會多少。只要能跟祖母講上幾句,就夠了。

如果連我這樣的家庭背景,都是用這種「夠用就好」的態度在看待自己的母語,那家裡的母語真的是瀕危語言的孩子呢?他們的父母可能不是不愛自己的語言,而是在現實壓力之下,必須先把孩子推向更能帶來安全感、升學機會和工作機會的語言。這是生活條件逼出來的選擇。

這些,是一本字典解決不了的事。

那些問題沒有走開

每次我準備一份語言計畫的提案,寫到「資料將會以 FAIR 標準公開」這一句時,那個問題就回來敲門:這份資料對誰開放?開放之後,由誰來使用?最後是誰真正受益?

然後我會說服自己:哎呀,這些都是已經出版的資料,我只是把它們數位化,我只是用研究員之間慣用的處理方式而已。

就這樣一邊說服自己,一邊巴不得手邊能有更多紙本語料。我曾經就在這種「再多一點吧、再多一點吧」的想法裡,度過了好幾年。

然後 AI 出現了。事情變得更難。

過去,我們在「開放資料」這件事情上,主要擔心的是個資洩漏。所以我們會把姓名拿掉、把住址拿掉、把出生年月日換成年齡區間。匿名化處理過後,資料公開,大家都安心。

但 AI 出現之後,「資料的流向」變得不一樣了。

一份瀕危語言的錄音放上公開資料庫,我們以為它會被同行的學者下載、做語言學的後續研究。可是實際上,它也可能在我們不知道的情況下,被某個跨國公司抓下來、塞進它的大型語言模型(LLM)或語音模型裡訓練。社群裡某位長輩用一輩子去保存的口傳故事,可能就這樣變成商業 AI 系統的一部分。

更尷尬的是,連匿名化也不再是萬靈丹。聲音本身就是一種生物特徵:一個族群裡僅存的幾位流利使用者,他們的發音、語調、停頓、咳嗽聲,只要錄音放出來,熟悉那個社群的人聽就認得出來。匿名,在文字資料上也許還有一定效果;在聲音資料上,它常常只是一個讓研究員比較安心的標籤。

於是那個資深研究員當年的問題,在我反覆咀嚼之中,變成了一個更尖銳的版本:

社群配合語言學家,奉獻時間、開放錄音、揭開祖先的故事,最後得到的是什麼?他們的聲音被拿去做什麼,他們自己知道嗎?

這就是我這篇文章想介紹的框架的起點。它叫做 CARE Principles。

CARE Principles 從哪裡來?

CARE Principles 並不是某個西方科學委員會自上而下發佈的標準。它的誕生過程,本身就跟它要解決的問題有關。

CARE Principles 的形成,可以追溯到 2018 年 International Data Week 與 Research Data Alliance 期間,關於 Indigenous Data Sovereignty(原住民資料主權)的一系列工作坊。後來,RDA International Indigenous Data Sovereignty Interest Group 與 Global Indigenous Data Alliance(GIDA,全球原住民資料聯盟) 整理出 CARE Principles 的核心文字。2020 年,Stephanie Russo Carroll 等人在 Data Science Journal 發表了〈The CARE Principles for Indigenous Data Governance〉,系統說明 CARE 的理論基礎,以及它和 FAIR Principles 之間的關係。

這些參與者來自世界各地的原住民資料主權研究者:美洲原住民、毛利人、薩米人、澳洲原住民、第一民族(First Nations)等等。他們有一個共同的觀察:

FAIR Principles 講得很好,但它主要問的是:資料如何被找到、取得、互通與重用。它沒有充分處理另一個更前面的問題:在有歷史傷害、殖民經驗與權力不對等的情境裡,誰有權決定資料是否應該被共享、如何共享、以及共享後的利益如何回到社群。

對許多不直接涉及特定社群權利與文化脈絡的科學資料而言,FAIR 往往是合理的起點。讓資料可以被找到、拿到、接得起來、用得了,這對科學研究是好事。

但對於 原住民的語言、傳統知識、文化實踐、土地記憶與家族口傳歷史 而言,事情不能只從資料本身出發。這些資料不是「研究員蒐集到的東西」,而是「社群世代累積、暫時託付出來的東西」。研究員只是一個被允許進入、被委託紀錄的人,從來不應該自動把自己當成擁有者。

CARE 不是要取代 FAIR,而是要並行。FAIR 在問:「這份資料技術上能不能被人找到、拿到、接得起來、用得了?」CARE 則把問題往前推一層:「這份資料 應不應該 被那樣使用?如果可以,由誰來決定?」

CARE 拆開來看

CARE 是四個英文字母:C, A, R, E。每一個對應一個基本原則。讓我用我自己會用的話講一遍。

C,Collective Benefit(集體利益)

問題:這份資料的存在,對社群本身有什麼具體好處?

這不是一個抽象的「未來總有一天會有用」的承諾,而是要看得見、可以驗證的好處。例如:資料能不能反過來幫助社群的語言教學?能不能讓孩子的學校教材多一本?能不能讓社群裡的青年,有新的職業選擇(語言老師、語料庫管理員、文化導覽員)?

如果答案都是「沒有,但是對學者的履歷很好看」,那這份計畫的設計就有問題。

A,Authority to Control(社群有控制權)

問題:這份資料怎麼使用、由誰使用、什麼時候使用,誰來決定?

CARE 的答案是:社群本身。不是出資的基金會、不是研究員的所屬大學、也不是雲端服務的供應商。

具體實踐上,這意味著很多事情。例如:錄音的權利安排不應該自動歸給研究員或研究機構,而要事先和社群代表組織談清楚;資料庫的使用條款,要有社群可以撤回(revoke)或限制某筆資料的機制;商業使用,需要另外取得社群同意,不能用一張同意書處理一輩子的事。

R,Responsibility(責任)

問題:拿到這份資料的人,對誰負責?

學術圈習慣的答案是「對科學社群負責」、「對最佳實踐負責」。CARE 把這個答案往回拉:對提供資料的社群負責。

這個改寫聽起來小,但實作上差很多。它意味著:當研究結果有可能傷害社群(例如不小心公開了不該公開的儀式知識),你的責任不是先跟期刊解釋,而是先跟社群報告。它意味著:你需要持續地回去,而不是研究結束就消失。它也意味著:資料用了之後,要回頭告訴社群成果是什麼,不是只把論文寄給他們,而是用他們聽得懂的方式報告。

E,Ethics(倫理)

問題:這項工作所依靠的倫理框架,是誰的倫理?

學術圈的標準答案常常是 IRB(Institutional Review Board,研究倫理審查委員會)。IRB 很重要,但現代研究倫理審查制度的核心語彙,很大一部分來自醫學研究倫理、個人知情同意與個人風險保護。它常常預設 individual(個人)是主要的分析單位。

但原住民社群的倫理,常常是集體的:某個故事是不是可以被外人聽到,不是一個人說了算,是集體決定。某個禁忌是不是可以被研究,也是集體決定。一份 IRB 表格上「個人簽署同意」的勾選,在這個層次上不一定夠。

CARE 的 E,要求研究員思考:在這個社群自己的倫理框架裡,我這項工作合不合適?不只是「我有沒有取得同意書」,而是「在他們自己的倫理裡,這件事算不算可以做」。

CARE 和 FAIR 不是對立的,是疊起來看的

我想強調一件事:CARE Principles 不是要把 Open Science 推回去。它不是反對開放、也不是反對共享。

兩個框架是 並排著看 的。

對許多科學資料來說,FAIR 是很重要的基本功。讓資料可以被找到、拿到、接得起來、用得了,這能讓研究比較透明,也能讓後續研究者不用一直重複造輪子。

但只要資料和特定人群有密切關係,例如原住民語言、傳統醫藥知識、宗教實踐、家族口傳歷史、土地記憶或社群治理資料,你需要先用 CARE 問一次:這份資料 應不應該 進入 FAIR 的流程?如果可以,要在什麼條件下進入?

我自己的理解會是這樣:

簡化地說,FAIR 主要處理資料如何被找到與重用;CARE 則把問題往前推:誰有權決定資料是否能被那樣使用,以及這樣使用是否回到社群的利益。

順序不能反。如果倒過來做,就可能會做出技術上漂亮、倫理上卻站不穩的計畫。

那麼在我自己的工作裡,CARE 長什麼樣子?

我目前手上有一個跟一個瀕危原住民語言相關的計畫,在做語音合成(Text-to-Speech,TTS)。我們的工程做法,後面會在另一篇文章裡詳細寫。但結構上,有幾個決定是 CARE 直接帶出來的。

程式碼公開,語料不公開。 我們把訓練流程、模型架構、評估方法,全部放在 GitHub 上開源。我們的經驗,其他的低資源語言團隊可以參考。但訓練用的原始錄音和標註,不會被放上任何公開資料庫,只會留在社群同意的儲存環境裡,並依照社群代表組織的治理方式管理。

撤回機制不能只寫在同意書上。 如果某位提供錄音的受訪者希望那些錄音不要再被使用,我們至少要有能力從原始錄音、標註、訓練清單、資料版本和後續訓練流程裡追蹤並排除那筆資料。這不代表「撤回」在機器學習裡永遠可以做到技術上完美,因為模型 checkpoint、備份、衍生資料和已發布版本都會讓事情變複雜。但它至少不能被「資料一旦公開就收不回來」這句話預先取消。

商業使用需要另外同意。 我們的授權清楚地寫出:模型只能用在「社群同意的教育和文化用途」上。如果有公司想拿去做商業產品,需要重新跟社群協商。這不是研究員一個人說了算。

貢獻的承認方式,要和社群一起決定。 有些社群裡的耆老,願意提供故事和錄音,但不希望自己的名字出現在論文裡。傳統學術發表流程不一定容易處理這件事,因為學術界通常相信「具名才能負責」。但在小社群裡,具名有時候反而會帶來壓力或風險。

所以我們不能把「匿名」當成簡單遮掉名字。比較負責任的做法,是事先和社群、期刊或出版單位確認合適的承認方式:可能是匿名致謝、社群集體署名、由社群組織作為權利代表,或在非論文形式的成果中另行處理收益分配。這些安排需要合約與出版規範共同支持,不能由研究者單方面決定。

這些不是完美的解法。但它們是 CARE 邏輯下,具體可以開始做的事。

寫在最後

學術工作很有意思。研究的當下,我們會把自己隔離出來,面對的是數據,是分析方法。但只要一抽離研究的姿勢,這份工作其實離「人」非常近。

說了這麼多,其實也不需要把 CARE 四個字母一個一個記下來。中文世界裡有一句現成的話:「己所不欲,勿施於人」。

如果你不會隨意公開自己的照片,那就不要替受訪者做這樣的事。如果你不會把自己的錄音隨手交給一個不認識的人,那也別替受訪者把錄音隨手上傳。

但 CARE 也不只是「替社群想得更多」。有時候,研究者以為自己很謹慎、很負責,其實只是把社群拖進更多會議、更多表格、更多反覆確認之中。社群真正需要的,可能不是研究者一次又一次回來確認這個字怎麼念、那個詞怎麼拼,而是更少打擾、更清楚的承諾、更實際的回饋,以及真正能拒絕的權利。

說到底,大家都是在自己生活裡奮鬥的一顆小螺絲釘。尊重對方、保守行事,就是最好的田野心態。

我很感激當年那些讓我啞口無言的問題。它們讓我長大,也讓我對研究倫理有了更深一層的理解。

如果有一天你要做跟某個社群有關的研究(不只是原住民社群,也可以是任何弱勢族群),我希望 CARE Principles 對你有用。它不會給你一份標準答案,但它會給你一份比較好的 問題清單。

下一篇文章,我會具體寫一個案例:在魯凱語(Rukai)的語音合成計畫裡,我們怎麼用 CARE 的邏輯,做出每一個技術選擇。 那會是這個系列的第三篇,也是把 FAIR 和 CARE 兩個框架,放回真實工作裡走一遍的故事。

想再讀下去的人

Carroll, S. R., et al. (2020). The CARE Principles for Indigenous Data Governance. Data Science Journal 19: 43. DOI 連結
Global Indigenous Data Alliance(GIDA) 官方網站:gida-global.org
Research Data Alliance (RDA) International Indigenous Data Sovereignty Interest Group:跨國的原住民資料主權社群,有定期的工作坊和文件可以參考。
Wilkinson, M. D., et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data 3, 160018. (上一篇文章已引)

下一篇:當 FAIR 與 CARE 走進魯凱語的語音合成計畫,具體會做出什麼選擇?