什麼是 Open Science? 從一個讓你想求證的句子說起

一個讓你想求證的句子

有沒有辦法想像有一天,我們不用到大學裡當研究員,也可以發表科學文章?

具體想像一下這個場景。你在臉書、某個新聞 APP、或朋友轉發的連結上,滑到一個句子:「吸菸的人,得到憂鬱症的機率比一般人高。」¹

你停了一下。這聽起來太奇怪了吧?或者,這太剛好了吧?總之,你不想直接相信,你想自己求證一下。

過去,你能做的事情很有限。去圖書館翻期刊、在 Google Scholar 搜尋論文,但通常會遇到一道牆,付幾十美元才能讀到全文。對大部分人而言,故事到這裡就結束了。

但今天,你還有另外一個選擇:你可以直接寫信給那篇論文的作者,要求他們公開原始的研究資料。

這不是科幻片裡的情節,這就是我們現在的生活。你不用讀碩士、不用讀博士,也接觸得到大數據。

這個轉變,有一個名字。它叫 Open Science。

Open Science 從哪裡來?

三十年前,要讀一篇科學論文,基本上只有一條路:訂閱一本紙本期刊,或者透過所在大學的圖書館。期刊很貴,一年訂閱費可能是幾千美元。學者把論文無償交給期刊,期刊靠它賺錢,讀者要付費才能讀,但有趣的是,作者本人、以及供他薪水的納稅人,通常都拿不到一分錢。

這種把期刊文章做成訂閱制的生意模式,其實也讓研究員自己很無奈。我還記得以前的日子,常會收到其他學校或機構同事傳來的訊息:「你們學校有沒有訂 XXX 期刊?有的話,幫我下載一下這篇文章,拜託!」我們研究員,曾經就是靠著這種私下互助的網絡在做研究的。

第一個出來打破這個遊戲規則的,是 1991 年的一位物理學家。Paul Ginsparg 在 Los Alamos 國家實驗室建了一個小網站,叫 arXiv(英文唸法是 “archive”)。他的想法很簡單:同行的物理學家可以把還沒正式發表的論文(預印本,preprint)直接放上來,任何人都能免費讀。

一開始只有物理學家。後來數學家加入,再後來電腦科學家、生物學家、化學家、語言學家也都進去了。今天,arXiv 上累積了超過兩百萬篇論文,任人閱覽。注意:是「每一個人」都可以:你、我、學齡的孩子、退休的工程師,只要有網路,都讀得到。

這只是開頭。

2000 年代初期,陸續有「開放取用期刊」(open access journals)出現:PLOS、BioMed Central 等等。他們的模式跟傳統期刊倒過來:不是讀者付錢,而是作者(或他的機構/經費)付一筆「處理費」(包含校稿、排版等等),之後文章就放在網路上,任何人都能免費讀。

到了 2010 年代,科學界經歷了一場「重複性危機」(replication crisis)。心理學、醫學、社會科學裡,大量被視為「定論」的研究,後來別人用同樣方法重做,卻得不出同樣結果。問題不一定是科學家造假,而是發表時公開的資料和方法不夠完整,別人想驗證也驗證不了。

這場危機推動了下一步:不只論文要開放,資料和程式碼也要開放。

「開放」具體指哪三件事

Open Science 不是一件事,是三件互相關聯的事。

1. Open Access 論文人人能讀

這是最直觀的一層。回到開頭那篇關於吸菸與憂鬱症的論文:如果它是 open access 的,你不用付錢給期刊。直接搜尋論文標題,通常會找到作者放在自己學校網頁、放在 ResearchGate、或放在 arXiv 之類的預印本平台上的版本。

如果是用公款做的研究,很多國家現在已經立法要求免費開放。歐盟的 Horizon Europe 計畫、美國的 NIH、英國 UKRI,都有這樣的規定。畢竟,你的稅金已經付過一次了。

2. Open Data 原始資料人人能查

「研究」這兩個字,在過去常常意味著一個黑盒子:你看到結論(「吸菸者得憂鬱症的機率高 30%」),但看不到背後的資料(那 30% 是怎麼算出來的?樣本多少人?追蹤多久?排除了哪些變因?)。

Open Data 就是把這個黑盒子打開。論文發表後,原始的資料集(經過匿名化處理之後)也會被放上一個公開的「資料庫」(repository),例如 Zenodo、OSF (Open Science Framework)、Dryad。任何人都可以下載,用自己的統計工具重新驗算。

這就是為什麼「你可以寫信跟作者要資料」現在變得可行，而且很多時候你或許不用寫信,上網搜一下就可以整份打包帶走。

3. Open Source 工具與程式碼人人能用

第三層是程式碼。今天大部分的科學分析都是用程式做的，比如統計模型、機器學習、模擬程式。如果只公開資料卻藏起程式碼,別人還是無法完整重做你的分析。

誰知道你在程式裡面動了什麼手腳?砍掉了哪些資料,沒人查得到。可能你公開了 100 筆資料,結果分析的時候其實只取了其中 30 筆來算 correlation，這種小小的手腳，在程式碼公開之前,根本看不出來。

Open Source 把這一層也打開:論文的分析程式碼放在 GitHub 之類的公開平台,任何人都可以下載、檢查、修改、重跑。

FAIR Principles:把「開放」變成可操作的標準

把資料、論文、程式碼都「公開」是一回事;讓人「真的找得到、看得懂、用得了」又是另一回事。

想像你把一篇論文的原始資料放在自己的個人網頁上,檔案名稱叫 data_final_2.csv,沒有任何說明文件。技術上,這是「公開」的。實際上,別人找不到、找到也看不懂、看懂也接不上自己的分析流程。

2016 年,一群科學家(Wilkinson 等人)提出了一個讓「開放」真正可用的具體標準,叫做 FAIR Principles。FAIR 是四個英文字母的縮寫,每一個都是一個基本要求:

Findable(找得到) 資料要有一個獨一無二的編號(類似書的 ISBN),要能被搜尋引擎找到,要有清楚的標題與描述。
Accessible(拿得到) 找到之後,要能真的下載。也就是說,使用者不需要付費、不需要特殊權限。如果有限制(例如個資保護),這些限制要被清楚說明。
Interoperable(接得起來) 資料的格式要是開放、標準的,讓你能用一般軟體打開,也能跟其他資料合併分析。不要用只有某個昂貴軟體才能開啟的封閉格式。
Reusable(用得了) 資料要有完整的「文件」(metadata),說明資料是怎麼蒐集的、有什麼限制、可以怎麼引用。讓別人不只能用,還能正確地用。

簡單講:找得到、拿得到、接得起來、用得了。

這四個原則現在被歐盟、美國 NIH、大型科學基金會普遍採用。「我們資助的研究,資料要符合 FAIR」,在許多研究計畫裡,已經是硬性要求。

由封閉轉向開放的第一手經歷

我當博士生的時候,從第一天開始就被教導:資料要準備好、紀錄要做齊。因為我們的機構大力鼓勵研究員的發表都要符合 Open Science 的精神,所以我寫的程式、處理過的資料、寫過的文章,全部都是公開的。甚至在文章被正式刊登之前,我就會把自己排版的預印本(preprint)上傳到 OSF 那一類的平台。

親身經歷過「知識被鎖在付費高牆」和「研究資料公開取用」這兩個時代之後,我真的非常感激那些響應 Open Science 的研究員。因為找資料變得很方便。雖然沒有現在用 AI 做研究來得快,但至少不用親自去圖書館一本一本掃描、一個字一個字輸進電腦裡。我對 Open Science 運動的出現,真是感激再感激。也因此,我十分樂於遵照這套規範。

直到有一天我義正嚴辭的在台上報告著某個少數族群的語言，然後被資深的研究員給問倒了。這才動搖了我的信念，但這又是後話了。

為什麼這跟非科學家的你有關

你可能還是會想:這些聽起來都是學術圈內部的事,跟我這種普通讀者有什麼關係?

三件事,具體而言:

你可以自己求證。 回到開頭那個句子:「吸菸的人,得到憂鬱症的機率比一般人高。」在 FAIR 的規範之下,你可以:找到那篇論文(F)、免費下載(A)、用 Excel 或免費的 R 軟體打開資料(I)、然後用作者提供的說明文件,自己重新算一遍(R)。如果你算出來的數字跟論文不一樣,這件事本身就值得被知道。

公民科學變得可能。 過去,「做研究」是一件需要博士學位才能做的事。現在,有越來越多的科學貢獻來自「業餘」的公民:觀鳥的退休教師、追蹤蝴蝶遷徙的中學生、用手機 app 紀錄星空的天文愛好者。Open Science 讓這些貢獻可以真正進入科學流程,因為他們可以接觸到「真正的」科學工具,不需要先進入大學體系,也不用賣房子買昂貴的器材(我聽說以前有人為了做人類 DNA 序列分析,真的把房子賣了。對那種決心,真的超敬佩!)。

科學變得更可問責。 當資料和程式碼是公開的,研究結果就可以被外部檢驗。錯誤更快被發現,造假更難維持。對於影響重大的議題,像是氣候變遷、藥物安全、教育政策,這份外部檢驗的能力,對整個社會是有意義的。

但「開放」不是答案的全部

在這篇文章結束之前,我要先放一個伏筆。

Open Science 是一個值得歡迎的轉變,但它不是萬靈丹。當我們說「資料應該公開」的時候,我們默默假設了一件事:這份資料的「所有權」,可以被一個機構(大學、研究計畫、出版社)單方面決定。

對絕大多數的科學資料,這個假設成立。氣候資料、化學反應、大型語言模型的訓練語料,在大部分情況下,沒有人會因為這份資料被公開而受傷。畢竟,如果資料涉及到「人」的行為,在公開之前都會經過非常嚴格的匿名化處理。

就拿我以前做生物資訊研究的經驗來說。我可以輕易下載大量人類 DNA 序列的資料,知道 A 群人被診斷出某種癌症、B 群人沒有。但我不會知道他們的名字,也不會知道他們住在哪裡。

但有一類資料,情況很不一樣:原住民社群的語言、文化、傳統知識相關的資料。

當一個瀕危語言的錄音被「公開」之後,誰來決定它怎麼被使用?當一個社群的傳統知識被放上公開資料庫之後,任何企業都可以拿去商業化嗎?在這些情境裡,「開放」可能不是賦權,而是另一次的剝奪。

這就是為什麼在 FAIR Principles 提出的四年後，也就是2020 年。在那一年，一群原住民資料主權研究者提出了一個並行的框架,叫做 CARE Principles。

那是下一篇文章的主題。

那話又說回來了，抽菸到底跟憂鬱症有沒有關係呢？這就留待讀者善用OPEN SCIENCE賦予您的權利去查證囉！

想再讀下去的人

arXiv (arxiv.org) ── 物理、數學、電腦科學、語言學等領域的開放預印本資料庫。
bioRxiv 與 medRxiv ── 生物醫學的對應平台。
OSF (Open Science Framework) (osf.io) ── 整合資料、預先註冊、論文預印本的綜合平台。
Plan S (coalition-s.org) ── 歐洲與多國資助機構推動的開放取用倡議。
Wilkinson, M. D., et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data 3, 160018.

下一篇:當「開放」遇到原住民資料:CARE Principles 是什麼,以及為什麼它和 FAIR 是「並行」而不是「取代」的關係。

原本只是我順手舉的例子。寫完後自己查了一下,結果是真的。當代精神醫學的 Mendelian randomization(孟德爾隨機化)研究支持這個說法,而且吸菸與憂鬱症之間是雙向因果。算是替這篇文章做了一個意外的示範。 ↩