開放數據 科研起動


科技及創新 | 2017-11-22 《信報》 下一篇 上一篇

著名科學家牛頓曾言,如果自己比其他人看得遠些,那是因為自己站在巨人的肩膀上。近年世界各地有推廣「開放研究數據」(open research data)的風氣,主張研究人員把研究衍生的數據與同行或公眾分享,多少與牛頓的說法一脈相承。

時至今日,儘管不少研究人員都願意分享研究數據,卻不懂得好好整理相關資料,方便別人使用。另外過往有調查指,部分研究人員其實不願或從沒分享過研究數據。[1]有鑑於此,怎樣鼓勵研究人員分享研究資料,乃至協助他們整理數據,近年成為了學術界關注的問題。由於學術研究往往是我們日常接觸到的新科技、新產品、新藥物、新政策等的起點,基本上與所有人息息相關,因此上述話題,也十分值得普羅大眾關心。

受惠於互聯網長足發展,現今的研究人員若要分享研究數據,可謂輕而易舉。[2]這不僅有利其他研究人員跟進研究,也有助識別出可疑的研究項目。科學期刊《自然》(Nature)去年指出,在1,576名回應調查的研究人員中,有多於七成無法成功「複製」另一名科學家的實驗結果。[3]這裏的「複製」,是指只要其他人以同一方式進行實驗,也可以得出同樣結果。有這個堅實基礎,其他人便可以作進一步研究,以至將研究發現付諸應用,造福社會。[4]

相反,若實驗結果無法「複製」,原先的研究結論便值得商榷。而假如科學界的大部分實驗結果都無法「複製」,情況便令人擔憂。為了讓其他人更易了解實驗的全貌及驗證相關發現,《自然》去年9月開始要求在其刊登的學術文章,需要提供資料說明他人能否及如何取得相關的研究數據,這些數據至少要讓他人對學術文章所宣稱的研究發現作解釋、複製及進一步研究。[5]

本地開放研究數據風氣

在香港,鼓勵研究人員分享研究數據亦非新鮮事。參考大學教育資助委員會(教資會)「主題研究計劃」的申請條件,研究項目統籌者需要在項目完成報告中,提供論文庫或學術期刊網站的超連結,以便公眾取得相關論文。教資會另外提到,獲得資助的研究數據應及時與其他研究人員分享,又鼓勵項目統籌者在項目完成報告中提及存放了研究數據的數據庫,以分享數據。[6]

中央政策組的「公共政策研究資助計劃」以及「策略性公共政策研究資助計劃」,則規定研究所得的實際數據,要在研究項目完成後五年上載到中央政策組網頁,以便製作數據檔案,讓其他人可以使用檔案內的數據集。中央政策組又指共享計劃項目數據,有助發展本地公共政策研究。[7]

大學方面,智經今年9月向本地八間大學查詢公開研究數據的措施或政策[8],並獲嶺南大學及香港中文大學回覆,其中嶺大表示未有類似政策,亦未有收集及保存研究數據的正式平台[9];中大就表示會在教資會的研究項目,執行其對開放數據的要求,並正研究發展開放數據平台。[10]至於另外六間大學,智經未有收到有關回覆。

而根據香港大學的網站介紹,該校已訂立一套管理研究數據及紀錄的政策,並提及研究數據應該按照數據分享和開放獲取原則,供他人使用。網站的介紹又指,研究人員有責任就收集、儲存、使用、重用及獲取研究數據等情況,訂明清晰步驟,而港大則負責提供儲存研究數據所需的服務和設施,以滿足大學政策及研究資助者的相關要求。[11]

海外機構將開放數據視為資助條件

觀乎香港情況,大學的研究人員會否將研究資料公開,看來相當視乎研究資助者的取態。而作為本地學術研究的重要資助來源,教資會及中央政策組主要是以鼓勵形式推動研究人員分享數據,而非硬性規定。

相對而言,海外個別研究資助者對於研究數據是否公開的取態,可說遠為進取。以歐盟歷來最大規模的研究及創新項目、資助額接近800億歐元的Horizon 2020計劃為例[12],現時其項目撥款的條件之一,是研究人員在數據庫上分享研究數據,例如統計資料、實驗結果、問卷調查結果、訪談錄音,並供任何用家免費使用、複製或傳播。研究人員要訂立一個數據管理計劃,解釋項目所生所用的數據,如何供人使用以及如何保存等。[13]

全球知名的生物醫學研究基金惠康信託(Wellcome),則要求其支持的研究項目,相關的研究數據要在論文發表時提供給其他研究人員;若然涉及公共衞生緊急事態,研究人員更必須早於發表前,盡快及廣泛地分享中期及最終研究數據。惠康在作資助決定時,會檢視申請者的管理和分享數據方案。[14]

開放數據有要求

雖然不同的機構都有鼓勵研究人員分享研究數據的政策,不過這事落實起來並非如在社交媒體分享資訊般簡單。同樣是分享,開放研究數據不只是將數據上載,也需要符合多項要求。其中英國皇家學會(The Royal Society)認為,開放的研究數據須具有「易於獲取」(accessible)、「易於評估」(assessable)、「易於明白」(intelligible)、「易於使用」(useable)四種特性[15],又指數據要讓人看得明白,需要附有相關背景資料,例如數據來源、收集日期及方法、數據集使用方法,以及選擇、處理及分析數據的過程等。[16]

數據開放前的整理工夫,不僅涉及額外人力,也需要相關知識,意味開放研究數據不僅「講心」,也要「講金」。就此,一些大學和資助研究機構會提供相關支援。其中香港大學的管理研究數據及紀錄政策提及,該校會協助研究人員取得相關培訓和支援,亦會提供所需資源給負責相關服務、設施和培訓的單位。[17]前面提到的歐盟Horizon 2020項目,則讓研究人員可申報開放研究數據所涉及的開支[18],至於惠康信託就會在研究者聘用數據管理員以及開放數據所涉及的成本等方面,提供資源協助。[19]

開放數據對硬件設施也有一定要求,例如需要一個易於上傳及下載研究數據的平台。幸而現時坊間已經有相關服務的提供者,其中figshare會免費讓研究人員上載研究數據[20],並供人免費下載[21],而用家亦可付費享用進一步的服務。[22]

整理數據的成本多少會影響數據能否順利公開,研究數據涉及的金錢利益亦然。例如獲商業機構出資參與的研究,有時會涉及商業敏感資料,如硬性規定其公開,只會影響商業機構參與研究的意欲。此外,假如數據牽涉個人私隱,或是有其他保密要求[23],相關資料同樣不能隨便公開。

故此,即使是力推開放數據的研究資助者,也不是全無折衷空間。例如歐盟的Horizon 2020計劃雖然預設研究人員要開放研究數據,但也容許研究人員在任何時候選擇退出,而不影響相關研究項目是否獲批。退出理由可以包括研究結果可能有商機、因保安原因需保密、公開會違反私隱規定,或者公開數據可能會令項目無法達到主要目標等。[24]

其實退一步想,當其他人的研究數據唾手可得,對科研發展是好是壞,也沒有必然的結論。因為當大部分研究人員都放棄「原創」,只仰賴他人數據,亦有令科研倒退的可能。[25]要減少開放研究數據對研究動機的負面影響,英國一些研究組織認為可以讓收集數據者在一段合理時間內獨自使用數據,期限按不同學科領域而定。[26]

今年《施政報告》提出了不少推動香港科研的措施,包括要在今屆政府任期內讓本地研發總開支佔本地生產總值的比率提升一倍,以及推出訓練及吸引更多科技人才的計劃等。[27]在加錢添人以外,如果能透過鼓勵開放研究數據,推動更多的跟進研究,對於香港的科研發展,相信也有助益。

1 "Open data: The Researcher Perspective," Elsevier, Centre for Science and Technology Studies, Universiteit Leiden, April 2017, pp. 21 and 23.
2 "OECD Science, Technology and Industry Policy Papers No. 25: Making Open Science a Reality," OECD Publishing, October 2015, p. 9.
3 Monya Baker,"1,500 scientists lift the lid of reproducibility," Nature, July 28, 2016, http://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970.
4 "Opinion: The science ‘reproducibility crisis’ – and what can be done about it," University of Cambridge, http://www.cam.ac.uk/research/discussion/opinion-the-science-reproducibility-crisis-and-what-can-be-done-about-it, last modified March 20, 2017; Tom Feilden, "Most scientists 'can't replicate studies by their peers'" BBC, February 2017, http://www.bbc.com/news/science-environment-39054778.
5 "Announcement: Where are the data?" Nature, September 7, 2016, http://www.nature.com/news/announcement-where-are-the-data-1.20541.
6 "Theme-based Research Scheme 2018/19 (Eighth Round): Call for Preliminary Proposals," University Grants Committee, http://www.ugc.edu.hk/eng/rgc/about/events/theme/callpreprop8.html, last modified July 31, 2017.
7 「公共政策研究資助計劃及策略性公共政策研究資助計劃:申請須知」,中央政策組,2017年10月,第13頁。
8 八間大學分別為香港大學、香港中文大學、香港科技大學、香港理工大學、香港城市大學、香港浸會大學、嶺南大學、香港教育大學。
9 根據嶺南大學對智經查詢的回覆。
10 根據香港中文大學對智經查詢的回覆。
11 "Research Data and Records Management," Research Services, The University of Hong Kong, http://www.rss.hku.hk/integrity/research-data-records-management, last modified November 9, 2017.
12 "What is Horizon 2020?" European Commission, https://ec.europa.eu/programmes/horizon2020/en/what-horizon-2020, accessed September 28, 2017.
13 "Guidelines on Implementation of Open Access to Scientific Publications and Research Data in projects supported by the European Research Council under Horizon 2020 Version 1.1," European Research Council, April 21, 2017, pp. 3 and 6; "Guidelines to the Rules on Open Access to Scientific Publications and Open Access to Research Data in Horizon 2020 Version 3.2," European Commission Directorate-General for Research & Innovation, March 21, 2017, p. 4.
14 "Policy on data, software and materials management and sharing," Wellcome, https://wellcome.ac.uk/funding/managing-grant/policy-data-software-materials-management-and-sharing, last modified July 10, 2017.
15 "Science as an open enterprise," The Royal Society, June 2012, pp. 12, 14 and 15.
16 同15,第14頁。
17 同11。
18 "H2020 Online Manual: Data management," European Commission, http://ec.europa.eu/research/participants/docs/h2020-funding-guide/cross-cutting-issues/open-access-data-management/data-management_en.htm, accessed October 17, 2017.
19 “Developing an outputs management plan,” Wellcome, https://wellcome.ac.uk/funding/managing-grant/developing-outputs-management-plan, accessed October 17, 2017.
20 "What is figshare?" figshare Support, https://support.figshare.com/support/solutions/articles/6000061086-what-is-figshare-, last modified July 25, 2017; "How to upload and publish my data," figshare Support, https://support.figshare.com/support/solutions/articles/6000073148-how-to-upload-and-publish-my-data, last modified August 15, 2017.
21 "Preservation Policies," figshare Support, https://support.figshare.com/support/solutions/articles/6000079077-preservation-policies, last modified April 1, 2016.
22 "figshare for institutions," figshare, https://figshare.com/services/institutions, accessed October 18, 2017.
23 "Concordat on Open Research Data," Higher Education Funding Council For England, Research Councils UK, Universities UK, Wellcome, July 28, 2016, p. 9.
24 "H2020 Online Manual: Open access," European Commission, http://ec.europa.eu/research/participants/docs/h2020-funding-guide/cross-cutting-issues/open-access-data-management/open-access_en.htm, accessed October 18, 2017.
25 同23,第12頁。
26 同23,第12頁。
27 《行政長官2017年施政報告》,行政長官辦公室,2017年10月11日,第69至72段。