时事分析 | 创新及科技发展 | 2017-11-22 | 《信报》

开放数据 科研起动



著名科学家牛顿曾言,如果自己比其他人看得远些,那是因为自己站在巨人的肩膀上。近年世界各地有推广「开放研究数据」(open research data)的风气,主张研究人员把研究衍生的数据与同行或公众分享,多少与牛顿的说法一脉相承。

时至今日,尽管不少研究人员都愿意分享研究数据,却不懂得好好整理相关资料,方便别人使用。另外过往有调查指,部分研究人员其实不愿或从没分享过研究数据。[1]有鉴于此,怎样鼓励研究人员分享研究资料,乃至协助他们整理数据,近年成为了学术界关注的问题。由于学术研究往往是我们日常接触到的新科技、新产品、新药物、新政策等的起点,基本上与所有人息息相关,因此上述话题,也十分值得普罗大众关心。

受惠于互联网长足发展,现今的研究人员若要分享研究数据,可谓轻而易举。[2]这不仅有利其他研究人员跟进研究,也有助识别出可疑的研究项目。科学期刊《自然》(Nature)去年指出,在1,576名回应调查的研究人员中,有多于七成无法成功「复制」另一名科学家的实验结果。[3]这里的「复制」,是指只要其他人以同一方式进行实验,也可以得出同样结果。有这个坚实基础,其他人便可以作进一步研究,以至将研究发现付诸应用,造福社会。[4]

相反,若实验结果无法「复制」,原先的研究结论便值得商榷。而假如科学界的大部分实验结果都无法「复制」,情况便令人担忧。为了让其他人更易了解实验的全貌及验证相关发现,《自然》去年9月开始要求在其刊登的学术文章,需要提供资料说明他人能否及如何取得相关的研究数据,这些数据至少要让他人对学术文章所宣称的研究发现作解释、复制及进一步研究。[5]

本地开放研究数据风气

在香港,鼓励研究人员分享研究数据亦非新鲜事。参考大学教育资助委员会(教资会)「主题研究计划」的申请条件,研究项目统筹者需要在项目完成报告中,提供论文库或学术期刊网站的超连结,以便公众取得相关论文。教资会另外提到,获得资助的研究数据应及时与其他研究人员分享,又鼓励项目统筹者在项目完成报告中提及存放了研究数据的数据库,以分享数据。[6]

中央政策组的「公共政策研究资助计划」以及「策略性公共政策研究资助计划」,则规定研究所得的实际数据,要在研究项目完成后五年上载到中央政策组网页,以便制作数据档案,让其他人可以使用档案内的数据集。中央政策组又指共享计划项目数据,有助发展本地公共政策研究。[7]

大学方面,智经今年9月向本地八间大学查询公开研究数据的措施或政策[8],并获岭南大学及香港中文大学回覆,其中岭大表示未有类似政策,亦未有收集及保存研究数据的正式平台[9];中大就表示会在教资会的研究项目,执行其对开放数据的要求,并正研究发展开放数据平台。[10]至于另外六间大学,智经未有收到有关回覆。

而根据香港大学的网站介绍,该校已订立一套管理研究数据及纪录的政策,并提及研究数据应该按照数据分享和开放获取原则,供他人使用。网站的介绍又指,研究人员有责任就收集、储存、使用、重用及获取研究数据等情况,订明清晰步骤,而港大则负责提供储存研究数据所需的服务和设施,以满足大学政策及研究资助者的相关要求。[11]

海外机构将开放数据视为资助条件

观乎香港情况,大学的研究人员会否将研究资料公开,看来相当视乎研究资助者的取态。而作为本地学术研究的重要资助来源,教资会及中央政策组主要是以鼓励形式推动研究人员分享数据,而非硬性规定。

相对而言,海外个别研究资助者对于研究数据是否公开的取态,可说远为进取。以欧盟历来最大规模的研究及创新项目、资助额接近800亿欧元的Horizo​​n 2020计划为例[12],现时其项目拨款的条件之一,是研究人员在数据库上分享研究数据,例如统计资料、实验结果、问卷调查结果、访谈录音,并供任何用家免费使用、复制或传播。研究人员要订立一个数据管理计划,解释项目所生所用的数据,如何供人使用以及如何保存等。[13]

全球知名的生物医学研究基金惠康信托(Wellcome),则要求其支持的研究项目,相关的研究数据要在论文发表时提供给其他研究人员;若然涉及公共卫生紧急事态,研究人员更必须早于发表前,尽快及广泛地分享中期及最终研究数据。惠康在作资助决定时,会检视申请者的管理和分享数据方案。[14]

开放数据有要求

虽然不同的机构都有鼓励研究人员分享研究数据的政策,不过这事落实起来并非如在社交媒体分享资讯般简单。同样是分享,开放研究数据不只是将数据上载,也需要符合多项要求。其中英国皇家学会(The Royal Society)认为,开放的研究数据须具有「易于获取」(accessible)、「易于评估」(assessable)、「易于明白」(intelligible)、「易于使用」(useable)四种特性[15],又指数据要让人看得明白,需要附有相关背景资料,例如数据来源、收集日期及方法、数据集使用方法,以及选择、处理及分析数据的过程等。[16]

数据开放前的整理工夫,不仅涉及额外人力,也需要相关知识,意味开放研究数据不仅「讲心」,也要「讲金」。就此,一些大学和资助研究机构会提供相关支援。其中香港大学的管理研究数据及纪录政策提及,该校会协助研究人员取得相关培训和支援,亦会提供所需资源给负责相关服务、设施和培训的单位。[17]前面提到的欧盟Horizo​​n 2020项目,则让研究人员可申报开放研究数据所涉及的开支[18],至于惠康信托就会在研究者聘用数据管理员以及开放数据所涉及的成本等方面,提供资源协助。[19]

开放数据对硬件设施也有一定要求,例如需要一个易于上传及下载研究数据的平台。幸而现时坊间已经有相关服务的提供者,其中figshare会免费让研究人员上载研究数据[20],并供人免费下载[21],而用家亦可付费享用进一步的服务。[22]

整理数据的成本多少会影响数据能否顺利公开,研究数据涉及的金钱利益亦然。例如获商业机构出资参与的研究,有时会涉及商业敏感资料,如硬性规定其公开,只会影响商业机构参与研究的意欲。此外,假如数据牵涉个人私隐,或是有其他保密要求[23],相关资料同样不能随便公开。

故此,即使是力推开放数据的研究资助者,也不是全无折衷空间。例如欧盟的Horizo​​n 2020计划虽然预设研究人员要开放研究数据,但也容许研究人员在任何时候选择退出,而不影响相关研究项目是否获批。退出理由可以包括研究结果可能有商机、因保安原因需保密、公开会违反私隐规定,或者公开数据可能会令项目无法达到主要目标等。[24]

其实退一步想,当其他人的研究数据唾手可得,对科研发展是好是坏,也没有必然的结论。因为当大部分研究人员都放弃「原创」,只仰赖他人数据,亦有令科研倒退的可能。[25]要减少开放研究数据对研究动机的负面影响,英国一些研究组织认为可以让收集数据者在一段合理时间内独自使用数据,期限按不同学科领域而定。[26]

今年《施政报告》提出了不少推动香港科研的措施,包括要在今届政府任期内让本地研发总开支占本地生产总值的比率提升一倍,以及推出训练及吸引更多科技人才的计划等。 [27]在加钱添人以外,如果能透过鼓励开放研究数据,推动更多的跟进研究,对于香港的科研发展,相信也有助益。

1 "Open data: The Researcher Perspective," Elsevier, Centre for Science and Technology Studies, Universiteit Leiden, April 2017, pp. 21 and 23.
2 "OECD Science, Technology and Industry Policy Papers No. 25: Making Open Science a Reality," OECD Publishing, October 2015, p. 9.
3 Monya Baker,"1,500 scientists lift the lid of reproducibility," Nature, July 28, 2016, http://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970.
4 "Opinion: The science ‘reproducibility crisis’ – and what can be done about it," University of Cambridge, http://www.cam.ac.uk/research/discussion/opinion-the-science-reproducibility-crisis-and-what-can-be-done-about-it, last modified March 20, 2017; Tom Feilden, "Most scientists 'can't replicate studies by their peers'" BBC, February 2017, http://www.bbc.com/news/science-environment-39054778.
5 "Announcement: Where are the data?" Nature, September 7, 2016, http://www.nature.com/news/announcement-where-are-the-data-1.20541.
6 "Theme-based Research Scheme 2018/19 (Eighth Round): Call for Preliminary Proposals," University Grants Committee, http://www.ugc.edu.hk/eng/rgc/about/events/theme/callpreprop8.html, last modified July 31, 2017.
7 「公共政策研究资助计划及策略性公共政策研究资助计划:申请须知」,中央政策组,2017年10月,第13页。
8 八间大学分别为香港大学、香港中文大学、香港科技大学、香港理工大学、香港城市大学、香港浸会大学、岭南大学、香港教育大学。
9 根据岭南大学对智经查询的回复。
10 根据香港中文大学对智经查询的回复。
11 "Research Data and Records Management," Research Services, The University of Hong Kong, http://www.rss.hku.hk/integrity/research-data-records-management, last modified November 9, 2017.
12 "What is Horizon 2020?" European Commission, https://ec.europa.eu/programmes/horizon2020/en/what-horizon-2020, accessed September 28, 2017.
13 "Guidelines on Implementation of Open Access to Scientific Publications and Research Data in projects supported by the European Research Council under Horizon 2020 Version 1.1," European Research Council, April 21, 2017, pp. 3 and 6; "Guidelines to the Rules on Open Access to Scientific Publications and Open Access to Research Data in Horizon 2020 Version 3.2," European Commission Directorate-General for Research & Innovation, March 21, 2017, p. 4.
14 "Policy on data, software and materials management and sharing," Wellcome, https://wellcome.ac.uk/funding/managing-grant/policy-data-software-materials-management-and-sharing, last modified July 10, 2017.
15 "Science as an open enterprise," The Royal Society, June 2012, pp. 12, 14 and 15.
16 同15,第14页。
17 同11。
18 "H2020 Online Manual: Data management," European Commission, http://ec.europa.eu/research/participants/docs/h2020-funding-guide/cross-cutting-issues/open-access-data-management/data-management_en.htm, accessed October 17, 2017.
19 “Developing an outputs management plan,” Wellcome, https://wellcome.ac.uk/funding/managing-grant/developing-outputs-management-plan, accessed October 17, 2017.
20 "What is figshare?" figshare Support, https://support.figshare.com/support/solutions/articles/6000061086-what-is-figshare-, last modified July 25, 2017; "How to upload and publish my data," figshare Support, https://support.figshare.com/support/solutions/articles/6000073148-how-to-upload-and-publish-my-data, last modified August 15, 2017.
21 "Preservation Policies," figshare Support, https://support.figshare.com/support/solutions/articles/6000079077-preservation-policies, last modified April 1, 2016.
22 "figshare for institutions," figshare, https://figshare.com/services/institutions, accessed October 18, 2017.
23 "Concordat on Open Research Data," Higher Education Funding Council For England, Research Councils UK, Universities UK, Wellcome, July 28, 2016, p. 9.
24 "H2020 Online Manual: Open access," European Commission, http://ec.europa.eu/research/participants/docs/h2020-funding-guide/cross-cutting-issues/open-access-data-management/open-access_en.htm, accessed October 18, 2017.
25 同23,第12页。
26 同23,第12页。
27 《行政长官2017年施政报告》,行政长官办公室,2017年10月11日,第69至72段。