时事分析 | 创新及科技发展 | 2014-06-16 | 《星岛日报》

大数据泡沫



凡事都应有答案。这未必是真理,却是大数据(Big Data)让我们相信的事。科技突破,公私营机构能够轻易收集大量数据。我们逐渐相信,只要从这些繁杂数据淬炼意义,无数谜题将会迎刃而解。政府、商界及学界,对大数据趋之若鹜,智经亦曾追赶潮流,于时事评论介绍大数据概念,列举它在公私营服务的应用潜力。[1]然而正如其他一度兴起的概念,群众愈为之亢奋,便愈容易陷入片面乐观,忽略当中危机。到泡沫爆破,才醒觉当初「谂多咗」。在大数据时代,人类会否重复同样的错误?

数字会说话?

传说中大数据的突破之一,在于不需再纠缠于事件的因果关系,只需探索海量数据呈现的规律,即可作出准确预测。

Google建立的流感趋势预测(Google Flu Trends)[2],正是大数据支持者津津乐道的例子。Google Flu Trends标榜毋须传染病学专业,单凭分析人们以相关字词在Google搜寻的频率增减,便能预测各地流感趋势。其背后假设是人们患病时会上网搜寻流感数据,令相关字词的搜寻量上升,因此只须观察关键词的搜寻率变化,便能预见流感趋势。相较美国疾病控制及预防中心使用各地实验室的数据数据进行分析,Google Flu Trends甚至更为快捷。

然而今年3月刊登的一份论文[3],却对Google Flu Trends的大能提出质疑。该项研究指出,Google Flu Trends在2011至2013年的108个星期中,有100个星期高估流感趋势。另一份研究报告更指出,2012年圣诞节与美国疾病控制及预防中心预测之间的误差高达一倍。[4]纵然Google其后更新运算方式,但误差仍然高达30%。[5]

负责该项研究的学者认为,显著的误差源于Google Flu Trends选取的数据并无经过严谨审视,部分数据虽与流感相关,却与搜寻者所处时空是否爆发流感不甚相干,例如当媒体报道流感肆虐的消息,也会令未有染病的大众担心,带动相关字词的搜寻率上升。[6]由于这些搜寻量与当时当地是否爆发流感并无关联,以其预测流感趋势,自然会高估流感危机。此外,当Google修改其搜寻器系统,或是大众搜索行为转变,亦会令所得数据产生其他象征意义,形成误差。[7]

世事都给数据看透?

从Google Flu Trends的例子可见,纵有论者认为大数据能够自圆其说,取代分析框架[8],但至少在今天,严谨的分析框架仍然不可或缺。以不当默认推论、数据与研究主题不相干,以至取样方法不一,均难以从巨量数据得出可靠结论。

大数据运作与各种新兴科技息息相关,物联网、手机应用、社交网络及搜寻器等等,均为大数据的来源。因此,Google Flu Trends出现的问题,亦可能以不同形式出现在其他方面。

以波士顿市政府早前推出的一项大数据计划为例,当局希望透过鼓励驾驶者安装一个特别设计的手机应用程序,侦测道路上的陷洞,以省却市政府人手巡查的成本,结果却未竟全功。因为从智能电话所得的数据,根本不能网罗所有地区。不错,在年轻、富有及智能手机覆盖率较高的地区,计划成效显著,但在智能手机渗透率不高的区域,侦测工作还是不能由手机代劳。[9] 

取样不够全面,自然无法呈现真相,即使是针对个别人士的数据分析,大数据的「大能」也似受到过分吹捧。例如,有指美国百货公司Target能够透过销售数据得知顾客怀孕(甚至比她的亲人更早),从而及早寄上产妇及婴儿服装的优惠劵,收促销之效。[10]不过,有人质疑Target不过走运,刚好碰上怀孕顾客,因为实际上,就连没有怀孕的顾客,也同样收到优惠劵。再者,除产妇及婴儿服装,Target会同时向顾客奉上不同产品的优惠劵[11],令人怀疑他们只是渔翁撒网,促销多种产品。

人人有需要?

假若大数据的能力不如想象中的顶级超卓,那就引伸了另一问题──企业费巨资设置大数据分析工具,能否获得相应回报?微软发表的技术报告认为,现时企业需要处理的数据量根本不多,一部商业计算机亦能应付,大如雅虎及Facebook等科网巨头,需要同时使用多部强大服务器处理大量数据的机会亦不多,遑论一般企业。[12]哈佛商业评论(Harvard Business Review)也有文章指出,如果企业决策未能做到以事实为本(fact-based),大数据的贡献不会明显。企业与其投资大数据分析工具,不如改革决策过程或组织架构。[13]

私隐无所遁形?

或许大数据的能耐真的受到过分吹捧,但起码有一件事是不容质疑的,就是大数据时代,每分每秒都有大量个人资料落入我们未知的领域。市民在社交网站的一言一行、日常网购的纪录,乃至口袋中的八达通,均是大数据世界的一部分。当政府与企业掌握大量民众日常生活信息,而其用途不受约束,私隐及个人资料的保障,可谓弱不禁风。

就此,美国政府于2012年为对公营部门运用大数据的政策订下愿景[14],总统奥巴马今年1月亦下令研究大数据与个人私隐的关系。有关工作小组5月发表的研究报告[15],将数据分为两类,一为「数码生成」(born digital),指由数码世界生产的数据,用于计算机或数据处理。其二为「模拟生成」(born analog),指于现实收集的数据数据,如闭路电视的影像。以往两类数据壁垒分明,但科技进步,促成数据融合(data fusion),一方面有利经济活动,却也令个人资料更加无所遁形。

为平衡私隐及科技发展,工作小组提出五项建议,例如制订政策时,应审视大数据的使用有否侵犯私隐,而非针对其搜集方式及分析方法,以免窒碍新科技发展。小组又建议政府投资私隐科技、推广私隐教育,并培训数码私隐专家,以应对科技为私隐带来的威胁。不过,报告对美国国家安全局的监控及过度搜集国民资料问题,着墨不多,备受批评。[16]

公开资料不公开?

在香港,个人资料私隐专员去年就政府的《2014数码21信息科技策略》咨询作出响应,当中也有关注到大数据发展对个人资料保障的挑战[17],亦提及上述Target的例子,认为此等行为,实已超出顾客对公司处理私隐的合理期望。

个人资料私隐专员公署去年亦曾发表调查报告,批评一间公司收集公众人士的诉讼及破产数据,再汇编于手机应用程序,供市民查阅,认为行为侵犯个人私隐。[18]公署认为,虽然该公司所收集的数据本已公开,但经程序整合,各项数据一目了然,或会损害当事人社交、就业及教育等机会,阻碍更新人士重投社会。该公司据称拥有多达200多万宗法院诉讼纪录,与理论上的大数据仍有距离,却足以显示数据运用与寻常百姓的生活息息相关。

有权被遗忘?

但另一方面,当我们将私隐的范围定得太阔,又会为信息自由流通带来威胁。以上述的手机程序为例,将本来可供任意查阅的数据整合后发放,是否属于侵犯私隐,已经颇有讨论空间。而早前欧盟法院裁定民众拥有「被遗忘权」(right to be forgotten),要求Google及其他搜索引擎,在不影响公众利益下删除被指有损个人权利的信息,更令人担心「被遗忘权」会成为审查信息的借口。[19]一个可以选择性遗忘的社会,又是否我们乐见的世界?

再者,即使假设某些「被遗忘」的申诉有理,但要落实「被遗忘权」,并不容易。因为提出「被遗忘」,前提是我们知道有甚么个人资料已被记存,而未经我们允许。但实际上,当我们下载手机应用程序、在不同的网站注册,已不知为多少份奉献个人资料的合约条款按下「我接受」。日后即使改变初衷,选择遗忘,也可能无从入手。

数据时代,差不多关乎每一个人。正在立法会审议的《电子健康纪录互通系统条例草案》,便涉及大量病人数据在公私营系统互通的安排。唯有认识并善用,正视数据时代的好与坏,才能促进社会利益,而不被泡沫冲昏头脑。

 

 

1  「数据中心搁置 大数据时代如常运作」,智经研究中心,2013年12月30日。
2   Google Flu Trends, http://www.google.org/flutrends/about/how.html.
3   David Lazer, Ryan Kennedy, Gary King and Alessandro Vespignani, “The Parable of Google Flu: Traps in Big Data Analysis,” Science, Vol. 343, March 14, 2014.
4   “When Google got flu wrong,” Nature, February 13, 2013.
5   David Lazer, Ryan Kennedy, Gary King and Alessandro Vespignani, “Google Flu Trends still appears sick: An evaluation of the 2013-2014 Flu season,” Social Science Research Network Online, March 13, 2014. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2408560
6   同5。
7   同3。
8   “The End of Theory, The data deluge makes the scientific methods obsolete,” Wired Magazine, June 23, 2008, http://archive.wired.com/science/discoveries/magazine/16-07/pb_theory.
9   Kate Crawford, “The Hidden Biases in Big Data,” Harvard Business Review Blog Network, April 1, 2013, http://blogs.hbr.org/2013/04/the-hidden-biases-in-big-data.
10 Tim Harford, “Big Data, Are we making a big mistake?” Financial Times, March 29/ March 30, 2014.
11 同10。
12 Raja Appuswamy, Christos Gkantsidis, Dushyanth Narayanan, Orion Hodson and Antony Rowstron, “Nobody ever got fired for buying a cluster,” Microsoft technical report, January 2, 2013.
13 Jeanne W. Ross, Cynthia M. Beath and Anne Quadgras, “You may not need Big Data after all, Learn how lots of little data can inform everyday decision making”, Harvard Business Review, December 2013.
14 “Obama Administration unveils “Big Data” Initiative: Announces $200 million in new R&D investments,” Office of Science and Technology Policy, Executive Office of the President, Mar 29, 2012.
15 “Report to the President, Big Data and Privacy: A technological perspective,” Executive Office of the President and President’s Council of Advisors on Science and Technology, May 2014.
16 “White House study backs data-gathering,” Financial Times, May 2, 2014.
17 “Submission in response to Public Consultation on 2014 Digital 21 Strategy,” Office of the Privacy Commissioner for Personal Data, Nov 30 2013.
18「Glorious Destiny Investments Limited与汇煌投资有限公司,通过智能手机程序「起你底」向公共领域所收集的公众人士的诉讼及破产资料」,《根据《个人资料(私隐)条例》(第486章)第48(2)条发表的报告报告(编号R13-9744)》,香港个人资料私隐专员公署,2013年8月13日。
19 Jonathan Zittrain, “Don’t Force Google to ‘Forget’,” The New York Times, May 15 2014.