時事分析 | 創新及科技發展 | 2014-06-16 | 《星島日報》

大數據泡沫



凡事都應有答案。這未必是真理,卻是大數據(Big Data)讓我們相信的事。科技突破,公私營機構能夠輕易收集大量數據。我們逐漸相信,只要從這些繁雜數據淬煉意義,無數謎題將會迎刃而解。政府、商界及學界,對大數據趨之若鶩,智經亦曾追趕潮流,於時事評論介紹大數據概念,列舉它在公私營服務的應用潛力。[1]然而正如其他一度興起的概念,群眾愈為之亢奮,便愈容易陷入片面樂觀,忽略當中危機。到泡沫爆破,才醒覺當初「諗多咗」。在大數據時代,人類會否重複同樣的錯誤?

數字會說話?

傳說中大數據的突破之一,在於不需再糾纏於事件的因果關係,只需探索海量數據呈現的規律,即可作出準確預測。

Google建立的流感趨勢預測(Google Flu Trends)[2],正是大數據支持者津津樂道的例子。Google Flu Trends標榜毋須傳染病學專業,單憑分析人們以相關字詞在Google搜尋的頻率增減,便能預測各地流感趨勢。其背後假設是人們患病時會上網搜尋流感資料,令相關字詞的搜尋量上升,因此只須觀察關鍵詞的搜尋率變化,便能預見流感趨勢。相較美國疾病控制及預防中心使用各地實驗室的數據資料進行分析,Google Flu Trends甚至更為快捷。

然而今年3月刊登的一份論文[3],卻對Google Flu Trends的大能提出質疑。該項研究指出,Google Flu Trends在2011至2013年的108個星期中,有100個星期高估流感趨勢。另一份研究報告更指出,2012年聖誕節與美國疾病控制及預防中心預測之間的誤差高達一倍。[4]縱然Google其後更新運算方式,但誤差仍然高達30%。[5]

負責該項研究的學者認為,顯著的誤差源於Google Flu Trends選取的數據並無經過嚴謹審視,部分數據雖與流感相關,卻與搜尋者所處時空是否爆發流感不甚相干,例如當媒體報道流感肆虐的消息,也會令未有染病的大眾擔心,帶動相關字詞的搜尋率上升。[6]由於這些搜尋量與當時當地是否爆發流感並無關聯,以其預測流感趨勢,自然會高估流感危機。此外,當Google修改其搜尋器系統,或是大眾搜索行為轉變,亦會令所得數據產生其他象徵意義,形成誤差。[7]

世事都給數據看透?

從Google Flu Trends的例子可見,縱有論者認為大數據能夠自圓其說,取代分析框架[8],但至少在今天,嚴謹的分析框架仍然不可或缺。以不當預設推論、數據與研究主題不相干,以至取樣方法不一,均難以從巨量數據得出可靠結論。

大數據運作與各種新興科技息息相關,物聯網、手機應用、社交網絡及搜尋器等等,均為大數據的來源。因此,Google Flu Trends出現的問題,亦可能以不同形式出現在其他方面。

以波士頓市政府早前推出的一項大數據計劃為例,當局希望透過鼓勵駕駛者安裝一個特別設計的手機應用程式,偵測道路上的陷洞,以省卻市政府人手巡查的成本,結果卻未竟全功。因為從智能電話所得的數據,根本不能網羅所有地區。不錯,在年輕、富有及智能手機覆蓋率較高的地區,計劃成效顯著,但在智能手機滲透率不高的區域,偵測工作還是不能由手機代勞。[9] 

取樣不夠全面,自然無法呈現真相,即使是針對個別人士的數據分析,大數據的「大能」也似受到過分吹捧。例如,有指美國百貨公司Target能夠透過銷售數據得知顧客懷孕(甚至比她的親人更早),從而及早寄上產婦及嬰兒服裝的優惠劵,收促銷之效。[10]不過,有人質疑Target不過走運,剛好碰上懷孕顧客,因為實際上,就連沒有懷孕的顧客,也同樣收到優惠劵。再者,除產婦及嬰兒服裝,Target會同時向顧客奉上不同產品的優惠劵[11],令人懷疑他們只是漁翁撒網,促銷多種產品。

人人有需要?

假若大數據的能力不如想像中的頂級超卓,那就引伸了另一問題──企業費鉅資設置大數據分析工具,能否獲得相應回報?微軟發表的技術報告認為,現時企業需要處理的數據量根本不多,一部商業電腦亦能應付,大如雅虎及Facebook等科網鉅頭,需要同時使用多部強大伺服器處理大量資料的機會亦不多,遑論一般企業。[12]哈佛商業評論(Harvard Business Review)也有文章指出,如果企業決策未能做到以事實為本(fact-based),大數據的貢獻不會明顯。企業與其投資大數據分析工具,不如改革決策過程或組織架構。[13]

私隱無所遁形?

或許大數據的能耐真的受到過分吹捧,但起碼有一件事是不容質疑的,就是大數據時代,每分每秒都有大量個人資料落入我們未知的領域。市民在社交網站的一言一行、日常網購的紀錄,乃至口袋中的八達通,均是大數據世界的一部分。當政府與企業掌握大量民眾日常生活資訊,而其用途不受約束,私隱及個人資料的保障,可謂弱不禁風。

就此,美國政府於2012年為對公營部門運用大數據的政策訂下願景[14],總統奧巴馬今年1月亦下令研究大數據與個人私隱的關係。有關工作小組5月發表的研究報告[15],將數據分為兩類,一為「數碼生成」(born digital),指由數碼世界生產的數據,用於電腦或數據處理。其二為「模擬生成」(born analog),指於現實收集的數據資料,如閉路電視的影像。以往兩類數據壁壘分明,但科技進步,促成數據融合(data fusion),一方面有利經濟活動,卻也令個人資料更加無所遁形。

為平衡私隱及科技發展,工作小組提出五項建議,例如制訂政策時,應審視大數據的使用有否侵犯私隱,而非針對其搜集方式及分析方法,以免窒礙新科技發展。小組又建議政府投資私隱科技、推廣私隱教育,並培訓數碼私隱專家,以應對科技為私隱帶來的威脅。不過,報告對美國國家安全局的監控及過度搜集國民資料問題,著墨不多,備受批評。[16]

公開資料不公開?

在香港,個人資料私隱專員去年就政府的《2014數碼21資訊科技策略》諮詢作出回應,當中也有關注到大數據發展對個人資料保障的挑戰[17],亦提及上述Target的例子,認為此等行為,實已超出顧客對公司處理私隱的合理期望。

個人資料私隱專員公署去年亦曾發表調查報告,批評一間公司收集公眾人士的訴訟及破產資料,再彙編於手機應用程式,供市民查閱,認為行為侵犯個人私隱。[18]公署認為,雖然該公司所收集的資料本已公開,但經程式整合,各項資料一目了然,或會損害當事人社交、就業及教育等機會,阻礙更新人士重投社會。該公司據稱擁有多達200多萬宗法院訴訟紀錄,與理論上的大數據仍有距離,卻足以顯示數據運用與尋常百姓的生活息息相關。

有權被遺忘?

但另一方面,當我們將私隱的範圍定得太闊,又會為資訊自由流通帶來威脅。以上述的手機程式為例,將本來可供任意查閱的資料整合後發放,是否屬於侵犯私隱,已經頗有討論空間。而早前歐盟法院裁定民眾擁有「被遺忘權」(right to be forgotten),要求Google及其他搜索引擎,在不影響公眾利益下刪除被指有損個人權利的資訊,更令人擔心「被遺忘權」會成為審查資訊的借口。[19]一個可以選擇性遺忘的社會,又是否我們樂見的世界?

再者,即使假設某些「被遺忘」的申訴有理,但要落實「被遺忘權」,並不容易。因為提出「被遺忘」,前提是我們知道有甚麼個人資料已被記存,而未經我們允許。但實際上,當我們下載手機應用程式、在不同的網站註冊,已不知為多少份奉獻個人資料的合約條款按下「我接受」。日後即使改變初衷,選擇遺忘,也可能無從入手。

數據時代,差不多關乎每一個人。正在立法會審議的《電子健康紀錄互通系統條例草案》,便涉及大量病人資料在公私營系統互通的安排。唯有認識並善用,正視數據時代的好與壞,才能促進社會利益,而不被泡沫沖昏頭腦。

 

 

1  「數據中心擱置 大數據時代如常運作」,智經研究中心,2013年12月30日。
2   Google Flu Trends, http://www.google.org/flutrends/about/how.html.
3   David Lazer, Ryan Kennedy, Gary King and Alessandro Vespignani, “The Parable of Google Flu: Traps in Big Data Analysis,” Science, Vol. 343, March 14, 2014.
4   “When Google got flu wrong,” Nature, February 13, 2013.
5   David Lazer, Ryan Kennedy, Gary King and Alessandro Vespignani, “Google Flu Trends still appears sick: An evaluation of the 2013-2014 Flu season,” Social Science Research Network Online, March 13, 2014. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2408560
6   同5。
7   同3。
8   “The End of Theory, The data deluge makes the scientific methods obsolete,” Wired Magazine, June 23, 2008, http://archive.wired.com/science/discoveries/magazine/16-07/pb_theory.
9   Kate Crawford, “The Hidden Biases in Big Data,” Harvard Business Review Blog Network, April 1, 2013, http://blogs.hbr.org/2013/04/the-hidden-biases-in-big-data.
10 Tim Harford, “Big Data, Are we making a big mistake?” Financial Times, March 29/ March 30, 2014.
11 同10。
12 Raja Appuswamy, Christos Gkantsidis, Dushyanth Narayanan, Orion Hodson and Antony Rowstron, “Nobody ever got fired for buying a cluster,” Microsoft technical report, January 2, 2013.
13 Jeanne W. Ross, Cynthia M. Beath and Anne Quadgras, “You may not need Big Data after all, Learn how lots of little data can inform everyday decision making”, Harvard Business Review, December 2013.
14 “Obama Administration unveils “Big Data” Initiative: Announces $200 million in new R&D investments,” Office of Science and Technology Policy, Executive Office of the President, Mar 29, 2012.
15 “Report to the President, Big Data and Privacy: A technological perspective,” Executive Office of the President and President’s Council of Advisors on Science and Technology, May 2014.
16 “White House study backs data-gathering,” Financial Times, May 2, 2014.
17 “Submission in response to Public Consultation on 2014 Digital 21 Strategy,” Office of the Privacy Commissioner for Personal Data, Nov 30 2013.
18「Glorious Destiny Investments Limited與匯煌投資有限公司,通過智能手機程式「起你底」向公共領域所收集的公眾人士的訴訟及破產資料」,《根據《個人資料(私隱)條例》(第486章)第48(2)條發表的報告報告(編號R13-9744)》,香港個人資料私隱專員公署,2013年8月13日。
19 Jonathan Zittrain, “Don’t Force Google to ‘Forget’,” The New York Times, May 15 2014.