時事分析 | 公共行政及法制 | 2016-09-15 | 《信報》

把政府數據全放上網 為何還稱不上開放?



最近台灣行政院延攬年僅35歲的網絡創業家唐鳳擔任「政務委員」一職,希望借助他過去在開放政府、數位產業方面的長才,為各政府部門建立對外溝通的平台。[1]唐鳳學歷雖只有初中,卻是曾經擔任蘋果公司顧問的電腦天才[2],又參與過「零時政府」(g0v)社群,提倡「開源」概念,號召群眾把難讀難懂的政府資料進行視覺化處理[3],如政府預算[4]、環境儀表板[5]、急重症醫院病床數[6]等等。

這種民間「由下而上」改造政府的成果,也許亦是台灣在最新全球開放數據指數(The Global Open Data Index)名列第一的重要原因。[7]唐鳳曾以「聯繫者」自許,即致力於把兩個互不相識的社群用一種互相能懂的語言聯繫起來[8],就「人民」──「政府」這個面向而言,就是如何把政府的數據用更方便、直接的途徑向廣大群眾呈現,然後集思廣益,從數據發掘改善公共服務的方法。

在香港,資訊科技總監辦公室在2011年成立資料一線通(Data.One)網站[9],同樣有開放數據的宏願。財政司司長在2015至2016年度的《財政預算案》中宣布,會以數碼格式免費發放公共資料[10],而資料一線通亦於去年3月進行革新,網域改為現址Data.Gov.HK。[11]可見政府確有一番雄心壯志,欲為橫亙在人民與政府之間的「數據鴻溝」搭建橋樑。其成效如何?在技術上是否有值得改善的地方?都值得公眾關注。

所謂「政府開放數據」,是指政府把一些範疇,例如交通事故紀錄、各區犯罪數字資料開放予公眾進行大數據分析。所謂大數據,除了如字面意思的「大量資訊」外,尚有快速處理以及數據多樣性的要求。[12]換言之,單開放資料是不夠的,因為數據之海量,必須配搭能夠被軟件快速處理的格式發布;而數據多樣,則需要通過不同數據的交換、整合和分析,才能發現新的知識和價值。[13]

有助發掘社會真相

從過去的成功應用實例,或能更具體地理解上述概念。美國交通安全管理局是美國政府最早開始大規模收集數據的部門之一,在1966年交通事故死亡人數突破五萬人後,該局根據當時的《高速公路安全法》(Highway Safety Act),建立了「交通事故死亡分析報告系統」,開始在全國收集交通事故的死亡記錄[14],再配合作多樣性的數據,例如不同時間(月份、星期、時刻)、天氣、事故原因、地區、路況、車種、傷亡人員(年齡、性別及司乘)等等分門別類,進行比較分析,讓許多交通意外的內在規律,循着數據「重見天日」。[15]

例如透過數據的比較分析,局方發現某個州發生車輛右側碰撞的比例,每年都高於其他州,經調查後發現「真兇」在於該州公路的路邊小斜坡較其他州長,導致駕駛員注意力分散。又如從1980開始,個別州開始規定駕駛人員必須佩戴安全帶,但隨後收集到的數據卻表明,實施同樣規定的州,死亡率的下降幅度不盡相同。其中降幅較明顯的州,警察有權力隨時截停車輛,以檢查司乘人員是否佩戴了安全帶;而效果不明顯的,則規定警察只能在以其他理由截停車輛時,順便檢查車上的人員是否佩戴了安全帶。這個發現,後來引發多個州改變執法方式。[16]

開放有助集思廣益

從上述例子,不難看出大數據的妙用。這也部分解釋了美國政府為何會於2009年上線發布Data.Gov網站,作為政府各部門的數據索引庫[17],促使更多機關開放具價值的數據,再透過集思廣益,在海量數據中披沙揀金。例如有程式員透過政府的開放數據,開發一項名數據混搭器(Datamasher.org)的應用程式,讓用戶選擇需要整合對比的公共數據組,然後產生以地圖為基礎的數據分析。

其中有名用戶以全美每個州為基準,整合了每百萬人口的罪案數目和各州居民擁有武器的比例兩組數據,結果卻發現華盛頓居民的槍支擁有率為1.9%,遠遠低於全國平均水平,但其每百萬人口的罪案數卻為1,414宗,居全國第一。又如密西西比州的槍支擁有率為11.1%,居全國第二,但其每百萬人口的罪案數卻僅為291宗,在全國處於較低水平。[18]雖然影響罪案數字的因素甚多,上述數字並不足以反映任何因果關係,但如果我們直覺認為美國人合法持槍必然導致犯罪增多,這些數據卻能帶來一些反思。

資料共享前需要整合

面對「大數據」的浪潮,港府自然不會甘為人後。然而「資料一線通」自推出迄今,批評亦如影隨形、未絕於耳。例如氣象部分只是把香港天文台網頁的資料搬字過紙[19];數據與現存網站或手機程式提供的資料重疊[20];數據絕大部分為試算表、PDF或甚至為原始檔[21];資料價值無關痛癢,提供如港鐵車站和車務資料、公廁和自修室地點、警隊嘉許獎項及感謝信等等[22]

平心而論,這些批評有可取之處,例如數據若非「機讀格式」(即不依賴人手而透過軟件便可直接讀取的數據格式),確會為後續編寫應用程式帶來障礙,失去激發民間創意的意義。因此政府「開放數據」並非僅僅止於「披露」,還必須提供外界易於整合的數據格式。業界對於開放數據有所謂「五星」準則,即使數據持有者「開放授權」其實亦只符合最低的一星標準,其典型就是PDF檔案格式,上望還有XLS、CSV、RDF及LOD等更佳選擇。[23]

資料來源:http://5stardata.info/

以五星準則查核現時「資料一線通」網站上的數據集,會發現數據中並無符合四星或五星的檔案格式,最高評級只有到正式開放格式的CSV檔,其程度是可以把數據輸入去其他應用程式,然而數量亦僅有45個數據集[24],或值得當局跟進。

然而,上述有些批評亦誤解了網站性質。上文曾提到美國Data.Gov的定位是數據索引庫,數據仍由各個部門負責保存和維護[25],因此把政府資料「搬字過紙」自然亦無不可。至於資料重疊和資料價值問題上,既然網站目的本就是要把數據儘量呈現給用戶各取所需,要如何取用不同的版本和形式進行組合,可交由使用者自行決定。此外,價值亦只是一個主觀的定義,例如在豐田汽車因油門踏板阻滯問題而發生召回事件前,其油門數據乏人問津,但事故發生後即便是同樣一批數據,價值卻產生變化。[26]因此有些數據看似「卑之無甚高論」,但他朝會否一鳴驚人,亦未可知。

用多元化歷史數據 作多角度分析

除了改善檔案格式,提高使用效率外,上文已提及「多樣性」對於數據交換、整合和分析的重要性,例如就「交通意外」這個範疇,完善的數據集不應只包括意外數字,也應提供其他相關數據,例如事故原因、時間、天氣、地區、路況、車種和傷亡人員等,以方便公眾作有系統的分析。然而在「資料一線通」當中,與交通意外相關的資源卻僅有「特別交通消息」和「交通情況快拍圖像」等連結和圖片[27],較難作多方面的分析。

雖然統計處有提供「香港道路交通意外統計」的網頁連結[28],但資料並不完整,反而自行翻查運輸署的網頁,才找到歷年的道路交通意外統計[29],包括按年齡、道路使用者、性別、傷勢情況、車輛類別等相關數字[30],但格式仍僅止於PDF和XLS類別。這些具多樣性的資料若能在「資料一線通」整合,並以更高評級的數據格式呈現,相信會更有利集合民間智慧,作出過去意想不到的實用分析。

在多樣性以外,於大數據而言,詳盡的分析往往需要歷史數據,但一些數據例如天氣,「資料一線通」暫時只提供實時性資料。若參考Data.Gov上線之後由美國交通部開發的航班延誤分析系統Flyontime.us,用戶可藉其看到不同天氣、日期、時段、航空公司以及航班等各種條件下,飛機平均延誤時間的歷史數據明細[31],以推算某些航班能否準時抵達,例如根據該系統的分析,2011年波士頓至紐約航線在天氣良好的情況下,多數航班會提前五分鐘到達,下雪天的平均延誤時間為七分鐘,至於雷雨天則平均延誤兩分鐘。[32]

由此可見,搭建平台只是第一步,集合多樣、具歷史性的數據,並轉化為軟件能夠直接讀取的格式,才是真真正正的「開放」。這未必需要像唐鳯一樣的奇才,卻需要其自許「聯繫者」的氣魄。

1 「唐鳳入閣 林全:和其他政委不一樣」,取自自由時報網站:http://news.ltn.com.tw/news/business/breakingnews/1806158,最後更新日期2016年8月25日。
2 「35歲的唐鳳入閣 成為最年輕的政委」,取自天下雜誌網站:http://www.cw.com.tw/article/article.action?id=5077008&utm_source=Facebook&utm_medium=Social&utm_campaign=Daily#,最後更新日期2016年6月21日。
3 「走進台灣「零時政府」,他們改變了什麼?」,取自端傳媒網站:https://theinitium.com/article/20160601-taiwan-g0v/,最後更新日期2016年6月1日。
4 「中央政府總預算」,取自g0v網站:http://budget.g0v.tw/budget,查詢日期2016年8月26日。
5 「數據」,取自g0v網站:http://env.g0v.tw/air/,查詢日期2016年8月26日。
6 「全國重度級急救責任醫院急診即時訊息」,取自g0v網站:http://er.mohw.g0v.tw/#/dashboard/file/default.json,查詢日期2016年8月26日。
7 "Place overview," Global Open Data Index, http://index.okfn.org/place/, accessed July 28, 2016.
8 同2。
9 「Data. One資料質素參差 警務處公開感謝信當數據」,取自香港01網站:http://www.hk01.com/港聞/18147/Data-One資料質素參差-警務處公開感謝信當數據,最後更新日期2016年6月14日。
10 「預算案演辭」,取自政府財政預算案網站:http://www.budget.gov.hk/2015/chi/budget10.html,最後更新日期2015年2月25日。
11 「常見問題」,取自資料一線通網站:https://data.gov.hk/tc/faq,查詢日期2016年7月28日。
12 「大數據資料科學」。取自國立臺灣大學統計教學中心網站:http://www.statedu.ntu.edu.tw/bigdata/index.asp,查詢日期2016年8月8日。
13 涂子沛,《大數據:數據革命如何改變政府、商業與我們的生活》(香港:香港中和出版有限公司,2013年),第75頁。
14 同13,第84頁。
15 同13,第87至88頁。
16 同13,第88頁。
17 同13,第222至223頁。
18 同13,第232至233頁。
19 〈探射燈:小政府扮大數據〉,《東方日報》,2015年11月2日,A04頁。
20 同19。
21 〈亞洲區首度引進Map in Learning 地圖學習〉,《e-zone》,2016年5月5日,P038-040頁;「服務業統計摘要」,取自資料一線通網站:https://data.gov.hk/tc-data/dataset/hk-censtatd-tablechart-ssd,查詢日期2016年7月28日。
22 〈沒有開放數據哪有智慧城市〉,《明報》,2016年4月9日,B10頁; 「Data. One資料質素參差 警務處公開感謝信當數據」,取自香港01網站:http://www.hk01.com/港聞/18147/Data-One資料質素參差-警務處公開感謝信當數據,最後更新日期2016年6月14日。
23 "5 ★ OPEN DATA," 5stardata, http://5stardata.info/, accessed August 8, 2016.
24 「CSV」。取自資料一線通網站:https://data.gov.hk/tc-data/dataset?res_format=CSV&page=3,查詢日期2016年8月8日。
25 同13,第222頁。
26 同13,第221至222頁。
27 「運輸」,取自資料一線通網站:https://data.gov.hk/tc-data/category/transport?organization=hk-td,查詢日期2016年7月28日。
28 「香港道路交通意外統計(繁體中文) (包括附帶的Excel檔案)」。取自資料一線通網站:https://data.gov.hk/tc-data/dataset/hk-censtatd-feature-fa-transport/resource/fa34daa9-52dd-46aa-8df2-6be6faccfcd6,查詢日期2016年8月8日。
29 「道路交通意外統計」,取自運輸署網站:http://www.td.gov.hk/tc/road_safety/road_traffic_accident_statistics/index.html,查詢日期2016年7月28日。
30 「二零一五年」,取自運輸署網站:http://www.td.gov.hk/tc/road_safety/road_traffic_accident_statistics/2015/index.html,查詢日期2016年7月28日。
31 同13,第226頁。
32 同13,第227頁。