时事分析 | 公共行政及法制 | 2016-09-15 | 《信报》

把政府数据全放上网 为何还称不上开放?



最近台湾行政院延揽年仅35岁的网络创业家唐凤担任「政务委员」一职,希望借助他过去在开放政府、数位产业方面的长才,为各政府部门建立对外沟通的平台。 [1]唐凤学历虽只有初中,却是曾经担任苹果公司顾问的电脑天才[2],又参与过「零时政府」(g0v)社群,提倡「开源」概念,号召群众把难读难懂的政府资料进行视觉化处理[3],如政府预算[4]、环境仪表板[5]、急重症医院病床数[6]等等。

这种民间「由下而上

」改造政府的成果,也许亦是台湾在最新全球开放数据指数(The Global Open Data Index)名列第一的重要原因。 [7]唐凤曾以「联系者」自许,即致力于把两个互不相识的社群用一种互相能懂的语言联系起来[8] ,就「人民」──「政府」这个面向​​而言,就是如何把政府的数据用更方便、直接的途径向广大群众呈现,然后集思广益,从数据发掘改善公共服务的方法。

 

在香港,资讯科技总监办公室在2011年成立资料一线通(Data.One)网站[9],同样有开放数据的宏愿。财政司司长在2015至2016年度的《财政预算案》中宣布,会以数码格式免费发放公共资料[10],而资料一线通亦于去年3月进行革新,网域改为现址Data.Gov.HK。 [11]可见政府确有一番雄心壮志,欲为横亘在人民与政府之间的「数据鸿沟」搭建桥梁。其成效如何?在技​​术上是否有值得改善的地方?都值得公众关注。

所谓「政府开放数据」,是指政府把一些​​范畴,例如交通事故纪录、各区犯罪数字资料开放予公众进行大数据分析。所谓大数据,除了如字面意思的「大量资讯」外,尚有快速处理以及数据多样性的要求。 [12]换言之,单开放资料是不够的,因为数据之海量,必须配搭能够被软件快速处理的格式发布;而数据多样,则需要通过不同数据的交换、整合和分析,才能发现新的知识和价值。 [13]

有助发掘社会真相

从过去的成功应用实例,或能更具体地理解上述概念。美国交通安全管理局是美国政府最早开始大规模收集数据的部门之一,在1966年交通事故死亡人数突破五万人后,该局根据当时的《高速公路安全法》(Highway Safety Act),建立了「交通事故死亡分析报告系统」,开始在全国收集交通事故的死亡记录[14],再配合作多样性的数据,例如不同时间(月份、星期、时刻)、天气、事故原因、地区、路况、车种、伤亡人员(年龄、性别及司乘)等等分门别类,进行比较分析,让许多交通意外的内在规律,循着数据「重见天日」。 [15]

例如透过数据的比较分析,局方发现某个州发生车辆右侧碰撞的比例,每年都高于其他州,经调查后发现「真凶」在于该州公路的路边小斜坡较其他州长,导致驾驶员注意力分散。又如从1980开始,个别州开始规定驾驶人员必须佩戴安全带,但随后收集到的数据却表明,实施同样规定的州,死亡率的下降幅度不尽相同。其中降幅较明显的州,警察有权力随时截停车辆,以检查司乘人员是否佩戴了安全带;而效果不明显的,则规定警察只能在以其他理由截停车辆时,顺便检查车上的人员是否佩戴了安全带。这个发现,后来引发多个州改变执法方式。 [16]

开放有助集思广益

从上述例子,不难看出大数据的妙用。这也部分解释了美国政府为何会于2009年上线发布Data.Gov网站,作为政府各部门的数据索引库[17],促使更多机关开放具价值的数据,再透过集思广益,在海量数据中披沙拣金。例如有程式员透过政府的开放数据,开发一项名数据混搭器(Datamasher.org)的应用程式,让用户选择需要整合对比的公共数据组,然后产生以地图为基础的数据分析。

其中有名用户以全美每个州为基准,整合了每百万人口的罪案数目和各州居民拥有武器的比例两组数据,结果却发现华盛顿居民的枪支拥有率为1.9%,远远低于全国平均水平,但其每百万人口的罪案数却为1,414宗,居全国第一。又如密西西比州的枪支拥有率为11.1%,居全国第二,但其每百万人口的罪案数却仅为291宗,在全国处于较低水平。 [18]虽然影响罪案数字的因素甚多,上述数字并不足以反映任何因果关系,但如果我们直觉认为美国人合法持枪必然导致犯罪增多,这些数据却能带来一些反思。

资料共享前需要整合

面对「大数据」的浪潮,港府自然不会甘为人后。然而「资料一线通」自推出迄今,批评亦如影随形、未绝于耳。例如气象部分只是把香港天文台网页的资料搬字过纸[19];数据与现存网站或手机程式提供的资料重叠[20];数据绝大部分为试算表、PDF或什至为原始档[21];资料价值无关痛痒,提供如港铁车站和车务资料、公厕和自修室地点、警队嘉许奖项及感谢信等等[22]

平心而论,这些批评有可取之处,例如数据若非「机读格式」(即不依赖人手而透过软件便可直接读取的数据格式),确会为后续编写应用程式带来障碍,失去激发民间创意的意义。因此政府「开放数据」并非仅仅止于「披露」,还必须提供外界易于整合的数据格式。业界对于开放数据有所谓「五星」准则,即使数据持有者「开放授权」其实亦只符合最低的一星标准,其典型就是PDF档案格式,上望还有XLS、CSV、RDF及LOD等更佳选择。 [23]

资料来源:http:/ /5stardata.info/

以五星准则查核现时「资料一线通」网站上的数据集,会发现数据中并无符合四星或五星的档案格式,最高评级只有到正式开放格式的CSV档,其程度是可以把数据输入去其他应用程式,然而数量亦仅有45个数据集[24],或值得当局跟进。

然而,上述有些批评亦误解了网站性质。上文曾提到美国Data.Gov的定位是数据索引库,数据仍由各个部门负责保存和维护[25],因此把政府资料「搬字过纸」自然亦无不可。至于资料重叠和资料价值问题上,既然网站目的本就是要把数据尽量呈现给用户各取所需,要如何取用不同的版本和形式进行组合,可交由使用者自行决定。此外,价值亦只是一个主观的定义,例如在丰田汽车因油门踏板阻滞问题而发生召回事件前,其油门数据乏人问津,但事故发生后即便是同样一批数据,价值却产生变化。 [26]因此有些数据看似「卑之无甚高论」,但他朝会否一鸣惊人,亦未可知。

用多元化历史数据 作多角度分析

除了改善档案格式,提高使用效率外,上文已提及「多样性」对于数据交换、整合和分析的重要性,例如就「交通意外」这个范畴,完善的数据集不应只包括意外数字,也应提供其他相关数据,例如事故原因、时间、天气、地区、路况、车种和伤亡人员等,以方便公众作有系统的分析。然而在「资料一线通」当中,与交通意外相关的资源却仅有「特别交通消息」和「交通情况快拍图像」等连结和图片[27],较难作多方面的分析。

虽然统计处有提供「香港道路交通意外统计」的网页连结[28],但资料并不完整,反而自行翻查运输署的网页,才找到历年的道路交通意外统计< sup>[29],包括按年龄、道路使用者、性别、伤势情况、车辆类别等相关数字[30],但格式仍仅止于PDF和XLS类别。这些具多样性的资料若能在「资料一线通」整合,并以更高评级的数据格式呈现,相信会更有利集合民间智慧,作出过去意想不到的实用分析。

在多样性以外,于大数据而言,详尽的分析往往需要历史数据,但一些数据例如天气,「资料一线通」暂时只提供实时性资料。若参考Data.Gov上线之后由美国交通部开发的航班延误分析系统Flyontime.us,用户可借其看到不同天气、日期、时段、航空公司以及航班等各种条件下,飞机平均延误时间的历史数据明细[31],以推算某些航班能否准时抵达,例如根据该系统的分析,2011年波士顿至纽约航线在天气良好的情况下,多数航班会提前五分钟到达,下雪天的平均延误时间为七分钟,至于雷雨天则平均延误两分钟。 [32]

由此可见,搭建平台只是第一步,集合多样、具历史性的数据,并转化为软件能够直接读取的格式,才是真真正正的「开放」。这未必需要像唐鳯一样的奇才,却需要其自许「联系者」的气魄。

1 「唐凤入阁林全:和其他政委不一样」,取自自由时报网站: http://news.ltn.com.tw/news/business/breakingnews/1806158,最后更新日期2016年8月25日。
2 「35岁的唐凤入阁成为最年轻的政委」,取自天下杂志网站:http://www.cw.com.tw/article/article.action?id=5077008&utm_source=Facebook&utm_medium=Social&utm_campaign=Daily# ,最后更新日期2016年6月21日。
3 「走进台湾「零时政府」,他们改变了什么? 」,取自端传媒网站:https://theinitium.com/article/20160601-taiwan-g0v/,最后更新日期2016年6月1日。
4 「中央政府总预算」,取自g0v网站:http://budget.g0v.tw/budget,查询日期2016年8月26日。
5 「数据」,取自g0v网站:http://env.g0v.tw/air/,查询日期2016年8月26日。
6 「全国重度级急救责任医院急诊即时讯息」,取自g0v网站:http://er.mohw.g0v.tw/#/dashboard/file/default.json,查询日期2016年8月26日。
7 "Place overview," Global Open Data Index, http://index.okfn.org/place/, accessed July 28 , 2016.
8 同2。
9 「Data. One资料质素参差警务处公开感谢信当数据」,取自香港01网站:http://www.hk01.com/港闻/18147/Data-One资料质素参差-警务处公开感谢信当数据,最后更新日期2016年6月14日。
10 「预算案演辞」,取自政府财政预算案网站:http://www.budget.gov.hk/2015/chi/budget10.html,最后更新日期2015年2月25日。
11 「常见问题」,取自资料一线通网站:https://data.gov.hk/tc/faq ,查询日期2016年7月28日。
12 「大数据资料科学」。取自国立台湾大学统计教学中心网站:http://www.statedu.ntu.edu.tw/bigdata/index.asp,查询日期2016年8月8日。
13 涂子沛,《大数据:数据革命如何改变政府、商业与我们的生活》(香港:香港中和出版有限公司,2013年),第75页。
14 同13,第84页。
15 同13,第87至88页。
16 同13,第88页。
17 同13,第222至223页。
18 同13,第232至233页。
19 〈探射灯:小政府扮大数据〉,《东方日报》,2015年11月2日,A04页。
20 同19。
21 〈亚洲区首度引进Map in Learning 地图学习〉,《e-zone》,2016年5月5日,P038-040页;「服务业统计摘要」,取自资料一线通网站:https://data.gov.hk/tc-data/dataset/hk-censtatd-tablechart-ssd;,查询日期2016年7月28日。
22 〈没有开放数据哪有智慧城市〉,《明报》,2016年4月9日,B10页; 「Data. One资料质素参差警务处公开感谢信当数据」,取自香港01网站:http://www.hk01.com/港闻/18147/Data-One资料质素参差-警务处公开感谢信当数据,最后更新日期2016年6月14日。
23 "5 ★ OPEN DATA," 5stardata, http://5stardata.info/, accessed August 8, 2016.
24 「CSV」。取自资料一线通网站:https://data.gov.hk/tc-data/dataset?res_format=CSV&page=3,查询日期2016年8月8日。
25 同13,第222页。
26 同13,第221至222页。
27 「运输」,取自资料一线通网站:https://data.gov.hk/tc-data/category/transport?organization=hk-td,查询日期2016年7月28日。
28 「香港道路交通意外统计(繁体中文) (包括附带的Excel档案)」。取自资料一线通网站:https://data.gov.hk/tc-data/dataset/hk-censtatd-feature-fa-transport/resource/fa34daa9-52dd-46aa-8df2-6be6faccfcd6,查询日期2016年8月8日。
29 「道路交通意外统计」,取自运输署网站:http://www.td.gov.hk/tc/road_safety/road_traffic_accident_statistics/index.html,查询日期2016年7月28日。
30 「二零一五年」,取自运输署网站:http://www.td.gov.hk/tc/road_safety/road_traffic_accident_statistics/2015/index.html,查询日期2016年7月28日。
31 同13,第226页。
32 同13,第227页。