當開放數據遇到開源生態:開放政府數據平臺建設模式比較研究
引言
自2015年《國務院關于印發促進大數據發展行動綱要的通知》提出, 要在“2018年底前建成國家政府數據統一開放平臺”以來, 如何建設和管理數據開放平臺成為一個各方關注的問題。截至目前, 一些省市級的數據開放平臺已先后建成并提供了許多寶貴的前期探索經驗, 參見表1。但如表1統計, 我國現有的地方政府數據開放平臺多采用專用模式, 即:針對特定機構需求、采用少數企業專用技術體系開發。這一模式曾在世界范圍內被普遍采用, 具有可靠性易于驗證、易于實施和管理、項目風險低等優點, 但也存在開放性不足、不利于廣泛參與和創新的問題。因此, 在近年來的國際開放數據平臺建設潮流中, 專用模式已逐漸被開源模式取代。
表1 國內省市級數據開放平臺建設情況一覽
國內一些學者, 如:鮑靜等等提出, 采用“共享與開放的技術支撐與規范”是國際上的一種常見做法, 值得學習借鑒。2017年, 《國務院辦公廳關于印發政務信息系統整合共享實施方案的通知》也明確指出, 要“有效推進政務信息系統整合共享, 切實避免各自為政、自成體系、重復投資、重復建設”。
什么是開放數據平臺建設的開源模式?開源模式是如何提出并逐漸成為主流的?發達國家如何借助開源模式發展開放數據平臺?如何從理論上解釋開源現象?本文嘗試基于世界各國數據開放平臺建設現狀進行綜合案例研究以回答上述基本問題。希望本文對國外相關經驗的總結能起到拋磚引玉的作用, 為我國數據開放平臺建設提供一些可供借鑒的資料。
1、世界各國國家級數據統一開放平臺的建設現狀——基于60國數據
作為參考, 本文首先統計了全球60個國家的國家級數據開放平臺建設情況。選擇依據是Open Data Barometer開放數據指數。該指數由非營利性組織“互聯網基金會”統計。因60名以外多為欠發達地區, 未有專項建設計劃, 故未納入比較。
1.1 建設國家數據統一開放平臺是致力于數據開放的國家的共同選擇
在60個國家中, 已建成數據統一開放平臺的國家為47例 (占78%) , 尚未建成的為13例, 其中我國計劃于2018年底前建成。可見建設國家數據統一開放平臺是世界各國致力于開放數據的共同選擇、符合世界發展潮流。
1.2 多數國家選擇開源模式建設國家數據統一開放平臺
據統計, 本文調查的60個國家中, 已建成數據開放平臺的有47國, 其中絕大多數采用開源模式, 共34例 (占72%) 。選擇部分開源的為2例, 選擇非開源的為11例。其中圍繞CKAN開源系統建設的最多, 為28例 (占60%) , 其他分別為:DKAN (4例) 、u Data (1例) 、OGPL (1例) (見圖1) 。其中, Socrata的部分技術工具和源代碼僅對政府用戶開放, 并非面向所有社會公眾開放, 因此本文將基于Socrata的開放數據平臺定義為部分開源。
開源模式 (Open-source Model) 是指不依賴少數機構的封閉技術體系, 而是圍繞某一開源系統為基礎建設開放社區生態, 強調所有系統工具面向全社會免費開放共享、社會各界協同創新的分布式建設和治理模式。其中, 開源系統是指遵守開放源代碼協議的可自由分發、修改和重用的軟件系統。運用開源模式建設開放數據平臺, 意味著不僅開放數據, 同時也開放所有用于數據平臺建設的系統工具, 使任何社會機構和群體可以極低成本構建自己的開放數據平臺。以英國為例介紹開源模式在國家數據開放平臺建設中的應用發端和歷程。
圖1 47國國家數據開放平臺所用系統及案例數
1.3 英國政府如何建設國家開放數據平臺:開源模式的提出和實踐
英國開放政府數據平臺是世界上最早提供政府數據開放的國家級平臺之一, 于2009年底內部測試, 2010年初面向社會開放, 首批開放2 879個數據集。英國建設過程具有一定代表性, 開放數據之前已建成政府安全內部網 (相當于我國的“電子政務內網”) 及各部門電子政務系統。需要解決的關鍵問題是“數據孤島”問題, 使“內網”各部門系統的數據互聯互通并以統一的交互方式向“外網”提供。當時提出了兩種模式:
第一種是基于內部閉環的專用模式, 即:各分支機構僅以滿足自身業務需要為要求, 所有數據經內部閉環定期匯集到新增的開放數據中心平臺、統一處理后向公眾開放。此模式集中治理數據, 無須制定公開標準, 可以委托少數企業封閉開發, 技術保密性較好, 可控性較強。但相應的問題是:從技術治理角度而言, 中心平臺負擔過重, 易導致中心失效;從社會治理角度而言, 減少了各部門和社會機構的協作機會, 不利于全社會普遍參與, 與開放精神不相吻合, 易導致更新不及時、利用率低等問題。
第二種是發動社會資源開放協作、分布式治理的開源模式, 即:中心平臺不負責直接管理所有數據, 而是凝聚共識、制定標準、免費提供通用工具幫助分支機構自建符合標準的對外開放數據平臺, 形成元數據可跨系統同步、原始數據可互操作的分布式開放數據平臺群落。全國中心平臺僅負責通過一個中心編目系統管理分布式數據平臺的元數據, 各分布平臺的原始數據各自管理、自行更新。在收到用戶請求時中心平臺根據元數據描述從分布系統實時調用對應的數據集, 從而建立全國數據互聯、服務互通的統一數據門戶。學術界長期以來認為, 開源模式理論上可以降低中心平臺的工作負擔、減少重復建設, 且有利于開放創新和提高服務水平。但由于涉及多級政府和社會主體, 實施難度更大。最終在學術界的倡議下, 英國政府采納了開源模式, 并主要實施了4項措施來保障新模式的執行:
(1) 采取主要領導負責制。推進工作由時任首相戈登主持, 具體工作由內閣辦公廳直接負責, 保證主導力量具備順利實施相關項目的權威性。具體推進采用自上而下的模式:首先建設國家平臺, 在此過程中制定統一標準、完成頂層設計、開發必要工具。在國家平臺取得一定成效后向地方推廣。
(2) 聘請英國計算機科學家Tim BernesLee為項目實施的負責人。Tim Bernes-Lee是世界萬維網 (World Wide Web) 的發明者和萬維網基金會的發起人, 因推動互聯網關鍵技術開源而享有盛譽。他的加入為英國政府提供了開源模式實施的必要經驗, 并獲得了全世界開源技術社區的關注和支持。
(3) 與劍橋大學教授Rufus Pollock發起的開源公益組織“開放知識基金會”合作開發用于政府數據開放平臺建設的CKAN開源系統。與包括公益組織在內的社會力量合作而非單獨開發, 有助于吸納社會資源、降低政府部門支出、提高項目的開放性和透明度, 有利于形成全社會共同參與的開源生態系統。
(4) 制定鼓勵開放標準和開源系統的政策, 推動開源生態建設, 如:在2010年發布的“開源、開放標準和重用:政府行動計劃”中提出鼓勵開源思維, 指出此舉不但將促進政府內部創新, 也有利于刺激外部市場增長從而對IT產業和整體經濟產生外溢效應。在2016年發布“技術代碼實踐標準”進一步指出, 應優先考慮開源軟件, 并且如無特殊原因應將所有政府新獲取的軟件開放源代碼。
英國選擇開源模式取得了成功, 并成為不少國家的效仿對象。以Open Data Barometer排名前20的國家為例, 18例采用了英國開源系統CKAN。其中, 美國政府在2013年放棄了原有系統, 基于CKAN重建了其國家開放數據平臺。英國公務員局局長John Manzoni提出, “政務系統開源是英國政府最正確的決定之一, 是國家軟實力的體現”。
2、發達國家省市級數據開放平臺的建設現狀——以英美兩國為例
考慮到地方 (省市級) 數據開放平臺從規模、需求和經費層面都可能與國家級平臺存在差異, 我們選擇美國全部50個州和GDP排名前50個城市的建設情況進行了研究。選擇美國的原因是:國土面積、行政區劃與我國相似, 且是最早建設數據開放平臺的國家。為了考察地域差異的影響, 我們也補充了英國前20個城市的建設情況作為比較。英美兩國同期開始建設, 都是公認發展較好的國家, 可比性較強。未選擇兩國全部城市的原因是, 排名超出選擇范圍的城市都尚未建設開放數據平臺。
2.1 美國省市級數據開放平臺建設多采用Socrata為基礎的開源平臺
在美國50個州中, 目前有18個州建設了統一數據開放平臺 (data.gov公布是40個, 但是我們經過實際確認, 其中大部分僅提供政策文件公開或僅地理數據, 故未列入) 。在這18個州中:1個采用了DKAN, 13個采用了Socrata, 4個采用了非開源的專用系統, 見圖2 (左) 。在前50大城市中, 有33個建設了數據開放平臺, 其中:3個采用CKAN, 3個采用DKAN, 21個采用Socrata, 2個采用Junar, 4個采用專用系統, 見圖2 (右) 。
2.2 英國市級數據開放平臺CKAN和Socrata采用率基本相當
作為對比, 在英國前20大城市中, 有12個建設了數據開放平臺, 其中:5個采用了CKAN, 5個采用了Socrata, 2個采用了自制系統。但英國大中型城市都采用CKAN, 僅小型城市采用Socrata, 導致CKAN的實際用戶數量和影響力仍高于Socrata。
圖2 美國已建成的地方數據開放平臺所用系統及占比
從英美兩國地方政府的選擇來看, 地域因素確實對其決策產生了一定影響。英國地方政府傾向于CKAN (由英國非盈利組織開發) , 美國地方政府明顯傾向于Socrata (由美國企業開發) 。結合法國也大力推動本國的u Data開源系統建設來看, 發達地區已共同認識到建設本地開源生態系統對開放數據事業和數據經濟的可持續發展具有較大價值。為了這些長期收益, 有實力的地區寧愿選擇短期內見效慢、投入大的方案。這就出現了中央-地方多種開源系統并存的可能性。以下以美國為例, 介紹開源系統整合在國家-地方多級數據平臺網絡方面的應用情況。
2.3 美國國家和地方政府如何建設開放數據平臺:利用開源系統整合多級開放數據網絡
美國推動開放數據平臺建設與英國同期, 主要由奧巴馬政府推動。2009年, 美國國家開放數據平臺data.gov上線, 成為世界上第一個此類平臺。但該平臺仍采用傳統的專用系統模式, 從各分支機構收集上傳數據統一開放, 初期開放的數據集較少, 僅有47個。從2010年開始, 多個州市地方政府也開始建設本地開放數據平臺, 大多購買本國Socrata公司的技術服務。2011年, 由于英國開源模式的成功, 美國和印度政府提出計劃合作發展一個名為“開放數據平臺” (OGPL:Open Data Platform) 的開源系統。但后來由于英國CKAN系統的良好發展勢頭, 到2013年美國放棄了OGPL計劃, 轉而基于CKAN重建。
2013年5月9日, 奧巴馬政府簽署13642號行政命令進一步推動數據開放, 并明確了具體執行步驟。該行政令實際將具體開放數據的權利和責任下放到地方和分支機構, 但由中央政府制定標準、推廣開源系統工具和執行過程監督以統籌進行, 避免各自為政。此行政令被認為激活了機構活力, 具有里程碑意義。此后兩年內美國中央政府機構新增開放數據集超過5萬個, 37個地方政府機構新增開放數據集3萬個, 其中1萬個地方數據集采用中央政府建立的統一元數據標準并將元數據同步更新至中央平臺。2015年, 由于開源系統工具和開放機讀接口標準的推廣, 地方平臺和分支機構到中央平臺的元數據更新已經可以每天自動完成而無需人工處理。
因此, 美國的開放數據平臺不像英國那樣有比較清晰的自上而下發展歷程, 而是中央和地方同時開始探索。在頂層設計尚未明確的情況下, 地方政府已經開始先行先試。這一現象與我國過去幾年的發展有相似之處。但美國政府外包服務市場起步較早, 已發展得較為成熟。得益于高度市場競爭, 美國大部分地方政府實際采用了同一技術系統, 即:Socrata, 相當于依靠市場力量部分統一了標準。Socrata相比同期的CKAN實際在云服務技術上有優勢, 可以大幅度降低管理成本, 對政府幾乎沒有技術要求, 因此不僅受到美國地方政府青睞, 在英國也被一些規模較小的城市采用。但Socrata最初不開源, 在2013年美國政府重建國家數據開放平臺時未被選中。為此, Socrata在2014年也不得不宣布開源, 但為商業利益考慮, 部分系統僅面向政府用戶開源 (因此被本文定義為部分開源) 。此外, 另一家美國企業Nu Civic于2013年開發了完全開源的數據平臺系統DKAN與之競爭, 被加州等地先后采用。自此, 美國實現了中央平臺采用CKAN, 地方和其他機構采用多種開源系統競爭, 但基于開放元數據標準和開源機讀接口執行自動化數據整合、全社會共同參與的多級開源開放數據網絡, 如圖3所示 (數據使用python從開源系統托管平臺government.github.com抓取, 由gephi可視化) 。一些典型項目包括:美國政府的data.gov、波士頓公共圖書館的開放元數據項目、布里斯托大學的開放科研數據項目等。圖3中可見, 英 (左上角節點群) 、美 (右上角節點群) 兩國內部都形成了規模較大、互動頻繁 (互動頻次由連線的寬度表示) 的政府機構-社會組織-企業構成的開源網絡, 彼此之間也建立了一定的聯系, 構成了一定規模的國內和跨國開源生態系統。
圖3 英美等國政府開源生態系統的網絡互動關系
3、為何開源模式在全球開放數據平臺建設中取得成功:一種社會—技術系統理論的觀點
英美等國案例體現了開源模式的優勢。這一優勢無法單純從技術因素角度來解釋, 如早期開源的CKAN在云計算技術方面不如當時尚未開源的Socrata, 但反而取得更好效果。近年來的研究成果表明, 社會因素在復雜信息系統建設過程中扮演了重要角色, 部分學者提出應采用社會—技術因素綜合分析的理論框架進行研究, 認為開放數據平臺不是一個單純的技術平臺, 而是一種多社會—技術資源互動的生態系統 (Socio-technical Ecosystem)。
社會—技術系統理論是面對復雜系統設計和實踐提出的一種研究范式。Bostrom和Heine等提出, “技術系統與過程、任務以及將輸入轉變為輸出的技術因素有關”, 而“社會系統與人的因素 (態度、技能、價值觀) , 人的關系網絡, 回報機制以及權力結構有關”, “技術系統與社會系統往往會發生交互作用”, 共同構成社會—技術系統。
Trist等總結了這一范式與過去單純強調技術的研究范式的主要區別 (見表2)。
社會—技術系統研究范式在提出后較長時期內并未引起信息系統建設領域的足夠重視, 原因主要為:一是信息系統建設多以技術人員主導, 二是早期信息系統都較為簡單, 并不包含足夠復雜的社會結構。這一情況直到社交網絡、維基百科等大規模Web2.0信息系統誕生后才有所改變。本文認為開放數據平臺作為一種提供社會性公共服務的廣域復雜信息系統, 正適用于社會—技術系統的理論模型, 且與本文案例研究所形成的證據鏈可以相互支持以解釋各國實踐經驗。
表2 兩種研究范式的對比
3.1 開放數據平臺建設不是單純的技術問題, 需要考慮到廣泛社會—技術資源的開放參與
過去的組織機構信息化過程往往存在唯技術論傾向。近年來的研究表明, 這種不完整的分析框架和工作思路易造成項目失敗。例如, Meliha研究了歐洲公共管理機構中的知識管理系統模型, 發現社會因素和技術因素共同作用于組織知識管理系統發展, 且前者在公共知識產生領域的影響往往更大。Reyes等研究了大量政府信息系統建設的失敗案例, 指出許多失敗不是來自技術因素, 而是社會和組織因素, 建議將信息系統建設視為一個社會—技術動態互動的過程不斷根據反饋進行迭代優化以提高實施的成功率。
世界各國開放數據平臺建設現狀也吻合社會—技術綜合分析的框架。例如, 美國建設開放數據平臺起步早于英國, 在信息技術研發方面也有一定優勢。但到了2013年, 建設成效卻明顯不如英國, 最終借鑒了英國經驗重建其開放數據平臺。其原因就在于美國政府早期將之視為單純的技術問題, 采取大包大攬的封閉建設模式, 不重視社會子系統的作用。當時, 部分研究人員就指出這一模式并非最佳選擇。如:David Robinson在《政府數據與看不見的手》一文中提出“政府無須也不應大包大攬, 應當理清自己的特長和職責, 并針對不足引入第三方協助, 包括:私人機構、公益組織或商業組織等”。英國從起始階段就更重視社會因素, 以發展開源系統為聯系紐帶盡可能吸納第三方社會技術資源, 取得了明顯效果。再如, 非洲開放銀行與Knoema公司合作, 借助后者的技術資源開發了非洲開放數據平臺, 希望推動非洲開放數據工作, 但由于與當地社會系統脫節, 收效甚微。
這些案例表明, 發展開放數據平臺不是一個單純的技術問題, 也不應是政府單方面的行動, 而是一個需要多種社會—技術資源開放參與的系統優化過程。開源模式的本質是摒棄技術決定論的舊范式, 轉而采用社會—技術系統綜合優化的新思維, 如英國“開放標準原則 (Open Standard Principles) ”和“政府信息技術戰略 (Government ICT strategy) ”指出:開源有助于政府與社會組織、科研機構、企業、個人合作, 從而有利于構建一個開放參與的良好生態環境。
3.2 開放數據平臺建設是多種社會—技術因素的互動優化, 因地制宜打造開源系統生態是成功的動力
社會—技術系統理論認為, 多種社會—技術資源在系統中不是簡單的堆疊、各自為政, 而是存在不同角色之間的互動網絡關系和組織優化過程。如Frank等的研究表明, 社會和技術資源賦能者是社會—技術系統中的關鍵角色, 他們之間的網絡組織和互動是系統發展的主要推動力量。在開放數據平臺建設過程中, 政府首要領導、關鍵技術專家、社會學家、社會機構和企業的負責人往往扮演著賦能者的角色, 將多樣化的賦能者引入系統并建立溝通順暢、相互信任的社會—技術資源網絡生態是項目成功的動力。
但由于各國各地區的情況不盡相同, 導致一個地區成功的社會—技術資源網絡未必能在另一個地區完全復制。例如, 盡管英美兩國最終都采用了開源模式, 實現了中央-地方-社會—企業的多級社會—技術資源構成的開源合作網絡, 還相互借鑒了彼此的經驗, 但美英兩國的發展路徑不盡相同。相對而言, 英國路徑是自上而下推進, 政府與公益組織是主要賦能者;美國路徑則是中央和地方同時推進、相互適應, 政府與商業機構是主要賦能者。主要賦能者的差異也是美英兩國政府開源政策的差異。英國的開源政策更強調面向公眾開放, 而美國的政策更強調版權、安全和隱私。如英國的數字服務標準 (Digital Service Standard) 提出要開源所有政府新建的數字服務系統。而2016年美國制定的聯邦源代碼政策 (Federal Source Code Policy) , 僅要求每個國家機構在其每年新定制開發的軟件中開源至少20%的代碼。另外, 英國政府的所有開源系統和工具均面向公眾開放, 而美國政府則設立了政府開源軟件統一門戶網站code.gov以管理內部開放問題。經本文統計, 目前該網站上托管的開源軟件涉及國際開發、商業、農業、教育、國防等25個機構的114個項目, 其中有41個項目 (37%) 僅限政府部門內部開源, 需要聯系主管部門才能獲取源代碼, 并不對公眾開放 (即部分開源) 。
目前看來, 英國的建設現狀更開放、統一及有序, 而美國的建設現狀則更好地照顧了企業利益和商業運作。因此在具體發展過程中, 在借鑒成功經驗的同時, 還必須結合本地具體情況制定政策、確定主要賦能者、優化社會—技術資源、構建互動網絡生態。
4、建議和討論
4.1 采用開源模式建設數據開放平臺
各級各地政府的數據開放平臺從功能上看高度相似, 各自封閉開發是一種效率較低的選擇, 存在以下缺點:第一, 重復開發, 浪費資金;第二, 數據格式、標準難以統一, 不利于數據互聯互通;第三, 不利于社會—技術資源整合, 技術迭代慢、內容更新少、利用率低。多國實踐現狀表明, 開源模式有助于解決上述問題。例如, 美國政府首席信息官Tony Scott總結:美國政府各部門每年用于購買定制軟件的開銷高達60億美金, 采用開源系統通過政府內部共享源代碼可大幅降低成本, 促進政府的信息技術創新并有利于開源軟件社區發展形成技術外溢效應。本文建議優先采用開源模式建設數據開放平臺。
具體實現路徑有兩種可能: (1) 選擇已有的國外開源系統為基礎, 如:CKAN和DKAN; (2) 選擇自行研發并發展本地開源生態系統。路徑1的優點是:國外現有開源系統已比較成熟, 在多國實踐中得到驗證, 全球開源社區發展完備, 功能更新速度快。故此路徑實施難度低, 投入成本小, 是目前世界上大多數國家的主流選擇。路徑2的優點是:雖然投入大、見效慢, 但可以通過政府投入建立本地技術體系, 推動數據技術研發, 促進開源生態建設和人才培養, 長期收益更大。目前, 英、法、美等國均推動本地開源生態系統建設。
4.2 基于云平臺部署數據開放平臺
云平臺是一種大規模可開放使用的標準化計算基礎設施, 具有初期投入低、可擴展性好、易管理等特點。從社會—技術系統分析框架出發, 云平臺不僅是一種重要的技術資源, 而且有利于為政府—企業—社會組織的開源合作網絡提供統一的基礎設施, 促進交流合作。從各國各地區實踐案例來看, 得到了廣泛采用并取得了良好效果。建議優先考慮以云平臺為硬件基礎設施部署數據開放平臺。從國外的實踐來看, 國家級平臺及少數大型機構平臺建設政府云, 而大多數中小型機構采用政企合作、購買服務的模式在企業已有的公共云上托管數據開放平臺是一種常見選擇。
云服務一般可分為三個層次:基礎設施即服務 (Iaa S) 、平臺即服務 (Paa S) 、軟件即服務 (Saa S) 。目前國內的云平臺服務商大多僅為公共部門提供前兩個層次, 距離國外企業提供完整三個層次的云服務仍有差距。完整的云服務與開源模式結合, 可以更好地降低技術門檻和初期投入。不但有助于公共部門降低成本, 也有助于技術外溢和數字經濟創新。
4.3 培育和依托本地開源社區生態
開放數據平臺需要吸納大量社會—技術資源來不斷更新改良其功能并利用數據開發出更多有益于全體人民的服務。這項工作不可能僅由政府或少數企業來完成。因此發動群體智慧, 引入關鍵的社會—技術賦能者, 培育開源軟件社區生態, 讓人民服務人民, 是開放數據平臺建設過程中公認的最佳實踐。一些成功模式如英國的my Society.com和美國的codeforameria.org, 在各地幫助建立了上百個團隊組成的開源合作網絡, 為數據開放和利用做出了很大貢獻。
相關學術研究也指出, “建立一個健康的開源社區生態系統對于打造公共部門信息產品的可持續生態以實現長期發展至關重要”。建議我國主管部門出臺政策鼓勵類似非營利組織和開源社區的組建, 給予一定政策、數據、甚至經費支持。
4.4 盡快建立并明確聲明全國統一的數據開放使用授權協議等開放數據標準
我國目前各地平臺建設中標準不統一、不規范的情況比較嚴重, 阻礙了社會—技術資源協同網絡的形成。以數據開放使用授權協議為例, 根據對國內已建成平臺的調查, 本文發現目前各地平臺的數據開放授權協議差異較大。有的平臺甚至沒有明確的授權協議, 僅以免責聲明代替。嚴格意義上來說, 沒有明確授權的開放數據甚至不能稱之為開放數據。在權責聲明不夠清晰的情況下, 潛在的法律擔憂將阻礙使用意愿。此外, 在數據混合使用時, 多種的授權協議也容易造成混亂, 引發數據侵權、數據濫用等問題。從國外實踐來看, 一般由國家制定統一的“開放政府授權協議”。如無特別聲明, 則公共部門自身創建的所有數據可默認適用該授權協議。一些可供參考的案例包括:英國的“公共部門信息開放政府授權協議” (Open Government Licence for public sector information) 、加拿大的“開放政府授權協議” (Open Government Licence) 和美國的政府工作版權協議 (Government Works Copyright) 等。
附錄
主要開放政府數據平臺的系統簡介