政企數(shù)據(jù)共享到底難在哪兒

陳永偉2019-09-09 16:39

從一本“文科生讀物”說起

前幾天，和幾個朋友一起聊大數(shù)據(jù)問題。其中的一個做技術的朋友突然問我，“你最早是從哪兒知道‘大數(shù)據(jù)’這個概念的？”我略微整理了一下記憶，回答道：“應該是從涂子沛那本《大數(shù)據(jù)》那兒吧。”朋友聽罷，沖我狡黠地一笑，說道：“嗯，我猜也是。你和我認識的大部分文科生一樣，也是從這本和‘大數(shù)據(jù)’沒什么關系的書開始知道大數(shù)據(jù)的。”

作為一個文科生，我確實感到了來自一名工科學生的深深“惡意”，也瞬間意會到了他要傳遞的“槽點”。是的，如果從技術的角度看，這部讓涂先生一舉成名的著作恐怕除了標題和“大數(shù)據(jù)”相關外，確實和后來我們所理解的“大數(shù)據(jù)”少有關聯(lián)——即使以最為寬松的眼光看，這部書恐怕也只能算是一部大數(shù)據(jù)的案例集。而對于大數(shù)據(jù)的技術基礎和應有邏輯，書中則鮮有提及。盡管這樣的書會很對我這樣的文科生胃口，但卻很難入技術人的法眼。

不過，這兒我還是想為涂先生的這部書說幾句公道話。事實上，作為一本普及書，它的責任更應該是側(cè)重某些理念的傳達，而不是像技術手冊那樣讓人們獲得細節(jié)性的知識。從這個角度看，這本“更適合文科生閱讀”的《大數(shù)據(jù)》應該是成功的。它不僅在第一時間向人們普及了“大數(shù)據(jù)”這個概念，而且還介紹了很多有意思的大數(shù)據(jù)案例。

在所有的這些案例中，最重要的可能就是在一開始講述的美國《信息自由法》的出臺始末。這段文字向讀者展示了美國政府逐步開放數(shù)據(jù)的大致過程，雖不算長，但卻很清晰。通過這段講述，我們得以清晰地看到美國的數(shù)據(jù)開放是如何一路走來的。幾年之后重讀這段文字，我忽然有一些似莫名的熟悉感。

事實上，在這部書出版后不久，“大數(shù)據(jù)”的概念就興起了。隨著“大數(shù)據(jù)”浪潮的襲來，我國政府也開始了數(shù)據(jù)開放、數(shù)據(jù)共享的歷程，這段歷程其實與書中所講的美國故事有很多相似之處。當然，和美國的實踐相比，我國的數(shù)據(jù)共享歷程還有十分鮮明的特點，其中之一就是：不僅由政府向企業(yè)、個人公開數(shù)據(jù)，還有由企業(yè)向政府部門，尤其是監(jiān)管部門共享數(shù)據(jù)。這種雙向的數(shù)據(jù)流動和共享，在很大程度上促進了政府與企業(yè)之間的數(shù)據(jù)共享，也對實現(xiàn)政、企協(xié)同治理起到了關鍵的作用。不過，和所有的新事物一樣，這個過程也遭遇了很多困難，遇到了很多課題。或許，在若干年后，會有一本更為厚重的書來記錄中國的這些實踐。

政企之間實現(xiàn)數(shù)據(jù)共享的理由

為什么政府與企業(yè)之間有必要實現(xiàn)數(shù)據(jù)的共享呢？就其最為根本的理由來看，這是由“大數(shù)據(jù)”的特點決定的。眾所周知，所謂的“大數(shù)據(jù)”并不僅僅是數(shù)量巨大，還要求有高的維度。如果某人擁有的數(shù)據(jù)維度是十分單一的，那么即使這些數(shù)據(jù)從數(shù)量上來看十分巨大，其分析價值也不會很高。

舉例來講，曾經(jīng)有一個朋友花了很大的力氣搜集了某個地區(qū)所有居民的姓名數(shù)據(jù)，然后來找我討論可以做什么研究。當時我就很遺憾地告訴他，雖然搜集姓名數(shù)據(jù)的工作很龐大，但這樣單維度的數(shù)據(jù)似乎除了可以分析出姓氏分布這樣的簡單信息來，也難以做出更多的研究。不過，如果我們可以同時搜集到居民的年齡、收入、工作狀況等其他信息，那么可以研究的話題就一下子增多了。例如，我們可以看看在一個地區(qū)的大姓居民，到底是不是可以獲得更高的社會地位和社會資本，進而獲得更高的收入；還可以考察收入狀況和起名習慣之間的關系……毫不夸張地說，當維度擴展時，可以從中挖掘出的信息就會以幾何級數(shù)增長，數(shù)據(jù)本身帶來的價值也會大幅度提升。

現(xiàn)在，政府和企業(yè)手中都掌握著很多數(shù)據(jù)，但它們所掌握的數(shù)據(jù)性質(zhì)是各不相同的。總體來看，政府部門掌握的數(shù)據(jù)主要來自統(tǒng)計和因需要以政府力量進行的監(jiān)測，例如工業(yè)普查數(shù)據(jù)、工商稅務信息、實時氣象信息等。這些信息，企業(yè)或個人都很難獲得。即使可以獲得，其成本也是巨大的。而企業(yè)手中掌握的則是相對來說更為微觀的數(shù)據(jù)，例如企業(yè)銷售的品類、交易流水、消費者特征等。這些數(shù)據(jù)都很細碎，但是政府要及時獲得，也是十分困難的。在這種情況下，如果企業(yè)和政府之間彼此隔閡，僅利用自己的數(shù)據(jù)，那么所能達到的效率也會相對低下。

這里尤其需要強調(diào)的是企業(yè)因缺乏政府數(shù)據(jù)而受到的影響。一方面，出于成本的考慮，企業(yè)難以搜集某些數(shù)據(jù)，這會使企業(yè)在數(shù)據(jù)應用上的效率大幅度降低。舉例來說，一些物流公司出于調(diào)度目的，需要實時的、細分地區(qū)的天氣信息，但企業(yè)憑借自己的力量卻難以獲得這些信息。在這種情況下，企業(yè)就不能根據(jù)確切的天氣信息進行精準的調(diào)度，只能退而求其次選擇比較模糊的調(diào)度方案，因此勢必帶來效率上的一定損失。另一方面，一些重要的政府數(shù)據(jù)缺失還有可能導致企業(yè)的某些工作難以正常、合規(guī)的得到開展，一個典型的例子就是網(wǎng)約車行業(yè)。現(xiàn)在，各地紛紛制定了對網(wǎng)約車監(jiān)管的細則。我注意到，在很多地方的細則中，都明文規(guī)定了刑滿釋放人員不能從事網(wǎng)約車的運營。我不想對這個規(guī)定本身是否合理進行討論，單說在現(xiàn)行的條件下，網(wǎng)約車公司要按照這些規(guī)則對司機進行審核就是十分困難的。一個人究竟是否犯過罪、是否坐過牢，這是很隱私的數(shù)據(jù)，在通常的檔案中并沒有記載，只有公安部門掌握著相關的數(shù)據(jù)。如果公安部門不向網(wǎng)約車公司提供這些數(shù)據(jù)，那么網(wǎng)約車公司就基本不可能對相關信息進行有效的審核，也就更遑論要對這些規(guī)定予以嚴格遵守了。

基于以上兩點理由，作為目前最大規(guī)模數(shù)據(jù)的所有者，政府在滿足法律法規(guī)的前提下，向企業(yè)開放其手中的數(shù)據(jù)是十分有必要的。這不僅可以大幅度增加企業(yè)的經(jīng)營決策能力，顯著提升經(jīng)濟運行的效率，同時也可以幫助企業(yè)更有效地進行合規(guī)運營，從而對社會治理產(chǎn)生有效的促進作用。

當然，在政府向企業(yè)開放數(shù)據(jù)的同時，企業(yè)將自己擁有的部分數(shù)據(jù)分享給政府，幫助政府加強監(jiān)管，也是十分有必要的。當前，新的企業(yè)、新的商業(yè)模式層出不窮，很多行業(yè)的情況都瞬息萬變，這對政府的監(jiān)管和治理也提出了嚴峻的挑戰(zhàn)。盡管政府部門也針對相應的情況，加強了有關數(shù)據(jù)的搜集，但其滯后性是十分明顯的，成本也很高。舉例來說，近年來共享單車異軍突起，一方面有效緩解了人們的出行難，但另一方面也帶來了亂停亂放、占道嚴重等問題。政府花了很大的人力、物力進行整治，但在很長時間內(nèi)效果并不好。其中的一個原因就是，政府并不能確切掌握企業(yè)對車輛的投放狀況，因此就難以有的放矢地科學調(diào)撥整治人員。針對這一問題，很多城市都做出了讓共享單車數(shù)據(jù)接入監(jiān)管平臺的要求，以保證監(jiān)管人員可以實時監(jiān)控到各地區(qū)的單車投放狀況。不少案例表明，這樣的要求確實在很大程度上讓單車的擺放秩序獲得了有效的改進。

政企之間實現(xiàn)數(shù)據(jù)共享的困難

盡管從理論上講，打通政府與企業(yè)之間的數(shù)據(jù)壁壘，實施政企的數(shù)據(jù)共享可以大幅改進數(shù)據(jù)的利用效率，讓企業(yè)的經(jīng)營效率和政府的治理能力同時獲得比較大的改善，但是在現(xiàn)實當中，要真正做到這一點還是面臨著不少的困難。

先看政府對企業(yè)共享數(shù)據(jù)的困難。從目前看，它面臨的阻礙因素主要有兩個——

一是數(shù)據(jù)安全問題。政府手中的數(shù)據(jù)，有很多是涉及國家安全，或者涉及居民隱私的，這些數(shù)據(jù)如果開放給企業(yè)，很可能會引發(fā)不可控的后果。不少政府部門對數(shù)據(jù)的開放保持疑慮，很大的一部分原因就來自于此。

前面我們提過網(wǎng)約車合規(guī)需要公安部門的相關數(shù)據(jù)，我曾就這個問題請教過公安部門的相關專家。他們的回答是：一個人是否有前科，本質(zhì)上是相當隱私的信息。當這個人刑滿釋放之后，他為了重新融入社會，會傾向于不讓更多的人知道這段歷史。而如果將數(shù)據(jù)開放給相關的單位，就可能會給他們的就業(yè)、生活制造很多麻煩。在一定條件下反而可能激化社會矛盾，帶來很多不必要的問題。

公安的專家給出的這套理由也是很有道理的，但正是由于這個原因，客觀上導致了網(wǎng)約車企業(yè)無法按照要求完成管理，也給其運營埋下了一定的隱患。這里面的復雜關系究竟應該怎么處理，恐怕還是值得思考的。

二是數(shù)據(jù)的口徑問題。我們知道，政府的數(shù)據(jù)是通過各個部門搜集的，每個部門的數(shù)據(jù)搜集規(guī)則、流程都不盡相同，這就造成了最終數(shù)據(jù)在口徑上未必會一樣。在傳統(tǒng)的統(tǒng)計條件下，統(tǒng)計系統(tǒng)會將各個部門的數(shù)據(jù)先進行匯總清理，最終拿出統(tǒng)一的數(shù)據(jù)予以公布。但這樣的工作方式顯然很難滿足及時、準確公開數(shù)據(jù)的要求。

我曾接受南方某市的委托，為該市做營商環(huán)境評估。在這個過程中，需要10多個部門分別提供自己的最新數(shù)據(jù)。盡管相關部門的同志表面上都很配合，但他們在提供數(shù)據(jù)時都不約而同地表示出了猶豫。即使提供了數(shù)據(jù)，也會對我千叮萬囑地說，千萬不能泄露出去。我對他們的小心態(tài)度很好奇，曾找一位同志私下問過原因。他給我的回答是，這是各部門的原始數(shù)據(jù)，而未來統(tǒng)計局公布的數(shù)據(jù)一定會和這有出入，如果有人質(zhì)疑起來，可能會帶來一些不必要的麻煩。

再看企業(yè)對政府共享數(shù)據(jù)所面臨的障礙。在我看來，目前最主要的困難也有兩個——

一是可能的數(shù)據(jù)泄露的風險。

某航空公司的一位管理人員曾和我說起：按照規(guī)定，他們必須將所有的乘客數(shù)據(jù)都上傳給監(jiān)管部門。但某一天，他發(fā)現(xiàn)監(jiān)管部門正在和一家第三方數(shù)據(jù)公司合作，將他們上傳的數(shù)據(jù)交由這家數(shù)據(jù)公司使用。他對此感到很憂慮，因為乘客的數(shù)據(jù)都是非常隱私的，如果這些數(shù)據(jù)在被數(shù)據(jù)公司利用的環(huán)節(jié)中發(fā)生泄漏，那么造成的后果將十分嚴重。尤其是如果泄露的信息涉及到歐洲乘客，根據(jù)歐盟頒布的《通用數(shù)據(jù)保護條例》，即所謂的GDPR，航空公司將面臨巨額的罰款風險。

我不能確認這位航空公司管理人員所說的情況是否屬實，但如果是真的，那么這個情況確實非常值得重視。從法理上講，用戶的數(shù)據(jù)是由公司采集的，它們就負有對這些數(shù)據(jù)進行保密的義務。目前，包括GDPR在內(nèi)的大批法律法規(guī)都根據(jù)這點安排了非常嚴格的法律責任。但是，如果企業(yè)需要交給將數(shù)據(jù)上報給監(jiān)管部門，而監(jiān)管部門又把這些數(shù)據(jù)交給第三方，那就意味著企業(yè)將會面臨著巨大的、不可控的信息泄露風險——即使它們對內(nèi)部的風控做得再嚴格也沒用。如果這個問題不妥善解決，那么企業(yè)的經(jīng)營積極性就有可能受到很大的負面影響。

二是對數(shù)據(jù)共享的補償問題。

我們知道，在數(shù)字經(jīng)濟社會，數(shù)據(jù)已經(jīng)是重要的生產(chǎn)資料，也是企業(yè)的重要戰(zhàn)略資源。為了數(shù)據(jù)的搜集和處理，企業(yè)往往需要投入巨大的成本，而這些數(shù)據(jù)本身也能給它們帶來相應的經(jīng)濟收益。如果政府只是要求企業(yè)將數(shù)據(jù)拿出來用于單純的監(jiān)管用途，那么問題還不大。但如果政府像前面提到的案例那樣，將數(shù)據(jù)給了第三方進行分析或使用，那就很有可能對企業(yè)的生產(chǎn)經(jīng)營造成影響。基于這點，我個人認為，如果要求企業(yè)開放數(shù)據(jù)，那就好像是將企業(yè)的資產(chǎn)拿出來共享一樣，如果不給予相應的補償，就很有可能打擊企業(yè)生產(chǎn)、搜集數(shù)據(jù)的積極性。

不過，究竟應該怎么對企業(yè)的共享行為進行補償，以多大金額進行補償，就又是一個難解的問題。雖然我們經(jīng)常說數(shù)據(jù)價值巨大，但對于它究竟能在市場上值個什么價，卻是不得而知的。事實上，由于現(xiàn)在在數(shù)據(jù)產(chǎn)權的認定問題上還沒有統(tǒng)一的規(guī)定，數(shù)據(jù)的交易受限十分嚴重。市場上的大部分交易都是通過黑產(chǎn)形式實現(xiàn)的。這樣形成的價格完全不具有參考意義，很難代表數(shù)據(jù)的真實市場價格。另外，即使我們知道了數(shù)據(jù)的市場價值，但對于共享給政府，主要用于監(jiān)管的數(shù)據(jù)，顯然不能照此索價。因此，究竟如何對企業(yè)的數(shù)據(jù)共享行為進行補償，還是一個有待解決的難題。

三是由于數(shù)據(jù)共享帶來的權利義務分配問題。

現(xiàn)在，大部分政府要求企業(yè)上傳、共享數(shù)據(jù)的情形，都是為監(jiān)管目標服務的。例如，交通部已經(jīng)要求網(wǎng)約車公司將司機個人信息、訂單信息、經(jīng)營信息、定位信息、服務質(zhì)量信息等數(shù)據(jù)都接入監(jiān)管平臺——先由網(wǎng)約車平臺公司將數(shù)據(jù)傳輸至部級平臺，然后再由部級平臺將數(shù)據(jù)實時轉(zhuǎn)發(fā)至相關省級平臺及城市監(jiān)管平臺。這樣做，當然是為了能夠及時對網(wǎng)約車運營狀況進行實時的監(jiān)督，在出現(xiàn)問題時進行及時的干預，其初衷是非常好的。

不過，對這樣的舉措，我個人還有一些疑問。例如，當監(jiān)管部門可以實時監(jiān)控到所有網(wǎng)約車的運營狀況時，如果這些網(wǎng)約車的經(jīng)營出了某些問題，那么監(jiān)管部門是不是應該要承擔相應的責任，而與此同時，網(wǎng)約車平臺的責任是不是應該相應的降低？如果監(jiān)管部門不承擔責任，那似乎在理論上說不通，因為我們可以說它已經(jīng)參與了監(jiān)管。如果監(jiān)管可有可無，發(fā)生了問題不用承擔責任，那監(jiān)管又有什么意義呢？但如果真要監(jiān)管部門承擔責任，那似乎又在實踐上說不過去。我們知道，交通部的人員非常有限，要面對全國網(wǎng)約車的實時數(shù)據(jù)進行監(jiān)控，幾乎就是不可能的。如果出了事情就要他們承擔相應的責任，那么監(jiān)管人員要背的“鍋”就實在是太重了。

如何進一步推進政企之間的數(shù)據(jù)共享

在“大數(shù)據(jù)時代”，將散落在政府與企業(yè)手中的數(shù)據(jù)有效整合起來，積極發(fā)掘其價值乃是大勢所趨。不過，正如我們所看到的那樣，無論是由政府向企業(yè)共享數(shù)據(jù)，還是由企業(yè)向政府共享數(shù)據(jù)，在實踐當中都會遭遇很多的困難。因此，為了進一步推進政企之間的數(shù)據(jù)共享，我們還有相當多的工作要做。具體來說，以下幾點是比較值得重視的。

第一，應當推進與數(shù)據(jù)相關的立法，進一步明確在政府與企業(yè)之間，哪些數(shù)據(jù)可以共享，哪些數(shù)據(jù)應該共享。所謂沒有規(guī)矩，不成方圓。正如涂子沛先生的那部《大數(shù)據(jù)》當中指出的，美國政府對政府數(shù)據(jù)的開放，是在一系列法律、法規(guī)建設的基礎上實施的。從根本上講，我國在政企數(shù)據(jù)共享中遭遇的很多困難，也是因為相關的法律法規(guī)缺失所造成的。如果人們對自己的權利和義務不明確，那就很難開展活動。因此只有從法律的層面上落實數(shù)據(jù)開放規(guī)則，相關人員在進行操作時才可以按圖索驥，避免各種可能的障礙。

第二，在進行數(shù)據(jù)共享時，可以考慮不共享原始數(shù)據(jù)，只共享數(shù)據(jù)產(chǎn)品或經(jīng)過脫敏后的數(shù)據(jù)。

其實，在很多情況下，我們最需要的并不是數(shù)據(jù)本身，而是由數(shù)據(jù)所生成的產(chǎn)品，例如數(shù)據(jù)運算的結(jié)果，或者由數(shù)據(jù)訓練出的算法等。以監(jiān)管為例，在我個人看來，如果監(jiān)管者想要了解的只是實時發(fā)生的問題（例如網(wǎng)約車的事故、糾紛等）數(shù)量，那么他們只需要讓相關的企業(yè)在自己的平臺上先運算出這些統(tǒng)計數(shù)據(jù)，然后再將這些數(shù)據(jù)提交給監(jiān)管平臺就行了。從達成監(jiān)管的目標看，這樣做的效果基本是和要求企業(yè)提供所有實時數(shù)據(jù)是等價的——事實上，考慮到運算效率等問題，這樣匯報的效果可能還會更好。但與此同時，這樣的做法又可以避免前面我們所提過的很多問題。像數(shù)據(jù)泄露風險、數(shù)據(jù)價格問題，以及權責關系問題等，在這樣的操作下都將迎刃而解。

第三，應當積極采用各種新的技術來破解數(shù)據(jù)共享過程中采用的問題。

從最根本的角度看，要解決數(shù)據(jù)相關的大多數(shù)問題，最終還要靠技術的發(fā)展。我想，在當前的情況下，至少有兩樣技術是有助于我們解決這個問題的。

第一項技術是聯(lián)合學習算法。如前所述，我們現(xiàn)在需要大數(shù)據(jù)的最重要理由是，將更多的數(shù)據(jù)集合在一起后，就可以從它們身上挖掘出更多的信息。換言之，如果我們不需要將數(shù)據(jù)集合在一起就可以達到同樣目的的話，就不必再采用這種整合數(shù)據(jù)的思維了。這樣的理想可能實現(xiàn)嗎？答案或許是肯定的。目前，谷歌正在研發(fā)一種聯(lián)合學習技術。和過去的各種機器學習算法需要集中在一起不同，聯(lián)合學習算法可以利用分散在成百上千萬用戶手里的設備，協(xié)同訓練機器學習模型，而且所有的訓練數(shù)據(jù)都保留在原來各自的設備上。如果這種算法被證明為是成功的，那么或許在不遠的將來，所有數(shù)據(jù)所有者就不再需要開放共享自己的數(shù)據(jù)，但卻可以享受到與開放數(shù)據(jù)相同的好處。

第二項技術是區(qū)塊鏈。我們知道，區(qū)塊鏈技術有一項重要的特點，就是可追蹤。如果將數(shù)據(jù)采用區(qū)塊鏈技術進行加密，在其整個轉(zhuǎn)移的過程中，我們就可以清晰地看到它的去向，知道它到底被誰使用過，又被誰復制過。有了這樣的技術條件，數(shù)據(jù)的提供者就可以對使用者在未經(jīng)自己允許的情況下泄露數(shù)據(jù)的情況進行有效追責，對于清晰界定數(shù)據(jù)的產(chǎn)權也會大有助益。