從一本“文科生讀物”說起
前幾天,和幾個朋友一起聊大數(shù)據(jù)問題。其中的一個做技術的朋友突然問我,“你最早是從哪兒知道‘大數(shù)據(jù)’這個概念的?”我略微整理了一下記憶,回答道:“應該是從涂子沛那本《大數(shù)據(jù)》那兒吧。”朋友聽罷,沖我狡黠地一笑,說道:“嗯,我猜也是。你和我認識的大部分文科生一樣,也是從這本和‘大數(shù)據(jù)’沒什么關系的書開始知道大數(shù)據(jù)的。”
作為一個文科生,我確實感到了來自一名工科學生的深深“惡意”,也瞬間意會到了他要傳遞的“槽點”。是的,如果從技術的角度看,這部讓涂先生一舉成名的著作恐怕除了標題和“大數(shù)據(jù)”相關外,確實和后來我們所理解的“大數(shù)據(jù)”少有關聯(lián)——即使以最為寬松的眼光看,這部書恐怕也只能算是一部大數(shù)據(jù)的案例集。而對于大數(shù)據(jù)的技術基礎和應有邏輯,書中則鮮有提及。盡管這樣的書會很對我這樣的文科生胃口,但卻很難入技術人的法眼。
不過,這兒我還是想為涂先生的這部書說幾句公道話。事實上,作為一本普及書,它的責任更應該是側(cè)重某些理念的傳達,而不是像技術手冊那樣讓人們獲得細節(jié)性的知識。從這個角度看,這本“更適合文科生閱讀”的《大數(shù)據(jù)》應該是成功的。它不僅在第一時間向人們普及了“大數(shù)據(jù)”這個概念,而且還介紹了很多有意思的大數(shù)據(jù)案例。
在所有的這些案例中,最重要的可能就是在一開始講述的美國《信息自由法》的出臺始末。這段文字向讀者展示了美國政府逐步開放數(shù)據(jù)的大致過程,雖不算長,但卻很清晰。通過這段講述,我們得以清晰地看到美國的數(shù)據(jù)開放是如何一路走來的。幾年之后重讀這段文字,我忽然有一些似莫名的熟悉感。
事實上,在這部書出版后不久,“大數(shù)據(jù)”的概念就興起了。隨著“大數(shù)據(jù)”浪潮的襲來,我國政府也開始了數(shù)據(jù)開放、數(shù)據(jù)共享的歷程,這段歷程其實與書中所講的美國故事有很多相似之處。當然,和美國的實踐相比,我國的數(shù)據(jù)共享歷程還有十分鮮明的特點,其中之一就是:不僅由政府向企業(yè)、個人公開數(shù)據(jù),還有由企業(yè)向政府部門,尤其是監(jiān)管部門共享數(shù)據(jù)。這種雙向的數(shù)據(jù)流動和共享,在很大程度上促進了政府與企業(yè)之間的數(shù)據(jù)共享,也對實現(xiàn)政、企協(xié)同治理起到了關鍵的作用。不過,和所有的新事物一樣,這個過程也遭遇了很多困難,遇到了很多課題。或許,在若干年后,會有一本更為厚重的書來記錄中國的這些實踐。
政企之間實現(xiàn)數(shù)據(jù)共享的理由
為什么政府與企業(yè)之間有必要實現(xiàn)數(shù)據(jù)的共享呢?就其最為根本的理由來看,這是由“大數(shù)據(jù)”的特點決定的。眾所周知,所謂的“大數(shù)據(jù)”并不僅僅是數(shù)量巨大,還要求有高的維度。如果某人擁有的數(shù)據(jù)維度是十分單一的,那么即使這些數(shù)據(jù)從數(shù)量上來看十分巨大,其分析價值也不會很高。
舉例來講,曾經(jīng)有一個朋友花了很大的力氣搜集了某個地區(qū)所有居民的姓名數(shù)據(jù),然后來找我討論可以做什么研究。當時我就很遺憾地告訴他,雖然搜集姓名數(shù)據(jù)的工作很龐大,但這樣單維度的數(shù)據(jù)似乎除了可以分析出姓氏分布這樣的簡單信息來,也難以做出更多的研究。不過,如果我們可以同時搜集到居民的年齡、收入、工作狀況等其他信息,那么可以研究的話題就一下子增多了。例如,我們可以看看在一個地區(qū)的大姓居民,到底是不是可以獲得更高的社會地位和社會資本,進而獲得更高的收入;還可以考察收入狀況和起名習慣之間的關系……毫不夸張地說,當維度擴展時,可以從中挖掘出的信息就會以幾何級數(shù)增長,數(shù)據(jù)本身帶來的價值也會大幅度提升。
現(xiàn)在,政府和企業(yè)手中都掌握著很多數(shù)據(jù),但它們所掌握的數(shù)據(jù)性質(zhì)是各不相同的。總體來看,政府部門掌握的數(shù)據(jù)主要來自統(tǒng)計和因需要以政府力量進行的監(jiān)測,例如工業(yè)普查數(shù)據(jù)、工商稅務信息、實時氣象信息等。這些信息,企業(yè)或個人都很難獲得。即使可以獲得,其成本也是巨大的。而企業(yè)手中掌握的則是相對來說更為微觀的數(shù)據(jù),例如企業(yè)銷售的品類、交易流水、消費者特征等。這些數(shù)據(jù)都很細碎,但是政府要及時獲得,也是十分困難的。在這種情況下,如果企業(yè)和政府之間彼此隔閡,僅利用自己的數(shù)據(jù),那么所能達到的效率也會相對低下。
這里尤其需要強調(diào)的是企業(yè)因缺乏政府數(shù)據(jù)而受到的影響。一方面,出于成本的考慮,企業(yè)難以搜集某些數(shù)據(jù),這會使企業(yè)在數(shù)據(jù)應用上的效率大幅度降低。舉例來說,一些物流公司出于調(diào)度目的,需要實時的、細分地區(qū)的天氣信息,但企業(yè)憑借自己的力量卻難以獲得這些信息。在這種情況下,企業(yè)就不能根據(jù)確切的天氣信息進行精準的調(diào)度,只能退而求其次選擇比較模糊的調(diào)度方案,因此勢必帶來效率上的一定損失。另一方面,一些重要的政府數(shù)據(jù)缺失還有可能導致企業(yè)的某些工作難以正常、合規(guī)的得到開展,一個典型的例子就是網(wǎng)約車行業(yè)。現(xiàn)在,各地紛紛制定了對網(wǎng)約車監(jiān)管的細則。我注意到,在很多地方的細則中,都明文規(guī)定了刑滿釋放人員不能從事網(wǎng)約車的運營。我不想對這個規(guī)定本身是否合理進行討論,單說在現(xiàn)行的條件下,網(wǎng)約車公司要按照這些規(guī)則對司機進行審核就是十分困難的。一個人究竟是否犯過罪、是否坐過牢,這是很隱私的數(shù)據(jù),在通常的檔案中并沒有記載,只有公安部門掌握著相關的數(shù)據(jù)。如果公安部門不向網(wǎng)約車公司提供這些數(shù)據(jù),那么網(wǎng)約車公司就基本不可能對相關信息進行有效的審核,也就更遑論要對這些規(guī)定予以嚴格遵守了。
基于以上兩點理由,作為目前最大規(guī)模數(shù)據(jù)的所有者,政府在滿足法律法規(guī)的前提下,向企業(yè)開放其手中的數(shù)據(jù)是十分有必要的。這不僅可以大幅度增加企業(yè)的經(jīng)營決策能力,顯著提升經(jīng)濟運行的效率,同時也可以幫助企業(yè)更有效地進行合規(guī)運營,從而對社會治理產(chǎn)生有效的促進作用。
當然,在政府向企業(yè)開放數(shù)據(jù)的同時,企業(yè)將自己擁有的部分數(shù)據(jù)分享給政府,幫助政府加強監(jiān)管,也是十分有必要的。當前,新的企業(yè)、新的商業(yè)模式層出不窮,很多行業(yè)的情況都瞬息萬變,這對政府的監(jiān)管和治理也提出了嚴峻的挑戰(zhàn)。盡管政府部門也針對相應的情況,加強了有關數(shù)據(jù)的搜集,但其滯后性是十分明顯的,成本也很高。舉例來說,近年來共享單車異軍突起,一方面有效緩解了人們的出行難,但另一方面也帶來了亂停亂放、占道嚴重等問題。政府花了很大的人力、物力進行整治,但在很長時間內(nèi)效果并不好。其中的一個原因就是,政府并不能確切掌握企業(yè)對車輛的投放狀況,因此就難以有的放矢地科學調(diào)撥整治人員。針對這一問題,很多城市都做出了讓共享單車數(shù)據(jù)接入監(jiān)管平臺的要求,以保證監(jiān)管人員可以實時監(jiān)控到各地區(qū)的單車投放狀況。不少案例表明,這樣的要求確實在很大程度上讓單車的擺放秩序獲得了有效的改進。
政企之間實現(xiàn)數(shù)據(jù)共享的困難
盡管從理論上講,打通政府與企業(yè)之間的數(shù)據(jù)壁壘,實施政企的數(shù)據(jù)共享可以大幅改進數(shù)據(jù)的利用效率,讓企業(yè)的經(jīng)營效率和政府的治理能力同時獲得比較大的改善,但是在現(xiàn)實當中,要真正做到這一點還是面臨著不少的困難。
先看政府對企業(yè)共享數(shù)據(jù)的困難。從目前看,它面臨的阻礙因素主要有兩個——
一是數(shù)據(jù)安全問題。政府手中的數(shù)據(jù),有很多是涉及國家安全,或者涉及居民隱私的,這些數(shù)據(jù)如果開放給企業(yè),很可能會引發(fā)不可控的后果。不少政府部門對數(shù)據(jù)的開放保持疑慮,很大的一部分原因就來自于此。
前面我們提過網(wǎng)約車合規(guī)需要公安部門的相關數(shù)據(jù),我曾就這個問題請教過公安部門的相關專家。他們的回答是:一個人是否有前科,本質(zhì)上是相當隱私的信息。當這個人刑滿釋放之后,他為了重新融入社會,會傾向于不讓更多的人知道這段歷史。而如果將數(shù)據(jù)開放給相關的單位,就可能會給他們的就業(yè)、生活制造很多麻煩。在一定條件下反而可能激化社會矛盾,帶來很多不必要的問題。
公安的專家給出的這套理由也是很有道理的,但正是由于這個原因,客觀上導致了網(wǎng)約車企業(yè)無法按照要求完成管理,也給其運營埋下了一定的隱患。這里面的復雜關系究竟應該怎么處理,恐怕還是值得思考的。
二是數(shù)據(jù)的口徑問題。我們知道,政府的數(shù)據(jù)是通過各個部門搜集的,每個部門的數(shù)據(jù)搜集規(guī)則、流程都不盡相同,這就造成了最終數(shù)據(jù)在口徑上未必會一樣。在傳統(tǒng)的統(tǒng)計條件下,統(tǒng)計系統(tǒng)會將各個部門的數(shù)據(jù)先進行匯總清理,最終拿出統(tǒng)一的數(shù)據(jù)予以公布。但這樣的工作方式顯然很難滿足及時、準確公開數(shù)據(jù)的要求。
我曾接受南方某市的委托,為該市做營商環(huán)境評估。在這個過程中,需要10多個部門分別提供自己的最新數(shù)據(jù)。盡管相關部門的同志表面上都很配合,但他們在提供數(shù)據(jù)時都不約而同地表示出了猶豫。即使提供了數(shù)據(jù),也會對我千叮萬囑地說,千萬不能泄露出去。我對他們的小心態(tài)度很好奇,曾找一位同志私下問過原因。他給我的回答是,這是各部門的原始數(shù)據(jù),而未來統(tǒng)計局公布的數(shù)據(jù)一定會和這有出入,如果有人質(zhì)疑起來,可能會帶來一些不必要的麻煩。
再看企業(yè)對政府共享數(shù)據(jù)所面臨的障礙。在我看來,目前最主要的困難也有兩個——
一是可能的數(shù)據(jù)泄露的風險。
某航空公司的一位管理人員曾和我說起:按照規(guī)定,他們必須將所有的乘客數(shù)據(jù)都上傳給監(jiān)管部門。但某一天,他發(fā)現(xiàn)監(jiān)管部門正在和一家第三方數(shù)據(jù)公司合作,將他們上傳的數(shù)據(jù)交由這家數(shù)據(jù)公司使用。他對此感到很憂慮,因為乘客的數(shù)據(jù)都是非常隱私的,如果這些數(shù)據(jù)在被數(shù)據(jù)公司利用的環(huán)節(jié)中發(fā)生泄漏,那么造成的后果將十分嚴重。尤其是如果泄露的信息涉及到歐洲乘客,根據(jù)歐盟頒布的《通用數(shù)據(jù)保護條例》,即所謂的GDPR,航空公司將面臨巨額的罰款風險。
我不能確認這位航空公司管理人員所說的情況是否屬實,但如果是真的,那么這個情況確實非常值得重視。從法理上講,用戶的數(shù)據(jù)是由公司采集的,它們就負有對這些數(shù)據(jù)進行保密的義務。目前,包括GDPR在內(nèi)的大批法律法規(guī)都根據(jù)這點安排了非常嚴格的法律責任。但是,如果企業(yè)需要交給將數(shù)據(jù)上報給監(jiān)管部門,而監(jiān)管部門又把這些數(shù)據(jù)交給第三方,那就意味著企業(yè)將會面臨著巨大的、不可控的信息泄露風險——即使它們對內(nèi)部的風控做得再嚴格也沒用。如果這個問題不妥善解決,那么企業(yè)的經(jīng)營積極性就有可能受到很大的負面影響。
二是對數(shù)據(jù)共享的補償問題。
我們知道,在數(shù)字經(jīng)濟社會,數(shù)據(jù)已經(jīng)是重要的生產(chǎn)資料,也是企業(yè)的重要戰(zhàn)略資源。為了數(shù)據(jù)的搜集和處理,企業(yè)往往需要投入巨大的成本,而這些數(shù)據(jù)本身也能給它們帶來相應的經(jīng)濟收益。如果政府只是要求企業(yè)將數(shù)據(jù)拿出來用于單純的監(jiān)管用途,那么問題還不大。但如果政府像前面提到的案例那樣,將數(shù)據(jù)給了第三方進行分析或使用,那就很有可能對企業(yè)的生產(chǎn)經(jīng)營造成影響。基于這點,我個人認為,如果要求企業(yè)開放數(shù)據(jù),那就好像是將企業(yè)的資產(chǎn)拿出來共享一樣,如果不給予相應的補償,就很有可能打擊企業(yè)生產(chǎn)、搜集數(shù)據(jù)的積極性。
不過,究竟應該怎么對企業(yè)的共享行為進行補償,以多大金額進行補償,就又是一個難解的問題。雖然我們經(jīng)常說數(shù)據(jù)價值巨大,但對于它究竟能在市場上值個什么價,卻是不得而知的。事實上,由于現(xiàn)在在數(shù)據(jù)產(chǎn)權的認定問題上還沒有統(tǒng)一的規(guī)定,數(shù)據(jù)的交易受限十分嚴重。市場上的大部分交易都是通過黑產(chǎn)形式實現(xiàn)的。這樣形成的價格完全不具有參考意義,很難代表數(shù)據(jù)的真實市場價格。另外,即使我們知道了數(shù)據(jù)的市場價值,但對于共享給政府,主要用于監(jiān)管的數(shù)據(jù),顯然不能照此索價。因此,究竟如何對企業(yè)的數(shù)據(jù)共享行為進行補償,還是一個有待解決的難題。
三是由于數(shù)據(jù)共享帶來的權利義務分配問題。
現(xiàn)在,大部分政府要求企業(yè)上傳、共享數(shù)據(jù)的情形,都是為監(jiān)管目標服務的。例如,交通部已經(jīng)要求網(wǎng)約車公司將司機個人信息、訂單信息、經(jīng)營信息、定位信息、服務質(zhì)量信息等數(shù)據(jù)都接入監(jiān)管平臺——先由網(wǎng)約車平臺公司將數(shù)據(jù)傳輸至部級平臺,然后再由部級平臺將數(shù)據(jù)實時轉(zhuǎn)發(fā)至相關省級平臺及城市監(jiān)管平臺。這樣做,當然是為了能夠及時對網(wǎng)約車運營狀況進行實時的監(jiān)督,在出現(xiàn)問題時進行及時的干預,其初衷是非常好的。
不過,對這樣的舉措,我個人還有一些疑問。例如,當監(jiān)管部門可以實時監(jiān)控到所有網(wǎng)約車的運營狀況時,如果這些網(wǎng)約車的經(jīng)營出了某些問題,那么監(jiān)管部門是不是應該要承擔相應的責任,而與此同時,網(wǎng)約車平臺的責任是不是應該相應的降低?如果監(jiān)管部門不承擔責任,那似乎在理論上說不通,因為我們可以說它已經(jīng)參與了監(jiān)管。如果監(jiān)管可有可無,發(fā)生了問題不用承擔責任,那監(jiān)管又有什么意義呢?但如果真要監(jiān)管部門承擔責任,那似乎又在實踐上說不過去。我們知道,交通部的人員非常有限,要面對全國網(wǎng)約車的實時數(shù)據(jù)進行監(jiān)控,幾乎就是不可能的。如果出了事情就要他們承擔相應的責任,那么監(jiān)管人員要背的“鍋”就實在是太重了。
如何進一步推進政企之間的數(shù)據(jù)共享
在“大數(shù)據(jù)時代”,將散落在政府與企業(yè)手中的數(shù)據(jù)有效整合起來,積極發(fā)掘其價值乃是大勢所趨。不過,正如我們所看到的那樣,無論是由政府向企業(yè)共享數(shù)據(jù),還是由企業(yè)向政府共享數(shù)據(jù),在實踐當中都會遭遇很多的困難。因此,為了進一步推進政企之間的數(shù)據(jù)共享,我們還有相當多的工作要做。具體來說,以下幾點是比較值得重視的。
第一,應當推進與數(shù)據(jù)相關的立法,進一步明確在政府與企業(yè)之間,哪些數(shù)據(jù)可以共享,哪些數(shù)據(jù)應該共享。所謂沒有規(guī)矩,不成方圓。正如涂子沛先生的那部《大數(shù)據(jù)》當中指出的,美國政府對政府數(shù)據(jù)的開放,是在一系列法律、法規(guī)建設的基礎上實施的。從根本上講,我國在政企數(shù)據(jù)共享中遭遇的很多困難,也是因為相關的法律法規(guī)缺失所造成的。如果人們對自己的權利和義務不明確,那就很難開展活動。因此只有從法律的層面上落實數(shù)據(jù)開放規(guī)則,相關人員在進行操作時才可以按圖索驥,避免各種可能的障礙。
第二,在進行數(shù)據(jù)共享時,可以考慮不共享原始數(shù)據(jù),只共享數(shù)據(jù)產(chǎn)品或經(jīng)過脫敏后的數(shù)據(jù)。
其實,在很多情況下,我們最需要的并不是數(shù)據(jù)本身,而是由數(shù)據(jù)所生成的產(chǎn)品,例如數(shù)據(jù)運算的結(jié)果,或者由數(shù)據(jù)訓練出的算法等。以監(jiān)管為例,在我個人看來,如果監(jiān)管者想要了解的只是實時發(fā)生的問題(例如網(wǎng)約車的事故、糾紛等)數(shù)量,那么他們只需要讓相關的企業(yè)在自己的平臺上先運算出這些統(tǒng)計數(shù)據(jù),然后再將這些數(shù)據(jù)提交給監(jiān)管平臺就行了。從達成監(jiān)管的目標看,這樣做的效果基本是和要求企業(yè)提供所有實時數(shù)據(jù)是等價的——事實上,考慮到運算效率等問題,這樣匯報的效果可能還會更好。但與此同時,這樣的做法又可以避免前面我們所提過的很多問題。像數(shù)據(jù)泄露風險、數(shù)據(jù)價格問題,以及權責關系問題等,在這樣的操作下都將迎刃而解。
第三,應當積極采用各種新的技術來破解數(shù)據(jù)共享過程中采用的問題。
從最根本的角度看,要解決數(shù)據(jù)相關的大多數(shù)問題,最終還要靠技術的發(fā)展。我想,在當前的情況下,至少有兩樣技術是有助于我們解決這個問題的。
第一項技術是聯(lián)合學習算法。如前所述,我們現(xiàn)在需要大數(shù)據(jù)的最重要理由是,將更多的數(shù)據(jù)集合在一起后,就可以從它們身上挖掘出更多的信息。換言之,如果我們不需要將數(shù)據(jù)集合在一起就可以達到同樣目的的話,就不必再采用這種整合數(shù)據(jù)的思維了。這樣的理想可能實現(xiàn)嗎?答案或許是肯定的。目前,谷歌正在研發(fā)一種聯(lián)合學習技術。和過去的各種機器學習算法需要集中在一起不同,聯(lián)合學習算法可以利用分散在成百上千萬用戶手里的設備,協(xié)同訓練機器學習模型,而且所有的訓練數(shù)據(jù)都保留在原來各自的設備上。如果這種算法被證明為是成功的,那么或許在不遠的將來,所有數(shù)據(jù)所有者就不再需要開放共享自己的數(shù)據(jù),但卻可以享受到與開放數(shù)據(jù)相同的好處。
第二項技術是區(qū)塊鏈。我們知道,區(qū)塊鏈技術有一項重要的特點,就是可追蹤。如果將數(shù)據(jù)采用區(qū)塊鏈技術進行加密,在其整個轉(zhuǎn)移的過程中,我們就可以清晰地看到它的去向,知道它到底被誰使用過,又被誰復制過。有了這樣的技術條件,數(shù)據(jù)的提供者就可以對使用者在未經(jīng)自己允許的情況下泄露數(shù)據(jù)的情況進行有效追責,對于清晰界定數(shù)據(jù)的產(chǎn)權也會大有助益。
京公網(wǎng)安備 11010802028547號