新知一下
海量新知
5 9 0 9 2 1 0

华控清交张旭东:打造数据流通基础设施,赋能数据要素流通新时代

算力智库 | 最深度的数字经济产业智库 2021/06/05 06:47

6月3日,由算力智库主办,中国信息通信研究院云计算与大数据研究所、隐私计算联盟、隐私计算技术联盟联合主办的2021第二届隐私计算产业与应用论坛在上海圆满收官。作为国内首个聚焦隐私计算领域的年度行业权威盛会,本届论坛再度召集众多政府机构代表、业界及学界大咖,畅谈数据智能时代隐私计算的广泛应用前景及巨大商业价值。

在论坛上,华控清交董事长兼CEO张旭东发表了题为《打造数据流通基础设施,赋能数据要素流通新时代》的演讲。张旭东认为,由于支撑数据流通的“可用不可见、可控可计量”技术在使用时需要消耗较大的计算和通信资源,通过基础设施可大幅降低数据流通的技术门槛和使用成本、提高使用效率。

新知达人, 华控清交张旭东:打造数据流通基础设施,赋能数据要素流通新时代

以下为算力智库整理的演讲全文:

张旭东:谢谢各位。简单给大家讲一下数据要素化是什么,数据要素化是中南海才子们妙笔生花非常好的创造,它到底是什么,数据要素化就是数据的市场化和货币化,市场化促进货币化,通过货币化促进市场化。这两件事情的基础和前提是什么,就是两个字——流通。只有流通才有市场,只有流通定价才有意义,才能够实现货币化。

为什么要把数据要素化?数据是优化的决策依据,也是国家战略,数据要素化的根本目的并不是数据的货币化,很多人做数据变现,很多地方政府也是奔着数据变现去的,但是数据变现只是手段不是目的,目的是什么?是拉动经济,提高人民生活水平。数据流通不但可以提高生产力,提高效率,就是劳动生产力,提高对资源利用的综合水平,怎样理解可以塑造新型的生产关系?

最近我们讲数据垄断讲的比较多,大家对数据垄断、反垄断都有新的认识,我在这儿提一句,数据垄断既有主观的一面,垄断方想要垄断它,创造超额利润,垄断的根本利益,扭曲定价,但是也有被动的一面,也不得不垄断,为什么?数据直到现在流通并不容易,我们还在想办法怎么流通,行业论坛都在研究、都在推动,在数据不流通的时候,数据堆在那儿怎么办,应用跟着数据跑,应用建在数据堆上,应用本身会产生更多的数据,循环往复,数据堆越来越大,数据堆上堆的应用越来越大,不垄断也垄断了,所以数据垄断有它被动的一面。

为什么说可以塑造新的生产力?我们想要做的就是让数据流通起来,让数据像水电煤一样流到用户的地方,流到用户的家里、流到你的手机上。这样数据流向应用就塑造了新的生产关系,数据流通本身是一个生态,数据流通以后因为数据流通了,数据流向应用了,它会创造新的生产关系、新的商业模式、新的数字经济生态,数据流通是打破数据垄断的根本手段。

这个讲三个时代,当我们家里电灯亮的时候进入到工业电气化时代,把能量量化,流进了千家万户。我1992年4月份第一次在美国上互联网,我那一天进入了信息时代,当初认为看一个网站、发一个邮件、读读报纸就够了,哪知道今天几乎我们每一个人都在网上,你们意识到了吗,你们上过网吗?没有,我们大家都幸福的生活在信息时代,标志是什么?是互联网,以及承载它的4G、5G通讯网络。未来的时代不要说了,数据智能时代,什么是数据智能,一个领导问我,开车来的吧?导航过吗?打开导航的时候,你把你的位置信息告诉了平台,你把你要去的地方告诉了它,每一个打开导航的人都在告诉他这些信息,它做的真正叫做数据融合使用,融合了几十万、几百万、几千万的用户信息,放在一张地图上,把优化后的计算结果数据智能输出到你的手机上,这就是未来数据智能、数据大规模融合应用的典范和雏形,那个时代的标志是什么?是国家级的数据流通,当我们每个人10年以后,我们不知道数据就在我们身边流转,我们甚至忘了数据智能这件事情的时候我们都成功了,成功的标志往往是你忘记它存在。

这是我今天要讲的两个话题之一,这是从科学的角度来讲数据流通需要新的数据观,因为这是一个新的事情,当我们讲数据的时候,99%的人在这个时代对数据的理解是错误的,所以先讲了明文数据,就是看得见的数据,就是通常大家广义理解的数据,流通是理论上是伪命题,它不成立的,这用两个理论来讲?明文数据的特性,一旦被看见,看见是人或者机器看见,就暴露信息了,就可以被复制,可以被传播,边际成本几乎为0,速度极快,一旦被复制看见,你还能够控制人家怎么用数据吗?不能了,所以无法理清责权利,不能拿出去共享、不敢拿出去分享,这是根本原因,数据流通、数据共享根本风险是数据滥用,怕数据信息泄露只是防止数据滥用的一个前提。数据的价值恰恰在于承载信息的不对称性,我知道你不知道,我有你没有,所以我的数据才有价值,你有我有大家有,数据还有价值吗,没有了。但是明文数据的流通的过程,我把它给你,恰恰是它价值丧失的过程,明文数据的供给和需求都是无限供应和无限需求,供需曲线是趴在地板上的,有无数个焦点,约等于0,能不能定价?无法定价,无法定价能流通吗?不能流通,之就是明文数据流通的困境。当然这是绝对的从理论上来讲,并不排除罗总讲的可用可见的数据使用和流通。

之前是数据主要从被人看的变成被机器算的,30年前我进入金融行业第一份工作就是算价钱,计算机就是我计算的工具,数据是给我看的,这是大前提。用密码学和现代计算机技术,可以把数据中可见的信息部分和用不着看见就能够进行计算的使用价值区分开来了,做到数据的可用不可见,你见不到就不能复制。同样,在这个前提下,你可以规定数据的具体用途和用量,用途是算法,可以精确到一个基础运算操作的层面,加法、乘法和比较,计算机只能算这三个算法,关一个符号,就是另外一个算法了,能够控制到这个程度,针对具体算法,这是数据用途可控可计量,这个已经都实现了。

可用不可见和可控可计量,将数据使用权、所有权分离开来,可定是特定的使用权,指定算法、指定用量的使用权,所以真正流通的并不是已经不再是明文数据了,可以不再是明文数据,而是数据的特定使用权。我们是不是就摆在商场卖数据特定使用权呢?数据的流通不是特定使用权的直接转手及传递,是通过市场配置和组合计算资源,这里包括多方数据、算法、模型、参数,这些都是数据,然后通过算力和带宽进行加工、输入能量,因为从量子力学来讲,从信息论来讲,几万是熵减的过程,必须需要能量,把计算结果给结果使用方或者需求方,这个过程才叫数据流通。数据交易是数据流通的一个特殊形式。所以,数据的价值怎么确定,其实数据的价值并不确定在数据上,而是在使用价值上,离开数据计算结果的使用价值,数据的价值本身无从谈起,所以数据流通发生在餐厅,不发生在菜场里,2013年开始,一直到2018年做了那么多的数据交易所、交易中心,开的是全都是菜场,为什么不成功?因为数据不能当做菜卖,定价也是如此。价值在番茄炒蛋上,但是你要西红柿、鸡蛋买回家自己炒,不行,就是不能让你把鸡蛋带回家,就是不能让你把西红柿带回家,因为把鸡蛋带回家了你是不是吃西红柿鸡蛋不知道,你如果把鸡蛋孵出来了吃鸡肉怎么办,所以不能卖原料,当然我这个说法是被密码学家严厉批评,被科学家严厉批评了,这是违背密码学原则的,因为西红柿炒熟了还是红颜色的,鸡蛋炒熟了还是黄颜色的,暴露信息,所以我们改了,改成面包了,面粉、酵母、油、糖混在一起变成面包了,还能够区别出来吗,还能够读出来信息吗?

从这个角度来看,有多少人现在吃面包是自己在家里做的?有,那是有钱有闲的太太,为什么?因为你做一个面包的成本先不说时间成本远远超过你到街角上买一个面包,而且需要有手艺,家里还需要面包机、烤箱,需要基础设施,大规模制造面包需要烘焙厂,最后那个是巴黎的面包店,面包店卖的不再是面粉和酵母,直接卖的是面包。

支持数据流通的可用不可见、可控可计量在使用的时候需要消耗较大的计算和通讯资源,需要有基础设施,需要中央厨房,开切实有公信力的中央厨房。

这个就是基础设施,投入的时候需要花大量的成本,但是投入以后使用的边际成本大量下降,可靠性、安全性大量提高,所以数据流通需要建设基础设施。

这里的蓝色节点叫做数据汇通节点,就是一个单位,就是一个政府机关,一个单位,一个学校,数据不能通,我们做一个总机,先用计算合约规定数据的具体用途和用量,用计算做到可用不可见,用区块链记录下来,做到可记录、会存证、可回溯、可审计,把所有总机和总机再连接起来,这个连接都是一对多、多对多,这个概念中所有数据源和另外其他的数据源,数据包括算法、模型和参数,都能够协同融合计算,在可控、可计量的前提下,这是我们展望的。这是国家对数据流通进行监测管理和宏观调控的基础设施,数据有可能不被宏观调控、不被监控吗?没有可能,其他所有要素有没有国家不监管、不调控的?没有,会形成新的数据流通生态,这是支持数据流通的新生态,这个生态之上还有一个生态,就是数据无声无息,已经在流通,流向你的时候,会有新的产业、新的生态、新的数字经济形态。

数据使用和流通具有巨大的负外部性,负外部性是经济学的概念,社会个体在进行活动的时候,不用为给社会或者其他人造成的伤害或者损害买单,就像化工厂往河道里倒脏水,在公共场合吸烟,是一样的道理,不用为社会后果和对别人造成的伤害买单的,数据尤其是个人数据或者其他人的保密数据,你在使用它的时候,是不是会侵害他人权益,会不会给社会造成危害,当然,泄露隐私还在其次,国家安全怎么办,我们天天收到推荐,觉得便利了,但是收到推荐的时候伤害了你的选择权,也伤害了没有使用这项功能的其他商家的选择权,所以数据使用有巨大的负外部性,和开化工厂差不多,我们只想要金山银山,总有一天我们会说数据的绿水青山比金山银山还重要。

数据一定要监管,因为它有巨大的社会性、巨大的负外部性,我们对社会资源使用的负外部性的监管、管理是有很多经验的。真正的数据监管怎么监管?我们在探索。既然数据要监管,今天在隐私计算方兴未艾的时候就要考虑到,在架构设计上、技术选择上要考虑到,防止再次出现初始的繁荣和过后的一地鸡毛,几乎我们国家所有的创新都不断重复这个模式,初始的繁荣和过后一地鸡毛,然后整顿、清理,管理中心化,信任去中心化的代理计算模式+区块链作为数据融合使用与流通体系顶层设计,还有就是模式问题,直连代理计算,这就是管理去中心化。你让某一个单位、某一个人对整个流通节点、平台去负责,怎么负责?所以要把信任去中心化,不信任一个人,信任多个节点,任何一个节点出现临时工现象,被攻破了,都不会造成数据泄露。

今天有很多技术选择,其实隐私计算并不是一个技术或者路线之争,我多次看到说隐私计算有派别,有什么派别,打赢才是结果,是多种技术的综合使用,但是任何技术都有长有短,真正区别在哪里?在是否支持监管、是否支持有效监管。代理计算模式,就是数据和计算是分开的,应用和数据也是分开的,所以有总机,总机中有经办人,就像你今天打电话给任何人,都是要通过中移动或者中国电信、中国联通,只要一拨电话号码存证了,什么时候给人打过电话,其实微信也是存证的。这是两两配对计算,其实不是多方计算,是两方计算,好多两方计算的叠加,最终变成了多方计算。这个环境下,你怎么监管?如何监管是一个难题,能不能解决?也许能够解决,但是一对一的两方计算是没有办法解决这个问题的,所以隐私计算并不是技术之争,而是模式之争,是一个模式的选择问题,而不是哪一个技术好、哪一个技术差的问题,而且技术本来就是要综合利用的,不是分门别派的。

这是算力+合约计算做到可用不可见,尤其是可控可计量,数据的用途才是数据流通的根本问题,数据的滥用才是数据融合、数据流通的根本关键问题,数据被滥用的风险极大。

大家要看着三个解耦,只有解耦才能够变成一个通用的模式,当然不是一套技术体系,未来数据流通就是要通用,就是不同形式的数据结合使用节点都可以打通,数据和算法如果是捆绑的就不能实现通用。

更多“大数据”相关内容

更多“大数据”相关内容

新知精选

更多新知精选