新知一下
海量新知
5 9 0 9 0 9 5

徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

算力智库 | 最深度的数字经济产业智库 2021/09/03 08:56

因为今天的主题是信任,所以我想从另外一个角度来观察现在我们做的数据要素流通技术或者叫隐私计算技术,不会讲的太技术化,但更多的我希望能够让大家从另一个角度来思考这个问题,或者来评判这个问题。

那么数据要素化有什么用?这个事情我觉得大家也说的比较多了,国家非常重视,为什么要重视?首先数据不能动是对社会生产的一个重大的损失,这个很重要,生产要素必须要流动,如果不能流动,那就叫做逐水草而居,这件事就很难受了。

现在我们就面临着这么一个问题,其实你听起来数据应该是最容易流动的,它不就是数吗?它不就是顺着互联网就能走了吗?但是因为种种障碍,种种规定和人的思想问题,其实你数据动不了,反而是其他的生产要素能动,结果最后就形成了数据垄断,然后实际上社会生产的效率就低了,我觉得这个事情实际上是一个很大的问题,所以国家要推动数据要素化,让数据能流动起来,对于效率上来说肯定是好事情,所以生产效率最大化,你看所有能动的生产要素,它都是朝着生产成本最低的地方去的。

新知达人, 徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

阻碍数据流通的根本障碍是信任基础的缺失

我有个朋友来找我解决数据问题,我说好,但其实他不会把数据给我,为什么不给我?因为他觉得我肯定会滥用的,所以这个事引发了我一个思考,其实数据的供需方或者买卖方,你说我把数据卖给你,我的成本是什么?

我的成本主要是弥补了你可能潜在对我的伤害,但是你现在对我伤害是什么?未可知!因为我不知道你怎么用的,我也不知道你是不是用数据的水平比我高,我也不知道你是不是还有什么其他的数据,跟我的数据结合起来会伤害我,所以这个损失是未知的。

但是实际上你如果是一个善良正直的买家,你买了数据之后你就这点用处。

我跟你说,因为你可能给我造成这么大风险,所以你得赔给我这么多钱。你说我就这点用处,居然要给你那么多钱!所以这事它本身就是谈不通的,也没希望谈成,所以大家为什么要研究隐私计算技术,就是因为我希望能够让数据可用不可见了,我把数据给了你,你怎么用?我知道,因为你用完了之后我才给你解密最后的结果,你需要我的帮助才能用得起来, 如果你滥用了,我就不给你解开。所以我就能够限制住数据的用途。

新知达人, 徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

隐私计算技术跟一般的保密技术不一样,一般保密技术就是说我把数据藏起来就是不让你用。

传统数据保密和加密传输的技术,防止的是中间有一个人在网络上给偷了,但是基本的感觉就是我信任你,我信任对方。

所以信任基础不一样,就是我信任拿我数据的这个人,我肯把数据给你,我肯让你解开明文数据,所以我相信你不会滥用。然后可用不可见的隐私计算技术就是根本连对方都不想信,我绝对不会给你明文数据,你必须在我的配合之下,才能使用数据,得到结果,这个时候我可以限制你滥用,所以两个技术并不一样,隐私计算技术减少了一种我需要的信任,就是我信任对方不滥用我数据,从技术上抑制住滥用数据的可能性。

新知达人, 徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

但隐私计算实际上我觉得这些年的发展忘记了一点,其实数据应不应该流通,或者应不应该融合,应不应该这么用,它不是我和你买卖双方的事情,它是需要一个社会的信任的,为什么这么说?

我们觉得隐私计算从技术上来讲,它基本的假设就是我得有这动机,我想保护我的数据我才这么用,但是事实上大家看一看市场上很多公司,过去就是把明文数据拿出去卖的,但为什么要改隐私计算?那是因为社会规定不让他卖。

大家说什么灰色数据、来路不明的数据不能卖,什么现在国家要出数据安全法,要出个人隐私保护法,我个人买卖数据和社会有关系吗?当然有关系, 因为数据的使用我认为它存在相当强的负外部性,跟污染排污是一样的。

新知达人, 徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

比如说脏水治理我肯定是不想付排污费的,我把它倒到河里,其实没人能举证,只要没抓住现行,别人就没法举证,我伤害了谁,我伤害了别人,我得到了利益,所以这就叫负外部性。

负外部性的治理是需要监管的,在没有监管的情况下,大家都会去攫取负外部性,因为这东西给我挣钱。

所以我们希望的隐私计算技术或者是数据融合的技术,它应该重点包含一个事情,就是跟监管是兼容的, 有监管的话,数据的流动能够除了得到我的信任之外,还能得到社会的信任。

否则的话隐私计算技术就变成了一种逃避监管的技术,就是我掩盖了我交易数据的事实,掩盖了我交易了什么数据,让大家不能举证。

这里又出现了一个问题,他就多了一人叫监管,我为什么要信这监管?所以实际上涉及到信任传递,大家说为什么不信监管?因为你看每一方都有临时工的,监管方肯定是好人,但是监管方的临时工未必是好人,他都是人,所以事实上你把数据给了对方,你就得信任对方,你得信任对方的临时工。所以这个事情的核心要点是我们应该信谁,所以信任是不断在传递的。

实际上你想做一件事情,需要信任很多乱七八糟的东西组合在一起,所以为什么数据融合比较难,因为你觉得谁那出了问题,你数据都会泄露的,那么我们做隐私计算或者做任何的技术,这个技术的作用是为了给每一个参与方提升信任的基础,然后作为一个整体,我们能够让监管让社会能够看到里面到底干了什么,所以我们能增加社会对整个事情的信任,这个就叫我们认为的信任基础。

技术是为了增加信任基础的,所以能够让社会信任大家,能够让几方之间互相信任,这是技术的作用。

然而你要想让技术有用,我们必须得说这个技术本身它又信任了一些信任的假设,这些信任的假设反而是我觉得大家在讨论这些技术的时候,没有认认真真思考的东西。

信任基础其实蚂蚁金服有句话,我觉得说得很好, 因为信任所以简单 ,你信任了他就简单了,但是现在你要不信,就特别复杂。

国外的人喜欢搞一个律师,看为什么这么多年隐私计算在中国很火,在国外反而没有这么火,原因即如此。

在美国律师有过剩的,你找个律师来看着,在中国我们过去也可以做,因为我可以找一个政治过硬的系统,还有一种东西叫安全屋的技术,你信这些东西其实也可以,因为有了这些东西之后,你就不需要更加复杂的技术来保证信任,但是这些东西你得确认它,你真的愿意信他,所以这个事情就变得比较简单,但是在很多情况下,我不愿意信这些,或者我没有这些资源来让我信任,怎么办?

那你就只好使用一些技术的手段,很多人都说这是不同的技术选择,或者是技术不同的流派,我觉得用哪个都行。其实它不是这样的,我今天想给大家分享的是, 我认为其实每个技术它是有性价比的,有些技术性价比明显更好。

所以如果你满足了你信任的基础和前提,你就应该选择性价比最好的那个而不是选别的。 但是信任基础从哪里来?每一个技术给的信任基础是不一样的,信任基础怎么决定?是因为你的数据是什么样子的,你的应用场景是什么样子的?你选择了这些场景和信任基础,你就选择了这种技术。

新知达人, 徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

新知达人, 徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

几种主流数据隐私技术方案的对比

比如说最简单的技术,祖传的数据隐私方案——数据脱敏,或者叫做匿名化、假名化,这种古老的技术内卷的不行了,它还能再细分出无数种不同的技术方案来。

新知达人, 徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

它为什么叫祖传的?因为很多行业标准就是这么写的,它符合很多行业所谓的数据隐私保护标准,假设你信这种技术,或者你信这种东西他不会泄露秘密,他就不会。

为什么不会,因为它里面还有一些统计信息,包括各种各样的侧信道,比如李某某挣21,000块钱,你们公司如果没那么大的话,那么挣21,000块钱就这一人,所以你就一下就知道谁是谁了?但是如果你公司够大,那就没这问题?因为好多人挣21,000块钱,所以不知道是谁。

那么这个时候就有一个差分隐私,因为他把很多人融在一起了,所以这个叫做k匿名性?实际上我是在k个人里混着,很多古老的个人隐私标准都是这样写的,然后如果我没这么多人怎么办?我把这21,000稍微再改一改,再加一点噪声,也可以做。

反正有各种各样的手段来增加可信程度。它事实上保护的是个人身份信息,最大的一个问题就是没有保护数据集的统计信息,因为它特意就是为了暴露统计信息,但是你看统计信息的同时,它是不是也暴露每个人的身份特征,那么统计信息为什么敏感?有时候敏感有时候不敏感,主要看应用。

所以现在互联网公司很多情况下,大家觉得它造成了伤害,实际上是它的统计规律和暴露出来的人群行为的统计,反而对国家造成了伤害。

从另一个极端来说,这个也是一种古老的手段,就是密码学的手段叫多方安全计算,因为百万富翁问题是80年代初提出的,多方安全计算更多的是一个提出了一种问题,而不是一种解决方案。

这个问题就说我有一个x,另外一个人有y,然后我想在中间算出一个任意的结果来,但是我不想把x和y暴露给任何人。

它的优势就在于它可证明和理论上看起来很漂亮,理论上看起来很对 ,但是有两个核心问题,一个核心问题是没说监管问题,它里头没有第三方,任何第三方也不能猜出来我们俩到底是拿什么数据算的, 这个时候它完全变成了一个黑盒,或者变成了一种去监管的技术。

还有一个问题它特别慢 ,为什么慢?是因为他用了一种东西叫公钥密码,为什么要用公钥密码?是因为我们俩干的事不一样?然后所以我的能力和你的能力不一样,我的密钥和你的密钥不一样,这样在不泄露我的密钥的情况下,你能干点什么事情。

所以公钥密码都很慢,比对称密码慢多了,尤其是你要做通用技术的时候,它就更慢, 所以这是一个它的好处,好处是信任特别少,我什么都不相信,这些基础的东西你要都不信的话,就没法在数字世界中生活了。

为了解决公钥密码问题,我就想把我的密钥藏起来,怎么藏起来?我就做一个东西叫做飞地?就是这块地方虽然我给了你,但是这个东西藏在一个我信任的芯片里面,你抠不出来,我们中文有一个非常漂亮的翻译叫可信执行环境,英文叫做Trusted Execution Environment,Trusted应该翻译成被信任的,而如果要是可信的,英文应该叫做Trustworthy Execution Environment,Trusted和Trustworthy 两个词在安全领域是完全不同的,所以它的基本信任假设就是你认为芯片是Trusted的,它是安全的,因为你有信任假设了,所以你没必要探讨这个东西到底安不安全,数据只在芯片里可见,可以做到一些其他方案都做不到的事,比如说把程序也保密起来,然后这个东西能做监管,因为它是一个安全的Enclave,它可以跟监管之间再交换另一个密钥,把监管的事情也做了。

唯一的问题就是你得信任这颗芯片, 这样的芯片很难实现,你看Intel实现过程中有遇到各种各样的漏洞,为什么?因为它有各种Timing问题,侧信道问题,这些特性都跟性能优化有关系,所以你既然要性能优化,就必须假设这些东西都不存在,而且你在里头跑的程序越复杂,其实你开放的接口和使用的功能就越多,实现起来就越复杂,然后越复杂的东西你就越不知道它对不对。

所以你看不同的东西,它有不同的信任,然后看起来每一种方案它都不对,它都不是非常完美的方案。

确实现在使用的方案都是多种方案的组合 ,比如说联邦学习,我再换一个安全假设,我说单独的参数会暴露数据,我干脆把它加密起来,我用一个同态加密的手段把它加密起来,然后整合的数据我再解密,返给他。我假设整合出来的中间结果不会暴露数据了,就是说我只暴露了一个整合的参数,而不是暴露每方的参数。

新知达人, 徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

新知达人, 徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

信任基础决定技术选择

那么回顾一下,刚才我说信任基础决定技术选择,大家不是因为我喜欢什么技术,或者说客户说我喜欢什么就选择某种技术,但事实上你喜欢什么技术,实际上是由你的信任假设来决定的,你应该信什么?在你的数据情况下你应该信什么,你一定要把你所有能信的东西都勾出来,勾完了之后你自然就找到了你性价比最好的那种技术,

信任,如果加上管理,加上法制是非常重要的,为什么我这么说?你看所有的信人、信命、信管理都是信一个法制,你信硬件也是一样的,为什么大家愿意信芯片,不愿意信自己的管理员,因为管理员我觉得我告你也搞不出多少油水,但是芯片是一个厂出的,芯片厂还蛮大的,我去告他去还能查出来油水来。

还有一个很重要的点,就是它需要能够监督、能举证,所以凡是那种不能监督不能举证的技术,实际上就缺乏了法制的信任,因为人家坑了你也不知道到底应该怎么办。

当然之前说的都是保密性,其实数据使用中还需要其他的信息,咱们简单的说一下时间关系,比如包含了数据不被篡改,数据不被篡改就是区块链说的这些事情,其实这个事情你现在想是最容易的,数据不被篡改就是我已经存进去的数据,你别再偷着给我在什么时间给我改了。

为什么我们有公链技术,刚才我说我要身份认证,我要能举证它,现在我连身份认证和举证他都不要了,所以说明防止篡改是一个最容易实现的,区块链现在基本上能完美地实现它。

新知达人, 徐葳:阻碍数据流通的根本障碍是信任基础的缺失!|2021KDD Trustday精彩回顾

最后总结一下, 就是说数据要素流通最核心的东西是信任基础 ,包含了两个参与方之间要互相信任,更重要的是,我需要社会上能信任我们的数据是正确使用,没有伤害社会的利益,国家利益和人民的利益。

然后还需要技术手段和管理手段的结合 ,任何的信任技术都是这两个结合,技术手段提升了管理手段和传统信任手段的信任程度。

信任的需求有多个维度,保密、不篡改、程序正确运行、数据真实性。这四个维度,我认为它是正交的,所以你可以选择要一个维度或者不要另外一个维度,或者都要,当然你越要的多,信任的东西越难做,技术越难做,你成本越高,但是你每一种技术本身它是需要信任基础的,所以大家下次以后再思考隐私计算,你准备用什么样的技术,你准备增加什么样的信任,你数据流通的时候到底想保证什么, 我觉得首先从信任基础的角度来考虑,然后你才能够找到最低要求的信任基础 ,这个时候你就一定会选择到最适合且成本最低的一个方案。

文章所载观点仅代表作者本人

 且不构成投资建议

敬请注意投资风险

更多“大数据”相关内容

更多“大数据”相关内容

新知精选

更多新知精选