新知一下
海量新知
6 6 1 4 1 5 1

一大波网络爬虫正在袭来!如何保护企业数据资产不为他人所用

御数坊 | 御数有道,独具匠心 2022/11/22 23:31

机器学习正在收到大部分公司的青睐,但部分供应商正在利用机器学习 Machine Learning(ML)为自身利益而挪用有价值的企业数据;然而,这些价值是由他们的企业客户承担的。无论它是使用这项技术的平台还是应用程序,各种规模的ML公司都想要您的数据,并且基本上将其用于自己的业务收益。

新知达人, 一大波网络爬虫正在袭来!如何保护企业数据资产不为他人所用

每个人都知道,像谷歌这样的大公司一直在网络上积累用户数据。模式很简单:让人们使用免费服务(社交网络或搜索引擎),收集他们的数据,并将其出售给广告商。ML特定的供应商有自己的模式:低成本或免费吸引企业用户,根据他们的数据训练模型,然后将其出售给其他用户——甚至竞争对手。大多数人没有意识到的是,较小的供应商——包括平均的五人的初创公司——也在这样做。

客户数据过去只属于客户。今天,供应商需要使用客户数据训练他们的ML,拥有模型,然后再返还给客户。

这些供应商有两种商业激励措施来有效收集企业数据。首先是模型训练。大多数ML供应商使用相同的算法和方法,因此那里没有竞争优势。该模型的训练数据是真正的竞争差异化因素,使一个比另一个更好。该模型的价值(和供应商的价值)与培训数据的独特性、质量和数量直接相关,也是供应商如此积极地积累数据的根本原因。

ML供应商的目标是建立一个数据护城河——其他人没有的专有数据——这样他们就可以销售其他人无法销售的ML功能。这吸引了风险资本家,因为这些模型无法从每个人都可以访问的公共数据中创建。私营企业数据构建数据护城河,这就是为什么保护成本如此之高。

新知达人, 一大波网络爬虫正在袭来!如何保护企业数据资产不为他人所用

第二个激励措施是创建ML产品,而不是服务。ML技术需要大量的时间和精力来构建准确的模型;供应商不想从头开始与每个客户开始。例如,如果他们花长达18个月的时间为企业客户制作模型,他们就是服务公司——这是有问题的,因为风险资本家更喜欢产品公司,因为它们的利润率、倍数和商业估值都更高。从企业数据转售模型可以创建ML产品,而不是服务。

由于ML公司正在收集尽可能多的独特企业数据以取得成功,首席信息官必须采取措施保护其数据资产。如果没有,他们处于令人羡慕的地位,允许ML公司获取数据,在上面训练他们的算法,并将其出售给他们和竞争对手。

传说中的数据护城河

问题在于,数据护城河很少存在于专有企业数据之外,因为它们比人们想象的更难获取。Andreessen Horowitz详细介绍了 这里的艰辛 。因此,建立数据护城河的主要方法是使用专有企业数据。例如,保险公司可能会使用计算机视觉来加速损坏评估和维修。这样做需要审查许多事故、车辆部件、原理图等,创建一个独特的数据集来训练底层计算机视觉模型。这样做的ML供应商将有一个数据护城河,因为其他人没有这些数据,使其能够为这个利基市场构建一个无与伦比的图像识别模型。风险资本家投资这些公司,因为他们可以垄断市场。

ML供应商可以通过尽可能多地出售基于这些数据训练的模型来利用他们的数据护城河。这还包括将这些模型出售给向ML公司提供数据护城河的组织的竞争对手。例如,汤普森路透社向尽可能多的客户出售其新闻。需要大量的资本才能说服它只向一个客户出售新闻。数据护城河是一样的:供应商通过将这些专有企业数据出售给尽可能多的各方来将其货币化。

给数据贴标签是个技术活

当组织标记其数据并将其交给ML公司时,ML公司会获得他们的人类专业知识,并在市场上出售。例如,像Grammarly这样的应用程序通过向用户展示语法更正来标记数据提供了机会。每当人们接受或拒绝这些更改时,Grammarly的算法都会变得更加智能。这种贴有标签的数据成为基于最终用户知识的数据护城河,类似于以下金融分析师用例,即一家投资银行公司正在使用ML工具,并向研究人员支付最高美元进行情绪分析。

如果他们覆盖系统建议,指出特定新闻项目在真正积极时是负面的,这可能会成为供应商的专有标签数据,除非公司有特定的合同语言来保护其利益。没有它,供应商将获得报酬,从人类专家那里提取数十年的财务知识,以改进供应商的算法。诚然,专家组织从这一改进中受益,但供应商销售给的整个市场(包括竞争对手)也是如此。想象一下,将高盛标记的模型输出的数据出售给摩根士丹利和瑞士信贷。除非一个组织保护其利益,否则它最终会在这笔交易中失败。

确保数据所有权

企业必须在传统软件合同中插入特定语言,以指定数据所有权,并防止ML公司向竞争对手出售有价值的企业资产。所有权包括以下三个方面:

  • 原始数据:拥有组织提供给供应商的原始数据已成为软件最终用户的既定考虑因素。对于雇用为多个组织创建和定制模型的ML专家来说,这一点尤为重要。

  • 标签数据:确保组织标记数据的所有权远不如对其原始数据的所有权明显,因为许多最终用户公司对此并不清楚。在上面的投资银行用例中,人类主题专家对情绪分析的更正成为组织而不是供应商应该拥有的一种标签数据形式;这与仅拥有原始数据不同。

  • 模型权重:许多组织不知道他们应该拥有ML模型的权重,这些权重在他们的标签数据上经过训练。ML模型由系数、权重、参数和超参数组成,这些参数是预测所必需的,也是从数据中估计或学习的。当这些是从公司标记的培训数据中估算或学习的,组织有权拥有该模型的这一部分。

表示原始数据、标记数据和模型权重的所有权,通过阻止供应商将这些模型部件出售给竞争对手来防止数据被盗。供应商希望相反:学习您的数据,为给定的预测建模问题生成权重,然后将其转售给其他人,特别是转售给同一行业的其他公司,例如您的竞争对手。

知识产权

对ML公司保护最终用户利益的数据和模型所有权的许多担忧都归结为保护知识产权。组织应该明白,供应商对企业数据的目标基于其监督学习对标记培训数据的依赖。这种依赖性助长了供应商通过数据护城河获取和利用数据的需求,以吸引风险资本家的投资。让这些数据成为真正的产品公司而不是服务公司也至关重要。

重要的是,组织意识到,标记数据和模型权重是一种资产。与IP等任何其他资产一样,当这些标签或型号权重转移到供应商或竞争对手等第三方时,价值就会受到损害。虽然在执行这些新的合同义务方面可能存在挑战,但仅仅包括这些义务将使供应商仔细考虑违反这些义务的行为,并产生广泛、昂贵的法律或合规影响。

数据资产的管理能够有效的防止企业数据价值的外流,同样有效的数据资产管理也是提高数据质量,提升企业数据治理水平的关键。如果理解数据资产,如何才能让企业数据资产发挥最大的价值,数据团队应该如何对待日益庞大的企业数据资产,行之有效的提供管理,御数坊特别企划,数治理直播小课堂《学会如何管理数据》带大家一起认识一下数据资产理论与最佳实践。

更多“数据安全”相关内容

更多“数据安全”相关内容

新知精选

更多新知精选