让深度学习高效有弹性的路径是什么?

DT时代 2019/06/15 00:49

从1956年夏天在达特茅斯首次提出人工智能概念以来,人工智能技术的发展已经走过了60余载。如今,随着数据量的爆炸性增长、计算能力的大幅提升以及深度学习算法的成熟,人工智能在第三次浪潮中迎来了“奇点”,基于图像识别、语音识别以及自然语言处理等技术的人工智能应用开始大量兴起,并且在真实的商业世界中扮演着越来越重要的角色。

然而,不可忽视的是深度学习对于算力和存储的渴求可谓是极其迫切,尤其是随着模型规模不断增大,数据量的不断增加,深度学习用于训练的神经网络深度也不断增加,传统计算平台的算力和存储性能的瓶颈逐渐显现。对于大部分人工智能公司而言,计算和存储性能的不足已经成为其人工智能之路上的重要挑战。

知识图谱,让深度学习高效有弹性的路径是什么?

地平线作为一家全球估值领先的人工智能芯片独角兽,在其人工智能产品研发过程中也遇到了类似情况,自身数据中心的计算和存储逐渐显露出性能短板。不过,地平线公司与国内领先的公有云服务提供商、英特尔公司共同合作,构建基于高性能云物理主机(Elastic Physical Compute,简称EPC)集群的模型训练计算平台,并且充分发挥英特尔傲腾性能、低延迟以及稳定性的优势,走出了一条云上构建高效深度学习平台之路。

不可忽视的性能短板

地平 线 是一家全球著名的人工智能 创业 公司, 有世界 先的深度学 和决策推理算法开 能力,其自主研 AI 芯片和算法主要 用于智能 驾驶 、智慧城市和智慧零售等 景。

众所周知,深度学习本质就是一种大规模的神经网络,其模型训练通常需要规模庞大的高性能计算集群来完成,并且需要大量小文件数据样本进行持续训练。业界普遍认为,深度学习至少要从十万个样本起步。自动驾驶领域是深度学习一个重要的应用领域。在自动驾驶领域,深度学习对于数据样本的要求则会更高,当前一辆自动驾驶汽车一天收集的样本就是上百万张高清图像,并且需要不断地对这些海量数据样本进行持续学习。以地平线面向智能驾驶的算法为例,地平线预测未来一辆自动驾驶汽车每天在路上产生的数据就高达4TB。

知识图谱,让深度学习高效有弹性的路径是什么?

尤其是,随着深度学习训练数据的不断扩容,以及训练过程中的高并发和高 IO 需求,地平线专家团队意识到自身数据中心中存在的各种短板,尤其是在存储系统的短板最为突出。首先,旧有存储系统在低延迟数据访问、海量小文件存取以及扩展性方面都有待提升,已无法弹性应对地平线深度学习所需的海量数据读写。其次,地平线由上一代固态盘、硬盘组成的存储基础设施,也无法提供与强大计算力相匹配的 IOPS能力,形成了明显系统性能瓶颈。

因此,构建起实现弹性扩展的数据处理与训练的深度学习平台就成为地平线专家们的当务之急。

云计算为深度学习提供源源不断的动力

在公有云上 行深度学 习训练 是目前人工智能 用中一个重要的 趋势 。公有云 大的算力,并且 性、可 展的特点,能 提供源源不断的 算力,在云端通 深度学 不断 行大 训练 ,并且不断将 训练 好的新模型部署到本地 用之中。 此, 应对 深度学 日益增 算力和存 能力需求,除了自建数据中心以外,地平 线 也将目光投向日 成熟的云服

地平线选择了金山云EPC集群作为模型训练计算平台,并且借助英特尔领先产品和技术提供的强大计算、存储和网络性能,为这一深度学习平台构建了基于 Ceph 的高性能分布式存储系统。由英特尔傲腾固态盘DC P4800X与传统机械硬盘组合构建的分层存储能力,使得地平线深度学习平台存储系统在读写速度、存储容量以及成本控制方面都获得了可观的收益。

知识图谱,让深度学习高效有弹性的路径是什么?

图:金山云EPC集群架构图

金山云EPC 云服务是金山云基于裸金属服务器理念构建的创新型云服务产品,其可为地平线提供性能卓越的独享物理服务器,通过安全、稳定、便捷的计算、存储服务帮助地平线快速构建高性能的深度学习应用平台。同时,金山云优秀的云网络架构,也能让地平线可以在云环境中方便地配置和使用物理服务器,既享受独享物理服务器带来的高性能,也能方便地获取负载均衡、弹性IP等各类网络服务,并可进行便捷的网络部署与管理。

除了向地平线深度学习应用提供强有力的计算力支撑,金山云 EPC另一个重要任务是为其提供高效、可扩展的存储系统。为应对不断扩展的海量训练数据集,地平线利用金山云 EPC 提供的弹性、易扩展能力,构建了基于Ceph的高性能分布式存储系统。Ceph 开源分布式存储系统将文件分割后均匀随机地分散在各个 OSD 节点上,并采用CRUSH 算法来确定文件的存储位置。通过解析集群的拓扑结构,地平线深度学习应用可以直接计算出文件的存储位置,直接跟OSD节点通信获取文件,而无需通过询问中心节点来获取文件位置。

这一“去中心化”的设计,不仅大大地提升了数据访问与处理性能,更有效降低了金山云 EPC 存储集群的管理复杂性,并显著提高了可用性及可扩展性。同时,其采用存储节点与访问节点分离的设计,也使得地平线深度学习应用的 IO 请求上升时,可为其单独扩充访问节点来提高读写性能,从而带来良好的弹性扩展能力。另外,Ceph 还对固态盘,以及分级存储有着良好支持,这也能够有效地提升数据读写效率。

傲腾让深度学习如虎添翼

深度学 习对 于存 的性能要求尤 苛刻。在深度学 的模型 训练 中,算法通常需要随机 训练 集中的 训练样 本来 训练 ,像自 动驾驶这样 的深度学 典型 景中,通常都是 于海量小 取,当 训练规 模不断增大之后, 于存 IOPS 提出了极高要求。因此,地平 线 在利用深度学 方法研 AI 芯片和算法 程中, 于海量数据的快速 理有着 烈的需求。

但是,传统机械硬盘受制于其物理结构,其IOPS性能并不理想,在应对地平线深度学习应用所需的小文件高频次读写需求时,难以胜任。如果采用全固态硬盘的方式,固然可以提高IOPS能力,但是昂贵的价格也会带来巨大的成本压力,并且会限制存储系统容量的扩展需求。

知识图谱,让深度学习高效有弹性的路径是什么?

图:英特尔傲腾+HDD构成的分级存储模式

为此,金山云 EPC存储集群中采用分级存储方案来实现性能与容量之间的平衡。非活动数据(冷数据)被存放在由12块8TB 容量机械硬盘组成的存储池中,而活动数据(热数据)则被置放在由375GB版本的英特尔傲腾固态盘DC P4800X构成的缓存区中。当地平线深度学习应用对数据进行访问和操作时,Ceph 分布式存储系统的内部处理器将优先读写缓存区中的数据,如果数据不在缓存区中,Ceph 会通过请求命中算法、缓存刷写算法、缓存淘汰算法等方式将数据从存储池中“提取”到缓存区中。通过这一方式,既可使热数据被高效地访问和操作,缩短数据的访问时延,也能以更合理的成本承载地平线深度学习应用所需的海量数据。

英特尔的傲腾固态盘可谓是让地平线深度学习训练如虎添翼。傲腾固态盘是基于创新的英特尔3D XPoint技术,以及一系列先进系统控制器、接口软硬件构建的全新存储产品。根据测试数据显示,英特尔傲腾固态盘DC P4800X 的 随机写IOPS 最高可达 500,000,同时读取响应时间低于10微秒,并可承受最高2 GB/秒的随机写入压力。与传统NAND介质的固态盘相比,傲腾在IOPS、低延迟以及稳定性方面有着突破性的提升,非常适合于大数据、高并发的应用场景。

知识图谱,让深度学习高效有弹性的路径是什么?

地平线在使用了采用傲腾固态盘的存储集群之后,也认为相比于上一代的SATA接口固态盘、采用NVMe接口的DC P3700在性能上都有大幅提升,为地平线深度学习应用带来强劲的存储能力支撑。

此外,地平线还将傲腾固态盘来承载Ceph Journal。Journal 是Ceph 分布式存储系统最重要的安全机制之一,一旦发生停电、宕机或其他意外事件时,Ceph 可利用Journal 进行系统重建。Ceph Journal中记录着存储系统事无巨细的数据,IO请求极为密集,采用傲腾固态盘来承载Journal,无疑让Ceph读写性能获得显著提升。

打造深度学习训练的完美组合

根据 Garnter 报告显示, 2018 年全球人工智能市 场规 模将达到 1.2 亿 美元,同比增 70% 。近年来,随着以地平 线为 代表的一大批人工智能企 业诞 生,以及它 们对 于新一代人工智能 景的探索,使得深度学 在很多 业务场 景中得到了广泛采用。地平 线 利用云服 + 行深度学 习训练 是人工智能企 利用云 业务 来提高 AI 效率的典范,通 云服 + 储这对 完美 合, 地平 线 的深度学 更加高效和 性,大幅提升了整个 AI 用的效率。

随着业务的不断深入,未来一定会有越来越多的人工智能公司采用云服务+傲腾存储的方式来部署日常的深度学习训练,加快人工智能技术在各个行业业务场景中的应用。

变革与创新,从未停息。DT时代(微信号:DTtimes)聚焦最新基础架构设施和技术的的进展,关注企业数字化转型优秀案例,专注企业级方案和技术的传播和创新企业的成长,触及企业的变革与转型,目前覆盖的渠道有:搜狐新闻(DTValue)、今日头条、天天快报、凤凰新闻、网易新闻、大鱼、一点资讯等多家平台。

DT时代
收藏 | 微信分享 微博分享 QQ分享 | 返回顶部