NVIDIA再放“大招”，完善高性能计算边界

发布时间：2021-06-02 04:53:45 所属栏目：云计算来源：互联网

导读：新的参考设计平台：为Arm服务器提供GPU加速在SC19上，NVIDIA发布了一款参考设计平台，使企业能够快速构建GPU加速的Arm服务器，以满足日益多样化的科学和工业应用需求。该平台由硬件和软件基础模块组成，能够满足高性能计算（HPC）社区对于类型更加多样化

新的参考设计平台：为Arm服务器提供GPU加速

在SC19上，NVIDIA发布了一款参考设计平台，使企业能够快速构建GPU加速的Arm服务器，以满足日益多样化的科学和工业应用需求。该平台由硬件和软件基础模块组成，能够满足高性能计算（HPC）社区对于类型更加多样化的CPU架构日益增长的需求。通过该平台，超级计算中心、超大型云运营商和企业能够将NVIDIA加速计算平台的优势与最新的Arm服务器平台相结合。

为了构建这一参考平台，NVIDIA与Arm及其生态合作伙伴（包括Ampere、富士通和Marvell）联手，以确保NVIDIA GPU与Arm处理器之间的无缝协作。该参考平台还得益于与HPE旗下公司Cray和HPE这两家早期采用Arm服务器的供应商之间的紧密合作。此外，许多高性能计算软件公司已使用NVIDIA CUDA-X库来构建可在Arm服务器上运行、并可通过GPU实现的管理和监控工具。

黄仁勋表示：“高性能计算正在崛起。机器学习和AI领域的突破正在重新定义科学研究方法，并且可能带来激动人心的新架构。从超大规模云到百万兆级超级计算，NVIDIA GPU与ARM的组合让创新者们能够为不断增加的新应用创建系统。”

发布云上GPU超算：让每位科学家都能拥有一台超级计算机

会上，NVIDIA还发布了在Microsoft Azure云上的一种新型GPU加速超级计算机。此次发布的全新NDv2实例是Azure上规模最大的一次部署，该产品专为处理要求苛刻的AI和高性能计算应用而设计，是全球速度最快的超级计算机之一。它能在一个Mellanox InfiniBand后端网络上提供多达800个互联的NVIDIA V100 Tensor Core GPU。

这是首次用户可以根据需求，在自己的桌面上租用整台AI超级计算机，而且其性能与那些需要数个月时间才能完成部署的大型本地超级计算机相匹配。

这款新产品十分适用于复杂的AI、机器学习和高性能计算工作负载。相比基于CPU的传统计算，它具有显著的性能和成本优势。对于需要快速解决方案的AI研究人员来说，它可以快速启动多个NDv2实例，并在短短几小时内完成复杂的会话式AI模型的训练。

此前，微软和NVIDIA的工程师已在该集群的预览版本上使用64个NDv2实例进行了实验。他们用了约三小时完成了BERT会话式AI模型的训练。能够实现这一速度的原因之一是使用了NCCL（一款NVIDIA CUDA X库）提供的多GPU优化以及高速Mellanox 互联解决方案。

另一个优点是客户可以使用多个NDv2实例运行复杂的高性能计算工作负载，比如LAMMPS，这是一种流行的分子动力学应用程序，用于在药物开发和探索等领域中模拟原子级物质。相比于一个专用于特定应用程序（如深度学习）的、未使用GPU的 HPC计算节点，单个NDv2实例就能实现高达一个数量级的速度提升。如果需要进行大规模的模拟，还可以将这一性能线性扩展至一百个实例。

所有NDv2实例都能够受益于NVIDIA NGC容器注册表和Azure Marketplace中所提供的TensorFlow、PyTorch和MXNet等GPU优化高性能计算应用、机器学习软件及深度学习框架。该注册表还提供Helm图表，让用户在Kubernetes集群上可以轻松地部署AI软件。

（编辑：源码门户网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

三步减低云基础设施复	深度融合英特尔强技术
中国移动算力网络之路	中航云任涛打造跨境数