AI 性能暴涨 7 倍,AMD 昨夜发布 Instinct MI100 新卡,英伟达也祭出百亿亿次超算时代神器

作者:admin| 发表于2020-11-17 23:51 点击数:

新智元报道

来源:外媒

编辑:QJP

AMD (超微半导体公司)昨夜正式推出其 AMD Instinct MI100 加速 GPU 芯片,这是一款新的图形处理器处理器 ( GPU ) ,在科学研究计算方面起着专门的加速器作用。

这种 7nm GPU 加速器使用 AMD 的 CDNA 结构来处理高性能计算 ( HPC ) 和人工智能任务,这样科学家们就可以从事重负荷的计算任务,比如冠状病毒研究。

AMD 推出 Instinct MI100 芯片,AI 性能暴涨 7 倍

AMD 公司表示,MI100 芯片是世界上最快的高性能计算处理器 GPU,也是第一个性能超过 10 万亿次浮点运算的 x86 服务器 GPU。

该设备支持新的加速计算包括 AMD 的客户:戴尔,技嘉,惠普和超微。

AMD 高级副总裁丹 · 麦克纳马拉在新闻发布会上说 : 「高性能计算机在分析感染冠状病毒、开发疫苗以及各种生命科学应用的可能性方面确实发挥了非常重要的作用」。

MI100 与第二代 AMD Epyc 处理器和 ROCm 4.0 开放软件相结合,旨在帮助科学家取得科学突破。

用于图形和企业的 GPU

今年 3 月,AMD 发布了其首个专门针对数据中心高性能计算而设计的 CDNA 架构,与其 Radeon 的 RDNA 游戏架构分道扬镳。二者虽然还有一些共通点,但在设计、优化上已经在各自的领域里有了不同的特色。

Brad McCredie 在新闻发布会上说,有充足的证据显示数据中心应用程序的 CPU 进度相对于 GPU 的进度已经放慢,而最近,通用的 GPU 也开始放慢它们的进度。

这就是为什么 AMD 将其设计工作分为消费者图形处理器和企业 / 服务器图形处理器,因为图形处理和人工智能处理的需求可能非常不同。这种独立的架构方法与英伟达仅使用一种架构的方法形成了鲜明的对比。

AMD 的内部人士也称,不同的任务处理实际上并不需要共存,没有必要用一个芯片去玩 steam 游戏的同时也可以进行高级分子模拟、抗震分析或天体物理模拟。

在命名方面,AMD 也放弃了 Radeon 字样,不再叫做 Radeon Instinct,而是简单改成 Instinct。

Instinct MI100 是 AMD 史上性能最高的 HPC GPU,FP64 双精度浮点性能达到了 11.5 TFlops ( 也就是每秒 1.15 亿亿次 ) ,并在架构设计上专门加入了 Matrix Core ( 矩阵核心 ) ,用于加速 HPC、AI 运算。

AMD 称其在混合精度和 FP16 半精度的 AI 负载上,性能提升接近 7 倍,为 AI 和机器学习工作负载提供 FP32 Matrix 单精度矩阵计算为 46.1TFlops ( 每秒 4.61 亿亿次 ) ,FP16 Matrix 半精度矩阵计算为 184.6TFlops ( 每秒 18.46 亿亿次 ) ,Bfloat16 浮点为 92.3TFlops ( 每秒 9.23 亿亿次 ) 的性能。

软件开放平台 ROCm 4.0

AMD 的 ROCm 开发者软件为百万兆等级的运算提供了基础,ROCm 4.0 已经进行了优化,以便为基于 MI100 的系统提供大规模的性能。

2018 年 AMD 发布了 ROCm 的 2.0 版本,到 2019 年又发布了专注于机器学习和深度学习的 3.0 版本,再到昨晚最新发布的 4.0 版本,ROCm 已经打造成了完整的针对机器学习和高性能计算的开发方案,渐渐形成了一个完整的生态,用于各个领域的高性能计算。

既然 AMD 发布了 MI100,那老对手自然也不会缺席。

AMD 这款芯片的竞争对手是 80GB 版本的 Nvidia A100 GPU,该 GPU 也于今天发布。

英伟达 A100 80GB 新卡,与 AMD 新品正面刚

该芯片基于英伟达的 Ampere 图形架构,旨在通过实现更好的实时数据分析,帮助企业和政府实验室更快地做出关键决策。

A100 80GB 版本的内存是六个月前推出的上一代的两倍。

Nvidia 高管帕雷什 • 卡亚 ( Paresh Kharya ) 在新闻发布会上表示 : 英伟达已经将这个系统的所有功能加倍,以便更有效地为客户服务。

同时他还说道,世界上 90% 的数据是在过去两年中创建的。

A100 芯片为研究人员和工程师提供了更快的速度和更高的性能,用于人工智能和科学应用。它提供超过每秒 2 terabytes 的内存带宽,这使得系统能够更快地将数据提供给 GPU。

「超级计算已经发生了深刻的变化,从专注于模拟扩展到人工智能超级计算,数据驱动的方法现在正在补充传统的模拟,」 Kharya 说,他还补充说道,「Nvidia 的端到端的超级计算方法,从模拟的工作流到人工智能,是必要的保持进步」。

Nvidia A100 80GB GPU 可在 Nvidia DGX A100 和 Nvidia DGX Station 系统上使用,预计将在本季度出货。

Nvidia 今天还宣布,新芯片将与 AMD 新推出的 Instinct MI100 GPU 竞争。与 AMD 相比,Nvidia 有一个单一的 GPU 架构,既可用于人工智能,又可用于图形处理。

有国外的分析师认为,AMD GPU 的性能比 Nvidia 最初的 40GB A100 提高了 18% 。但他说真正的应用程序可能会受益于 80GB 的 Nvidia 版本。同时他还表示,虽然价格敏感的客户可能青睐 AMD,但他认为 AMD 在人工智能性能方面无法与 Nvidia 抗衡。

在人工智能领域,英伟达再次提高了门槛,几乎没有任何竞争对手能够跨越这一障碍。

对于 AI 训练,像 DLRM 这样的推荐系统模型拥有代表数十亿用户和数十亿产品的大型表格。A100 80gb 提供了高达 3 倍的加速,因此企业可以迅速重新训练这些模型,以提供高度准确的建议。A100 80GB 还可以在单个 HGX 驱动的服务器上训练最大的模型,比如 GPT-2 等。

Nvidia 说,A100 80GB 消除了对数据或模型并行体系结构的需求,这些体系结构实现起来很费时间,跨多个节点运行起来很慢。

通过其多实例 GPU ( MIG ) 技术,A100 可以被划分为多达 7 个 GPU 实例,每个实例拥有 10GB 的内存。这提供了安全的硬件隔离,并最大限度地利用 GPU 的各种较小的工作负载。

而 A100 80GB 与 AMD 的芯片一样,同样可以为科学应用提供加速,比如天气预报和量子化学。

GPU 的新系统 DGX

Nvidia 还发布了第二代人工智能计算系统,命名为 Nvidia DGX Station A100,该公司称其为「盒子中的数据中心」。DGX 提供了 2.5 千兆次的 AI 性能,有 4 个 A100 的张量核心 GPU。总而言之,它有高达 320GB 的 GPU 内存。

Nvidia 副总裁 Charlie Boyle 在一次新闻发布会上说,该系统提供了多达 28 个不同的 GPU 实例来运行并行作业。

使用 DGX Station 平台的客户遍及教育、金融服务、政府、医疗保健和零售业。其中包括宝马集团、德国 DFKI 人工智能研究中心、洛克希德 · 马丁公司、 NTT Docomo 和太平洋西北国家实验室。本季度将提供 Nvidia DGX Station A100 和 Nvidia DGX A100 640GB 系统。

Mellanox 网络

最后,Nvidia 发布了 Mellanox 400G Infiniband 网络,用于 exascale AI 超级计算机。2019 年,Nvidia 以 68 亿美元收购了 Mellanox。

这已经是第七代 Mellanox InfiniBand 技术,数据传输速度为每秒 400 千兆比特,而第一代技术为每秒 10 千兆比特。

InfiniBand 技术提供的网络吞吐量为每秒 1.64 petabits,是上一代的 5 倍。Nvidia 高级副总裁 Gilad Shainer 在新闻发布会上说,Mellanox 的技术将使从超级计算机到自动驾驶汽车的所有东西都能更快地联网。

比尔盖茨在微软创立之初曾说希望每个家庭都能有一台 PC,或许通过 AMD 和英伟达不断推进的研发,未来的每个家庭都能有自己的一个「超算中心」。

Powered by 十大网赌网址信誉官网 @2018 html地图

Copyright 站群系统 © 2013-2021 版权所有