”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 人工智能 > 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

时间:2024-04-03 09:42:25
浏览:410 来源:https://www.51cto.com/article/785119.html

大家好,今天本人给大家带来文章《谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择》,文中内容主要涉及到,如果你对科技周边方面的知识点感兴趣,那就请各位朋友继续看下去吧~希望能真正帮到你们,谢谢!

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

而且测试并不是在JAX性能表现最好的TPU上完成的。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

但未来,也许有更多的大模型会基于JAX平台进行训练和运行。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

模型

最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras 2进行了基准测试。

首先,他们为生成式和非生成式人工智能任务选择了一组主流的计算机视觉和自然语言处理模型:

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

对于模型的Keras版本,其采用了KerasCV和KerasNLP中已有的实现进行构建。而对于原生的PyTorch版本,则选择了网络上最流行的几个选项:

- 来自HuggingFace Transformers的BERT、Gemma、Mistral

- 来自HuggingFace Diffusers的StableDiffusion

- 来自Meta的SegmentAnything

他们将这组模型称作「Native PyTorch」,以便与使用PyTorch后端的Keras 3版本进行区分。

他们对所有基准测试都使用了合成数据,并在所有LLM训练和推理中使用了bfloat16精度,同时在所有LLM训练中使用了LoRA(微调)。

根据PyTorch团队的建议,他们在原生PyTorch实现中使用了torch.compile(model, mode="reduce-overhead")(由于不兼容,Gemma和Mistral训练除外)。

为了衡量开箱即用的性能,他们使用高级API(例如HuggingFace的Trainer()、标准PyTorch训练循环和Keras model.fit()),并尽可能减少配置。

硬件配置

所有基准测试均使用Google Cloud Compute Engine进行,配置为:一块拥有40GB显存的NVIDIA A100 GPU、12个虚拟CPU和85GB的主机内存。

基准测试结果

表2显示了基准测试结果(以步/毫秒为单位)。每步都涉及对单个数据批次进行训练或预测。

结果是100步的平均值,但排除了第一个步,因为第一步包括了模型创建和编译,这会额外花费时间。

为了确保比较的公平性,对于相同的模型和任务(不论是训练还是推理)都使用相同的批大小。

然而,对于不同的模型和任务,由于它们的规模和架构有所不同,可根据需要调整数据批大小,从而避免因过大而导致内存溢出,或是批过小而导致GPU使用不足。

过小的批大小也会使PyTorch看起来较慢,因为会增加Python的开销。

对于大型语言模型(Gemma和Mistral),测试时也使用了相同的批处理大小,因为它们是相同类型的模型,具有类似数量的参数(7B)。

考虑到用户对单批文本生成的需求,也对批大小为1的文本生成情况进行了基准测试。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

关键发现

发现1

不存在「最优」后端。

Keras的三种后端各展所长,重要的是,就性能而言,并没有哪一个后端能够始终胜出。

选择哪个后端最快,往往取决于模型的架构。

这一点突出了选择不同框架以追求最佳性能的重要性。Keras 3可以帮助轻松切换后端,以便为模型找到最合适的选择。

发现2

Keras 3的性能普遍超过PyTorch的标准实现。

相对于原生PyTorch,Keras 3在吞吐量(步/毫秒)上有明显的提升。

特别是,在10个测试任务中,有5个的速度提升超过了50%。其中,最高更是达到了290%。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

如果是100%,意味着Keras 3的速度是PyTorch的2倍;如果是0%,则表示两者性能相当

发现3

Keras 3提供一流的「开箱即用」性能。

也就是,所有参与测试的Keras模型都未进行过任何优化。相比之下,使用原生PyTorch实现时,通常需要用户自行进行更多性能优化。

除了上面分享的数据,测试中还注意到在HuggingFace Diffusers的StableDiffusion推理功能上,从版本0.25.0升级到0.3.0时,性能提升超过了100%。

同样,在HuggingFace Transformers中,Gemma从4.38.1版本升级至4.38.2版本也显著提高了性能。

这些性能的提升凸显了HuggingFace在性能优化方面的专注和努力。

对于一些手动优化较少的模型,如SegmentAnything,则使用了研究作者提供的实现。在这种情况下,与Keras相比,性能差距比大多数其他模型更大。

这表明,Keras能够提供卓越的开箱即用性能,用户无需深入了解所有优化技巧即可享受到快速的模型运行速度。

发现4

Keras 3的表现始终优于Keras 2。

例如,SegmentAnything的推理速度提升了惊人的380%,StableDiffusion的训练处理速度提升了150%以上,BERT的训练处理速度也提升了100%以上。

这主要是因为Keras 2在某些情况下直接使用了更多的TensorFlow融合操作,而这可能对于XLA的编译并不是最佳选择。

值得注意的是,即使仅升级到Keras 3并继续使用TensorFlow后端,也能显著提升性能。

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择

结论

框架的性能在很大程度上取决于具体使用的模型。

Keras 3能够帮助为任务选择最快的框架,这种选择几乎总能超越Keras 2和PyTorch实现。

更为重要的是,Keras 3模型无需进行复杂的底层优化,即可提供卓越的开箱即用性能。

以上就是《谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择》的详细内容

版本声明 本文转载于:51CTO.COM如有侵犯,请联系study_golang@163.com删除
最新教程 更多>
  • 小模型性能饱和、表现不佳,根源是因为Softmax?
    小模型性能饱和、表现不佳,根源是因为Softmax?
    小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点,但其自身也存在训练到某个阶段后性能下降的事实(饱和现象),那么这个现象的原因是什么?是否可以克服并利用它去提升小语言模型的性能?语言建模领域的最新进展在于在极大规模的网络文本语料库上预训练高参数化的神经网络。在实践中,使用这样的模型进行训练和推断可能会产生本高昂,这促使人们使用较小的替代模型。然而,已经观察到较小的模型可能会出现饱和和现象,表现为在训练的某个高级阶段能力下降并趋于稳定。最近的一篇论文发现,这种饱和和现象可以通过较小模型的隐藉维
    人工智能 发布时间:2024-05-04
  • CVPR 2024 Highlight | 基于单曝光压缩成像,不依赖生成模型也能从单张图像中重建三维场景
    CVPR 2024 Highlight | 基于单曝光压缩成像,不依赖生成模型也能从单张图像中重建三维场景
    AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。原文链接:https://arxiv.org/abs/2403.20018项目链接:https://github.com/WU-CVGL/SCINeRF论文标题:SCINeRF:Neu
    人工智能 发布时间:2024-05-04
  • 终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
    终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
    当前最火的大模型,竟然三分之二都存在过拟合问题?刚刚出炉的一项研究,让领域内的许多研究者有点意外。提升大型语言模型的推理能力是当前研究的最重要方向之一,在这类任务中,近期发布的很多小模型看起来表现不错,并且能够很好地应对这类任务。例如微软的Phi-3、Mistral8x22B等模型。研究人员们指出,当前大模型研究领域存在一个关键问题:很多研究未能准确地对现有LLM的能力进行基准测试。这提示我们需要花更多的时间来评估和测试当前LLM的能力水平。这是因为目前的大多数研究都采用GSM8k、MATH、MBPP、H
    人工智能 发布时间:2024-05-04
  • 跨越300多年的接力:受陶哲轩启发,数学家决定用AI形式化费马大定理的证明
    跨越300多年的接力:受陶哲轩启发,数学家决定用AI形式化费马大定理的证明
    在陶哲轩的启发下,越来越多的数学家开始尝试利用人工智能进行数学探索。这次,他们瞄准的目标是世界十大最顶尖数学难题之一的费马大定理。费马大定理是一个非常复杂的数学难题,迄今为止尚未找到可行的解法。数学家们希望借助人工智能的强大计算能力和智能算法,能够在数学探索费马大定理又被称为“费马最后的定理(Fermat'sLastTheorem,FLT)”,由17世纪法国数学家皮耶・德・费马提出。它背后有一个传奇的故事。据称,大约在1637年左右,费马在阅读丢番图《算术》拉丁文译本时,曾在第11卷第8命题旁写道:“将一
    人工智能 发布时间:2024-05-03
  • 爆款生成式AI硬件,销量突破10万台,拆完一看只是安卓app?
    爆款生成式AI硬件,销量突破10万台,拆完一看只是安卓app?
    「RabbitR1,它本质上是安卓系统上面做了个Launcher程序,破解后在手机上就能运行。」通过破解,Rahman设法在Pixel6a手机上启动并运行了R1的应用程序。本周二,美国记者MishaalRahman曝光了知名生成式AI硬件RabbitR1的细节,立即引来了科技圈的关注。几个月前,Humane和Rabbit两家初创公司继续推出他们的人工智能设备——AiPin和RabbitR1。最初,一些人认为这些设备将开创可穿戴人工智能的新时代。然而,几个月过去了,对于这两款设备的争议逐渐增多。Rabbit
    人工智能 发布时间:2024-05-02
  • 余承东卸任华为终端BG CEO,何刚将接任
    余承东卸任华为终端BG CEO,何刚将接任
    根据多家媒体报道,华为于4月30日下午内部发布人事调整文件,宣布余承东将卸任华为终端BGCEO一职。余承东将仍保留终端BG董事长职位。原华为终端BG、首席运营官何刚将接任华为终端BGCEO职位。据透露,除了上述个人事变动调整外,该文件并无更多信息。关于这次重大人事变动的背景和余承东卸任终端BGCEO之后新的业务重心,也未有进一步的说明。有消息源表示,此次调整属于常规的业务架构调整,可让余承东有更多精力为消费者打造精品。余承东出生于1969年,本科毕业于西北工业大学自动控制系,硕士毕业于清华大学,他从199
    人工智能 发布时间:2024-05-02

免责声明:提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:lupingnet@sina.com 我们会在看到邮件的第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3