环球热议:使用PyTorch 2.0 加速Hugging Face和TIMM库的模型
2022-12-25 17:25:45

点蓝色字关注“机器学习算法工程师”


【资料图】

设为星标,干货直达!

PyTorch 2.0引入了**torch.compile()**来加速模型,这篇文章我们将介绍如何使用**torch.compile()**来加速Hugging Face和TIMM库的模型。

torch.compile() 使得尝试不同的编译器后端变得容易,从而使用单行装饰器 torch.compile() 使 PyTorch 代码更快。它可以直接在 nn.Module 上工作,作为 torch.jit.script() 的直接替代品,但不需要您进行任何源代码更改。我们希望这一行代码更改能够为您已经运行的绝大多数模型提供 30%-2 倍的训练时间加速。

opt_module=torch.compile(module)

torch.compile 支持任意 PyTorch 代码、控制流、变异,并带有对动态形状的实验性支持。我们对这一发展感到非常兴奋,我们将其称为 PyTorch 2.0。

这个版本对我们来说不同的是,我们已经对一些最流行的开源 PyTorch 模型进行了基准测试,并获得了 30% 到 2 倍的大幅加速(见https://github.com/pytorch/torchdynamo/issues/681) 。

这里没有技巧,我们已经 pip 安装了流行的库,比如https://github.com/huggingface/transformers, https://github.com/huggingface/accelerate 和 https://github.com/rwightman/pytorch-image-models等流行的库,然后对它们运行 torch.compile() 就可以了。

很难同时获得性能和便利性,但这就是核心团队发现 PyTorch 2.0 如此令人兴奋的原因。Hugging Face 团队也很兴奋,用他们的话说:

TIMM 的主要维护者 Ross Wightman:“PT 2.0 开箱即用,适用于推理和训练工作负载的大多数 timm 模型,无需更改代码。”

Sylvain Gugger 是 transformers 和 accelerate 的主要维护者:“只需添加一行代码,PyTorch 2.0 就可以在训练 Transformers 模型时提供 1.5 到 2.x 的加速。这是引入混合精度训练以来最激动人心的事情!”

本教程将向您展示如何使用这些加速,这样您就可以像我们一样对 PyTorch 2.0 感到兴奋。

安装教程

对于 GPU(新一代 GPU 的性能会大大提高):

pip3installnumpy--pretorch--force-reinstall--extra-index-urlhttps://download.pytorch.org/whl/nightly/cu117

对于CPU:

pip3install--pretorch--extra-index-urlhttps://download.pytorch.org/whl/nightly/cpu

当安装好后,你可以通过以下方式来进行验证:

gitclonehttps://github.com/pytorch/pytorchcdtools/dynamopythonverify_dynamo.py

另外一种安装方式是采用docker,我们还在 PyTorch nightly 二进制文件中提供了所有必需的依赖项,您可以使用它们下载:

dockerpullghcr.io/pytorch/pytorch-nightly

对于临时实验,只需确保您的容器可以访问所有 GPU:

dockerrun--gpusall-itghcr.io/pytorch/pytorch-nightly:latest/bin/bash

使用教程

让我们从一个简单的例子开始,一步步把事情复杂化。请注意,您的 GPU 越新,您可能会看到更显着的加速。

importtorchdeffn(x,y):a=torch.sin(x).cuda()b=torch.sin(y).cuda()returna+bnew_fn=torch.compile(fn,backend="inductor")input_tensor=torch.randn(10000).to(device="cuda:0")a=new_fn()

这个例子实际上不会运行得更快,但它具有教育意义。

以 torch.cos() 和 torch.sin() 为特色的示例,它们是逐点操作的示例,因为它们在向量上逐个元素地进行操作。你可能真正想要使用的一个更著名的逐点运算是类似 torch.relu() 的东西。eager模式下的逐点操作不是最优的,因为每个操作都需要从内存中读取一个张量,进行一些更改,然后写回这些更改。

PyTorch 2.0 为您所做的最重要的优化是融合。

回到我们的示例,我们可以将 2 次读取和 2 次写入变成 1 次读取和 1 次写入,这对于较新的 GPU 来说尤其重要,因为瓶颈是内存带宽(您可以多快地向 GPU 发送数据)而不是计算(您的速度有多快) GPU 可以处理浮点运算)。

PyTorch 2.0 为您做的第二个最重要的优化是 CUDA graphs。CUDA graphs有助于消除从 python 程序启动单个内核的开销。

torch.compile() 支持许多不同的后端,但我们特别兴奋的一个是生成 Triton 内核(https://github.com/openai/triton,用 Python 编写的,但性能优于绝大多数手写的 CUDA 内核)的 Inductor。假设我们上面的示例名为 trig.py,我们实际上可以通过运行来检查代码生成的 triton 内核:

TORCHINDUCTOR_TRACE=1pythontrig.py

@pointwise(size_hints=[16384],filename=__file__,meta={"signature":{0:"*fp32",1:"*fp32",2:"i32"},"device":0,"constants":{},"configs":[instance_descriptor(divisible_by_16=(0,1,2),equal_to_1=())]})@triton.jitdefkernel(in_ptr0,out_ptr0,xnumel,XBLOCK:tl.constexpr):xnumel=10000xoffset=tl.program_id(0)*XBLOCKxindex=xoffset+tl.reshape(tl.arange(0,XBLOCK),[XBLOCK])xmask=xindex

你可以验证融合这两个 sins 确实发生了,因为这两个 sin 操作发生在一个单一的 Triton 内核中,并且临时变量保存在寄存器中,可以非常快速地访问。

下一步,让我们尝试一个真实的模型,比如来自 PyTorch hub 的 resnet50。

importtorchmodel=torch.hub.load("pytorch/vision:v0.10.0","resnet18",pretrained=True)opt_model=torch.compile(model,backend="inductor")model(torch.randn(1,3,64,64))

如果您实际运行,您可能会惊讶于第一次运行很慢,那是因为正在编译模型。后续运行会更快,因此在开始对模型进行基准测试之前预热模型是常见的做法。

您可能已经注意到我们如何在此处使用“inductor”显式传递编译器的名称,但它不是唯一可用的后端,您可以在 torch._dynamo.list_backends() 中运行以查看可用后端的完整列表。为了好玩,您应该尝试 aot_cudagraphs 或 nvfuser。

现在让我们做一些更有趣的事情,我们的社区经常使用来自 transformers (https://github.com/huggingface/transformers) 或 TIMM (https://github.com/rwightman/pytorch-image-models)的预训练模型和我们的设计之一PyTorch 2.0 的目标是任何新的编译器堆栈都需要开箱即用,可以与人们实际运行的绝大多数模型一起工作。因此,我们将直接从 Hugging Face hub 下载预训练模型并对其进行优化。

importtorchfromtransformersimportBertTokenizer,BertModel#Copypastedfromherehttps://huggingface.co/bert-base-uncasedtokenizer=BertTokenizer.from_pretrained("bert-base-uncased")model=BertModel.from_pretrained("bert-base-uncased").to(device="cuda:0")model=torch.compile(model)#Thisistheonlylineofcodethatwechangedtext="Replacemebyanytextyou"dlike."encoded_input=tokenizer(text,return_tensors="pt").to(device="cuda:0")output=model(**encoded_input)

如果您从模型和 encoded_input 中删除 to(device="cuda:0") ,那么 PyTorch 2.0 将生成 C++ 内核,这些内核将针对在您的 CPU 上运行进行优化。你可以检查 Triton 或 C++ 内核的 BERT,它们显然比我们上面的三角函数示例更复杂,但如果你了解 PyTorch,你也可以类似地浏览它并理解。

相同的代码也可以https://github.com/huggingface/accelerate 和 DDP 一起使用。

同样让我们尝试一个 TIMM 示例:

importtimmimporttorchmodel=timm.create_model("resnext101_32x8d",pretrained=True,num_classes=2)opt_model=torch.compile(model,backend="inductor")opt_model(torch.randn(64,3,7,7))

我们使用 PyTorch 的目标是构建一个广度优先的编译器,该编译器将加速人们在开源中运行的绝大多数实际模型。Hugging Face Hub 最终成为我们非常有价值的基准测试工具,确保我们所做的任何优化实际上都有助于加速人们想要运行的模型。

本文翻译自https://pytorch.org/blog/Accelerating-Hugging-Face-and-TIMM-models/

环球热议:使用PyTorch 2.0 加速Hugging Face和TIMM库的模型

2022-12-25 17:25:45

焦点热议:宝武西芒杜铁矿项目里程碑进展:四方就基础设施投资达成共识

2022-12-24 21:53:49

香港故宫文化博物馆获赠逾千件藏品

2022-12-24 05:37:55

前沿资讯!水煮活虾需要煮多久 水煮活虾的时间

2022-12-23 17:18:44

青春不过几场世界杯_当前消息

2022-12-23 11:37:10

SVB Leerink:维持Rocket Pharmaceuticals(RCKT.US)优于大市评级_热议

2022-12-23 05:54:38

日本明年将有逾7000种食品涨价

2022-12-22 17:22:20

天天快报!巴西拟定10人主帅名单 内马尔未来将取决于新帅

2022-12-22 11:26:59

一款强大的API接口文档管理工具-焦点快报

2022-12-22 01:50:41

天天微速讯:威腾电气主力资金持续净流入,3日共净流入3446.47万元

2022-12-21 16:16:00

天天热点评!朗玛信息:公司旗下39健康网业务主要通过39健康系列公众号及小程序(快应用)开展

2022-12-21 09:57:43

目标规模30.2亿元 广州发展集团参与设立低碳产业基金

2022-12-20 22:17:47

金石资源:12月13日接受机构调研,包括知名机构盘京投资的多家机构参与 天天热闻

2022-12-20 14:49:04

中信证券:消费有望在明年二季度开始步入改善通道

2022-12-20 08:40:54

【全球速看料】*ST宜康: 关于子公司转让江阴百意中医医院有限公司51%股权的公告

2022-12-19 19:57:00

康德莱(603987)12月19日主力资金净买入528.26万元

2022-12-19 15:11:12

不畏严寒忙抢修 保障供水暖人心 当前快报

2022-12-19 08:48:57

息县:税惠护航 涉农企业行稳致远 世界热闻

2022-12-18 23:21:54

专家提醒:“阳康”仍要戴好口罩 不宜立即剧烈运动

2022-12-18 08:20:22

实时焦点:广东工程项目集中学习“禁赌令”“禁酒令”

2022-12-17 12:30:40

天天快讯:兴业银行: 兴业银行关于给予浙江省能源集团系列关联交易额度的公告

2022-12-16 20:12:04

头条焦点:【直播】沪市出版行业公司集体业绩说明会

2022-12-16 14:59:50

【世界新视野】东亚机械:公司产品压缩机可以为口罩、医用药瓶药罐、医用手套、医用器械制作等提供纯净的空气动力源

2022-12-16 08:31:14

世界新消息丨调研明清黄河故道综合整治开发工作

2022-12-15 19:41:28

102723万元!郏县前三季度一般公共预算收入平稳增长

2022-12-15 14:21:23

维康药业:公司在江西洪兴大药房连锁有限公司的出资额为75.9万,占比为2.381%

2022-12-15 08:15:48

中无人机: 中无人机关于召开2022年第三次临时股东大会的通知-全球新消息

2022-12-14 18:04:01

万美玲:太平盛世不会延长役期 应追求和平

2022-12-14 13:29:52

人民法院调解一方过错离婚财产怎么分割

2022-12-14 04:21:44

全球观天下!pos机费率涨了需要更换吗?涨了三倍还不更换吗?

2022-12-13 15:19:41

全球滚动:浙商期货黑色观点12月13日

2022-12-13 09:00:07

思派健康(00314.HK)正在招股中

2022-12-12 18:48:59

天天速读:存货盘盈盘亏的账务处理怎么做?

2022-12-12 13:57:57

焦点短讯!万万没想到 欧盟天然气消费量远低于预期 今冬能源困局已解除?

2022-12-10 01:32:23

每日精选:一场美国斥巨资的虚假载人登月 带着重大败笔:草草收场了

2022-12-07 16:44:19

12月6日桃李面包现2676.6万元大宗交易 天天视点

2022-12-06 17:04:42

2022钢琴音乐周来了 展示充满现代风格的音乐之旅

2022-08-07 21:49:13

神舟十四号航天员乘组首月在轨工作顺利 进驻天和核心舱

2022-07-08 16:38:56

宝应农发行获批江苏省分行水利建设贷款项目2.2亿元

2022-05-20 14:56:47

工信部:支持制造业优质企业成长壮大 加快推进电子证照

2022-03-19 13:35:15

中国电信2021年实现净利润259.5亿元

2022-03-19 13:31:00

荣耀赵明:未来几年都不会进入汽车领域

2022-03-19 13:30:00

IDC:2021年中国IT安全硬件市场规模达到37.7亿美元

2022-03-19 13:23:30

字节跳动全资入股长顺新声科技 涉及企业管理咨询

2022-03-19 13:22:34

阅读过大年 商务印书馆发布1月十大好书

2022-01-11 09:57:40

如何推动普通高中高质量发展?教育部详解

2022-01-11 09:57:40

教育部印发《普通高中学校办学质量评价指南》 含18项关键指标

2022-01-11 09:57:38

交通银行试点长三角区域抵押登记“跨省通办”

2022-01-11 09:57:38

2022年“文化进万家——视频直播家乡年”活动正式启动

2022-01-11 09:57:37

2022-02-11 14:56:06

2022-02-11 14:56:06

2022-02-11 14:56:06

2022-02-11 14:56:06

2022-02-11 14:56:06

国家发改委:春节和北京冬奥会期间重要民生商品价格将保持平稳运行

2022-01-11 09:57:33

2022-01-29 14:26:59

国家发改委:西安重点生活物资配送“最后一米”问题正加快解决

2022-01-11 09:57:31

人民热评:刘鑫被依法惩处,正义没有缺席!

2022-01-11 09:57:31

专访:RCEP将有力促进区域经济疫后复苏——访泰国商业部贸易谈判司司长奥拉蒙

2022-01-11 09:57:29

综述:英国累计新冠死亡病例超15万例 未来面临“艰难几周”

2022-01-11 09:57:29

如何实现工业废水高效循环利用?专家:聚焦重点分类施策

2022-01-11 09:57:28

2022-01-29 14:26:59

2022-01-29 14:26:59

2022-01-29 14:26:59

2022-01-29 14:26:46

杨国豪当选福建省厦门市人大常委会主任 黄文辉当选福建省厦门市市长

2022-01-11 09:57:25

2022-01-29 14:26:46

交通运输部:支持浙江建设共同富裕示范区 探索加快建设交通强国省域范例

2022-01-11 09:57:24

2021年我国民航完成固定资产投资1150亿元 超额完成年度投资目标

2022-01-11 09:57:23

比利时多位人士表达对北京冬奥会的支持

2022-01-11 09:57:23

2021年我国民航行业出台一揽子促发展措施 全年降成本近100亿元

2022-01-11 09:57:21

于学利当选辽宁省沈阳市政协主席

2022-01-11 09:57:21

2022-01-29 14:26:46

2021年我国民航运输航空实现持续安全飞行9876万小时

2022-01-11 09:57:20

推动创新创业向纵深发展 国家发改委打算这样干

2022-01-11 09:57:19

2022-01-29 14:26:32

西安群众如何就医?记者带你去看看

2022-01-11 09:57:17

民航局对国航、厦航、南航等八个入境航班发出熔断指令

2022-01-11 09:57:17

天津:划定封控区 全市开展全员核酸检测

2022-01-11 09:57:16

积极落实防控措施 多地全力抗击疫情

2022-01-11 09:57:16

工信部:鼓励新能源与智能网联汽车等领域建设产品质量大数据公共服务平台

2022-01-11 09:57:14

2022-01-29 14:26:32

工信部:针对年轻及国外消费群体发展低度化白酒产品

2022-01-11 09:57:13

民航局:2022年力争完成旅客运输量5.7亿人次 实现行业整体扭亏增盈

2022-01-11 09:57:13

北航举行2021-2022学年研究生毕业典礼暨学位授予仪式

2022-01-11 09:57:12

斯里兰卡总统戈塔巴雅会见王毅

2022-01-11 09:57:12

文旅部公示首批国家级旅游休闲街区名单

2022-01-11 09:57:11

2022年国家公务员考试 明起可申请调剂

2022-01-11 09:57:11

2021年“扫黄打非”十大数据公布

2022-01-11 09:57:08

2021年“扫黄打非”十大案件公布

2022-01-11 09:57:08

2021年“扫黄打非”工作综述:举旗亮剑 激浊扬清

2022-01-11 09:57:06

交通运输部:将引导19.61亿元社会资金投入交通运输科技研发

2022-01-11 09:57:06

浦银理财有限责任公司获批开业

2022-01-11 09:57:05

家庭服务需求迎旺季 58到家推出“不打烊”春节保姆服务

2022-01-11 09:57:05

北京倡导市民群众在京过年非必要不出京

2022-01-11 09:57:04

2022-01-29 14:25:55

英雄联盟手游城市赛总决赛落幕

2022-01-11 09:57:00

巨型雪人亮相哈尔滨松花江畔

2022-01-11 09:57:00

深圳:疫情阻击进行时

2022-01-11 09:56:58

2022-01-29 14:25:55

2022年国家公务员考试笔试成绩和合格分数线公布

2022-01-11 09:56:56

21部门:推动形成“15分钟”养老服务圈

2022-01-11 09:56:56

增强供应链合作 电子烟产业布局海外

2022-01-11 09:56:55

2022-01-29 14:25:55

一所群育学校的爱与希望

2022-01-11 09:56:53

彭京堂少将任驻香港部队司令员

2022-01-11 09:56:53

人民网评:金色的盾牌,无悔的坚守

2022-01-11 09:56:51

数字政通:步入无人驾驶新赛道 与主线科技签署战略合作协议

2022-01-11 09:56:49

珠海高新区新政揽才 最高600万元住房补

2022-01-11 09:56:49

台胞在西安:“抗击疫情需要我们每一个人的力量”

2022-01-11 09:56:47

在京台生体验冰雪乐趣

2022-01-11 09:56:47

澳门未来发展有了新的时间表

2022-01-11 09:56:45

最高检:法治副校长应指导学校落实未成年人保护责任

2022-01-11 09:56:45

检察官担任法治副校长有了“指挥棒”

2022-01-11 09:56:44

全国首份《家庭教育令》来了!督促家长“依法带娃”

2022-01-11 09:56:44

俄军装甲车辆将具备隐身能力

2022-01-11 09:56:42

俄美双边对话 欧盟处境尴尬

2022-01-11 09:56:42

国资委:决战决胜国企改革三年行动 更好发挥国有经济战略支撑作用

2022-01-11 09:56:40

美海岸警卫队盯上濒海战斗舰

2022-01-11 09:56:40

证监会发布标准:统一金融行业对移动互联网应用程序的安全要求

2022-01-11 09:56:38

日本声称以电磁炮加强防御

2022-01-11 09:56:38

2022-01-29 14:25:17

江苏南京:上万块显示屏支撑征兵宣传

2022-01-11 09:56:36

2022-01-29 14:24:59

广东省汕头市组织军地海上联合搜救演练

2022-01-11 09:56:35

2022-01-29 14:24:59

山东省枣庄军分区组织两级首长机关野营拉练

2022-01-11 09:56:33

2022-01-29 14:24:59

83年后,“故乡土”撒在烈士墓前

2022-01-11 09:56:32

岛与岸的守望:你的岛,我的岸

2022-01-11 09:56:30

2022-01-29 14:24:59

愿你们也平平安安!这支MV献给人民警察

2022-01-11 09:56:29

集安组织将就哈局势举行视频峰会

2022-01-11 09:56:29

美俄新一轮战略稳定对话前景不容乐观

2022-01-11 09:56:27

我第12批赴南苏丹(瓦乌)维和医疗分队开展紧急救援演练

2022-01-11 09:56:27

第二轮第五批中央生态环境保护督察全面完成督察进驻工作 已受理有效举报9656件

2022-01-11 09:56:25

空军某旅组织实弹打靶训练

2022-01-11 09:56:25

江秋莲诉刘暖曦生命权纠纷案一审宣判

2022-01-11 09:56:22

2022-01-29 14:24:44

新疆军区某团侦察连官兵边关巡逻

2022-01-11 09:56:19

第78集团军某旅实战化演练设强对手设难情况

2022-01-11 09:56:19

军队医疗待遇保障新规定如期落地有序施行

2022-01-11 09:56:17

2022-01-29 14:24:44

2022-01-29 14:24:07

荣盛发展:2021年签约金额1345.58亿元 同比增长5.87%

2022-01-11 09:56:15

2022-01-29 14:24:07

2022-01-29 14:24:07

证监会发布《关于北京证券交易所上市公司转板的指导意见》

2022-01-11 09:56:12

2022-01-29 14:24:07

2022-01-29 14:24:07

奥密克戎高速传播 美国医疗物资供应无法满足病毒检测需求

2022-01-11 09:56:10

原住民控诉美政府在其家园进行“900次核试验”:这是种族清洗!

2022-01-11 09:56:09

2022-01-29 14:24:07

2022-01-29 14:23:52

2022-01-29 14:23:52

奥密克戎肆虐 美国公共服务受重创

2022-01-11 09:56:06

公安部1月10日举行新闻发布会

2022-01-11 09:56:06

詹姆斯·韦伯太空望远镜顺利“完全部署”

2022-01-11 09:56:04

日美联合委员会发布声明:驻日美军离开基地将仅限于必要活动

2022-01-11 09:56:04

致敬·选择

2022-01-11 09:56:03

《我们北京见》 来自55位世界冠军的邀约

2022-01-11 09:56:03

世界冠军进校园 小小少年感受运动乐趣

2022-01-11 09:56:00

2022-01-29 14:23:52

时政Vlog丨带你体验冬奥运动员的备战日常

2022-01-11 09:55:58

伊朗制裁51名参与暗杀高级将领苏莱曼尼的美国人

2022-01-11 09:55:58

今年要有序推动绿色低碳发展

2022-01-11 09:55:51

加强同乡村振兴有效衔接

2022-01-11 09:55:51

加强绿色合作 助力共同发展

2022-01-11 09:55:49

电力碳减排要开好局(点睛)

2022-01-11 09:55:49

风光互补 绿能满满

2022-01-11 09:55:47

推动能源转型 赋能绿色发展(经济聚焦·关注碳达峰碳中和)

2022-01-11 09:55:47

今日腊八:两乡侈各健,一粥喜遥同

2022-01-11 09:55:44

2021年生态环境领域8项约束性指标顺利完成

2022-01-11 09:55:44

欧盟推进塑料回收再利用

2022-01-11 09:55:42

国家植物园 让保护体系更完整(美丽中国)

2022-01-11 09:55:42

2022-01-29 14:23:20

借力外脑,河南打出农业工程技术创新“组合拳”

2022-01-11 09:55:39

2022-01-29 14:23:20

国家速滑馆“冰丝带”“超级大脑”上线

2022-01-11 09:55:37

2022-01-29 14:23:20

农田被淹、住宅停电、出行受阻……美国多地遭遇持续恶劣天气

2022-01-11 09:55:35

自动驾驶已“接单” 下一站开往大规模商业化

2022-01-11 09:55:34

2022-01-29 14:23:20

第四集《精兵作战 精兵制胜》

2022-01-11 09:55:31

科普专项行动让老年人跨越数字鸿沟

2022-01-11 09:55:31

令人身临其境 8K服务让北京冬奥会更精彩

2022-01-11 09:55:29

嫦娥五号探测数据显示:采样区一吨月壤约含一百二十克水

2022-01-11 09:55:29

太曲折!交给美军后丢失的男婴 找到了

2022-01-11 09:55:27

科技创新助力 渤海油田成为我国第一大原油生产基地

2022-01-11 09:55:27

全球新纪录!本体热效率达51.09%柴油机诞生

2022-01-11 09:55:26

2022-01-29 14:22:53

2022-01-29 14:22:53

山西古稀老人不灭的“花灯情”:让古老花灯焕发新魅力

2022-01-11 09:55:25

数字人民币越来越“香”

2022-01-11 09:55:24

PPP成稳增长重要抓手

2022-01-11 09:55:24

基金投顾需“投”“顾”齐发力

2022-01-11 09:55:19

保险业风险保障功能持续增强

2022-01-11 09:55:19

实体经济是产业互联网主角

2022-01-11 09:55:17

“云上奥运”更精彩

2022-01-11 09:55:17

“万物皆可盲盒”是伪命题

2022-01-11 09:55:15