老师,如何使transformer在工作中的大型数据集上提升训练效率呢?老师有建议吗?
来源:10-11 Transformer模型总体架构
OliverSong
2021-03-29
我看到一个招聘描述如下:
Expert level knowledge of modern techniques in machine learning and deep learning, e.g., transformer network architectures, with an orientation to maximizing such algorithms in a large scale production setting.
请问老师有没有相关的内容点我一下呢?谢谢!
写回答
1回答
-
正十七
2021-04-05
transformer的话,训练提速有两个方面,分布式训练和算法改进。
分布式训练的话可以参考谷歌的一些框架,比如Mesh-Tensorflow, Gshard, 可以在大数据集上训练transformer。
第二个算法改进的话,有这么几个方面,第一个是数据方面的,Transformer的主要模型Bert的训练其实从数据角度来看并不efficient,这方面的改进有不少,比如Electra,T5等。第二个是线性复杂度的transformer,应用在超长序列上,比如谷歌的Performer。
专门针对训练的话,还有一些更复杂的优化器,比如LAMB。
上述内容可以在我的公众号 [雨石记] 里找到
00
相似问题