老师,如何使transformer在工作中的大型数据集上提升训练效率呢?老师有建议吗?

来源:10-11 Transformer模型总体架构

OliverSong

2021-03-29

我看到一个招聘描述如下:
Expert level knowledge of modern techniques in machine learning and deep learning, e.g., transformer network architectures, with an orientation to maximizing such algorithms in a large scale production setting.

请问老师有没有相关的内容点我一下呢?谢谢!

写回答

1回答

正十七

2021-04-05

transformer的话,训练提速有两个方面,分布式训练和算法改进。

分布式训练的话可以参考谷歌的一些框架,比如Mesh-Tensorflow, Gshard, 可以在大数据集上训练transformer。

第二个算法改进的话,有这么几个方面,第一个是数据方面的,Transformer的主要模型Bert的训练其实从数据角度来看并不efficient,这方面的改进有不少,比如Electra,T5等。第二个是线性复杂度的transformer,应用在超长序列上,比如谷歌的Performer。

专门针对训练的话,还有一些更复杂的优化器,比如LAMB。

上述内容可以在我的公众号 [雨石记] 里找到

0
0

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程