老师，如何使transformer在工作中的大型数据集上提升训练效率呢？老师有建议吗？

首页课程实战体系课手记专栏慕课教程

老师，如何使transformer在工作中的大型数据集上提升训练效率呢？老师有建议吗？

来源：10-11 Transformer模型总体架构

OliverSong

2021-03-29

我看到一个招聘描述如下：
Expert level knowledge of modern techniques in machine learning and deep learning, e.g., transformer network architectures, with an orientation to maximizing such algorithms in a large scale production setting.

请问老师有没有相关的内容点我一下呢？谢谢！

写回答

1回答

正十七

正十七

2021-04-05

transformer的话，训练提速有两个方面，分布式训练和算法改进。

分布式训练的话可以参考谷歌的一些框架，比如Mesh-Tensorflow, Gshard, 可以在大数据集上训练transformer。

第二个算法改进的话，有这么几个方面，第一个是数据方面的，Transformer的主要模型Bert的训练其实从数据角度来看并不efficient，这方面的改进有不少，比如Electra，T5等。第二个是线性复杂度的transformer，应用在超长序列上，比如谷歌的Performer。

专门针对训练的话，还有一些更复杂的优化器，比如LAMB。

上述内容可以在我的公众号 [雨石记] 里找到

0

0

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

相似问题

数据集全量训练，是不是16G的显存不够用了？

回答 1

使用函数式API训练wide and deep模型出错

回答 8

老师，为什么训练集打印的是metric，而验证集打印的是loss？

回答 1

请教一个交叉验证的问题

回答 1

请问老师，embedding层的训练是如何进行的呢？

回答 1

打开慕课网App查看更多内容