vocab_size = 10000

来源:7-3 数据padding、模型构建与训练

战战的坚果

2020-05-07

1、vocab_size = 10000
这个设置的具体作用是什么呢?
2、本小节中的载入词表,和将词表的key,value调换,并解析数据,是不是和整体的建模与训练没有关系?,什么时候用呢?
3、在建模时的Embedding层:

1. define matrix: [vocab_size, embedding_dim]

# 2. [1,2,3,4..], max_length * embedding_dim
按照注释:(1)矩阵大小为 [vocab_size, embedding_dim],是说明只能容纳10000个词吗?,有什么含义?(2) [12,24,31,47..],这样的一组词,转化为max_length * embedding_dim的数据,其中embedding_dim都是随机的16个值吗?
写回答

1回答

正十七

2020-05-07

  1. 作用就是在load_data的时候,取top 10000个词语,其他词语忽略。

  2. key value互换是为了方便大家看最后结果的。

  3. 矩阵大小是[vocab_size, embedding_dim]是指只有我们找到的top 9996个词语有对应的向量。还有4个特殊值,<PAD> <Start> <End> <UNK>,对于不在9996个词语里的词,都对应到<UNK>所指向的向量。

0
1
慕设计0293856
如何把10000个词变为他们对应的向量,是否可以解释一下这个原理,不是很理解
2020-08-26
共1条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程