vocab_size = 10000

来源：7-3 数据padding、模型构建与训练

战战的坚果

2020-05-07

1、vocab_size = 10000
这个设置的具体作用是什么呢？
2、本小节中的载入词表，和将词表的key，value调换，并解析数据，是不是和整体的建模与训练没有关系？，什么时候用呢？
3、在建模时的Embedding层：

1. define matrix: [vocab_size, embedding_dim]

# 2. [1,2,3,4..], max_length * embedding_dim
按照注释：（1）矩阵大小为 [vocab_size, embedding_dim]，是说明只能容纳10000个词吗？，有什么含义？（2） [12,24,31,47..],这样的一组词，转化为max_length * embedding_dim的数据，其中embedding_dim都是随机的16个值吗？

写回答

1回答

正十七

2020-05-07

作用就是在load_data的时候，取top 10000个词语，其他词语忽略。
key value互换是为了方便大家看最后结果的。
矩阵大小是[vocab_size, embedding_dim]是指只有我们找到的top 9996个词语有对应的向量。还有4个特殊值，<PAD> <Start> <End> <UNK>，对于不在9996个词语里的词，都对应到<UNK>所指向的向量。