vocab_size = 10000
来源:7-3 数据padding、模型构建与训练
战战的坚果
2020-05-07
1、vocab_size = 10000
这个设置的具体作用是什么呢?
2、本小节中的载入词表,和将词表的key,value调换,并解析数据,是不是和整体的建模与训练没有关系?,什么时候用呢?
3、在建模时的Embedding层:
1. define matrix: [vocab_size, embedding_dim]
# 2. [1,2,3,4..], max_length * embedding_dim
按照注释:(1)矩阵大小为 [vocab_size, embedding_dim],是说明只能容纳10000个词吗?,有什么含义?(2) [12,24,31,47..],这样的一组词,转化为max_length * embedding_dim的数据,其中embedding_dim都是随机的16个值吗?
写回答
1回答
-
正十七
2020-05-07
作用就是在load_data的时候,取top 10000个词语,其他词语忽略。
key value互换是为了方便大家看最后结果的。
矩阵大小是[vocab_size, embedding_dim]是指只有我们找到的top 9996个词语有对应的向量。还有4个特殊值,<PAD> <Start> <End> <UNK>,对于不在9996个词语里的词,都对应到<UNK>所指向的向量。
012020-08-26
相似问题