index_from
来源:7-2 数据集载入与构建词表索引
kingdomad
2019-08-12
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(
num_words=vocab_size, index_from=index_from)
这里的index_from有什么用?
即使设置了为3,train_data里还是有小于3的ids。
写回答
1回答
-
小于3的id都是特殊字符了,我在下面的代码中给这些id的意义做了明确:
word_index['<PAD>'] = 0 word_index['<START>'] = 1 word_index['<UNK>'] = 2 word_index['<END>'] = 3
同时,需要注意的一点是取出来的词表还是从1开始的,需要做处理
word_index = imdb.get_word_index() word_index = {k:(v+3) for k, v in word_index.items()}
132020-04-23