subword and tokenizer
来源:10-15 数据预处理与dataset生成
qq_慕前端4252840
2021-08-03
老师,subword和tokenizer这两个好像都是文本信息生成词表,二者有什么区别吗,应用场景上有什么区别?
是不是也可以分别遍历本案例中的数据集中的英文和葡萄牙文本,然后再用tokenizer来生成词表?
但我用如下代码,尝试用tokenizer生成词表,确报错了
en_tokenizer=keras.preprocessing.text.Tokenizer(num_words=None,filters=’’)
en_tokenizer.fit_on_texts(en.numpy() for pt,en in train_examples)
error:a bytes-like object is required, not ‘dict’
写回答
1回答
-
你说的是tf.keras.preprocessing.text.Tokenizer和tfds.deprecated.text.SubwordTextEncoder的区别?
前者无法做subword啊,只能按照一些分隔符去呆呆的分词,后者可以帮你做subword切分。比如两个词语 “abc defg",
前者只能切成”abc" "defg" 或者 “a" "b", "c", "d", "e", "f", "g". 而后者可以切成 ”ab" "c" "de" "fg"类似的样子。
012021-08-07
相似问题