subword and tokenizer

来源:10-15 数据预处理与dataset生成

qq_慕前端4252840

2021-08-03

老师,subword和tokenizer这两个好像都是文本信息生成词表,二者有什么区别吗,应用场景上有什么区别?
是不是也可以分别遍历本案例中的数据集中的英文和葡萄牙文本,然后再用tokenizer来生成词表?
但我用如下代码,尝试用tokenizer生成词表,确报错了
en_tokenizer=keras.preprocessing.text.Tokenizer(num_words=None,filters=’’)
en_tokenizer.fit_on_texts(en.numpy() for pt,en in train_examples)
error:a bytes-like object is required, not ‘dict’

写回答

1回答

正十七

2021-08-07

你说的是tf.keras.preprocessing.text.Tokenizer和tfds.deprecated.text.SubwordTextEncoder的区别?

前者无法做subword啊,只能按照一些分隔符去呆呆的分词,后者可以帮你做subword切分。比如两个词语 “abc defg",

前者只能切成”abc" "defg" 或者 “a" "b", "c", "d", "e", "f", "g". 而后者可以切成 ”ab" "c" "de" "fg"类似的样子。

0
1
qq_慕前端4252840
非常感谢!
2021-08-07
共1条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程