subword and tokenizer

首页课程实战体系课手记专栏慕课教程

subword and tokenizer

来源：10-15 数据预处理与dataset生成

qq_慕前端4252840

2021-08-03

老师，subword和tokenizer这两个好像都是文本信息生成词表，二者有什么区别吗，应用场景上有什么区别？
是不是也可以分别遍历本案例中的数据集中的英文和葡萄牙文本，然后再用tokenizer来生成词表？
但我用如下代码，尝试用tokenizer生成词表，确报错了
en_tokenizer=keras.preprocessing.text.Tokenizer(num_words=None,filters=’’)
en_tokenizer.fit_on_texts(en.numpy() for pt,en in train_examples)
error：a bytes-like object is required, not ‘dict’

写回答

1回答

正十七

正十七

2021-08-07

已采纳

你说的是tf.keras.preprocessing.text.Tokenizer和tfds.deprecated.text.SubwordTextEncoder的区别？

前者无法做subword啊，只能按照一些分隔符去呆呆的分词，后者可以帮你做subword切分。比如两个词语 “abc defg",

前者只能切成”abc" "defg" 或者 “a" "b", "c", "d", "e", "f", "g". 而后者可以切成 ”ab" "c" "de" "fg"类似的样子。

0

1

qq_慕前端4252840

非常感谢！

2021-08-07

共1条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

相似问题

subword好像在tensorflow2.3被弃用了

回答 1

tf2官方文档找api

回答 1

tokenizer问题，里面没有start和end

回答 1

ckpt的模型怎么转换为pb格式的模型

回答 1

F1值

回答 1

打开慕课网App查看更多内容