tokenizer问题,里面没有start和end

来源:10-3 数据id化与dataset生成

qq_慕前端4252840

2021-08-02

老师,你在做生成tokenizer的时候,output和input词表里有start和end对应的编号吗,我按照你的代码做发现其他的词语都可以在词表中找到对用的数字编码,唯独start,end没有,这样会导致最后做预测的时候,因为要自己输入一个start进入decoder中,这时候就会报keyerror ,这个怎么解决啊

写回答

1回答

qq_慕前端4252840

提问者

2021-08-02

自问自答一下,原来是在做prerocessing、的时候,在字符串两端加start和end没有空格,导致start和字符串第一个词合并一个词了,所以就找不到start了,大坑啊,这里真的要好细心

0
0

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程