tokenizer问题,里面没有start和end
来源:10-3 数据id化与dataset生成
qq_慕前端4252840
2021-08-02
老师,你在做生成tokenizer的时候,output和input词表里有start和end对应的编号吗,我按照你的代码做发现其他的词语都可以在词表中找到对用的数字编码,唯独start,end没有,这样会导致最后做预测的时候,因为要自己输入一个start进入decoder中,这时候就会报keyerror ,这个怎么解决啊
写回答
1回答
-
qq_慕前端4252840
提问者
2021-08-02
自问自答一下,原来是在做prerocessing、的时候,在字符串两端加start和end没有空格,导致start和字符串第一个词合并一个词了,所以就找不到start了,大坑啊,这里真的要好细心
00
相似问题