句子编码化问题

来源:6-5 数据处理-句子编码化处理(字典定义及转换)

慕勒6698465

2018-08-18

第五章句子编码化中字典的定义、转换、训练主要有什么用,为什么要构建这个字典?

字典中四个参数各自表示什么意思?

句子和向量之间的转换是否指构建句子的词向量?为什么不用word2vec

希望老师详细说明一下,课程中听得不是特别明白,谢谢

写回答

1回答

Mr_Ricky

2018-08-19

您好,构建字典的目的是方便我们在后续对聊天机器人对话模型的处理以及在训练和测试时候的使用,因为我们在处理对话的时候,需要将问答对拆开,拆开后分别对问答对进行处理。不知道你说的字典中的四个参数是不是指的PAD、START、END、UNK这四个参数,实际上这四个参数是用来进行补位处理,word2vec实际上是词向量,而我们这个处理实际上是做句子的向量,所以你可以把这个看作为是我们自己来实现的一个简单的句子向量的操作。

后续的视频我会尽量的详细一点去解释下目录的内容,谢谢您的宝贵建议和意见。

0
1
慕勒6698465
“PAD、START、END、UNK这四个参数,实际上这四个参数是用来进行补位处理”,这句话是什么意思呢,什么是补位操作?
2018-08-20
共1条回复

NLP实践TensorFlow打造聊天机器人

解析自然语言处理( NLP )常用技术,从0搭建聊天机器人应用并部署上线,可用于毕设。

673 学习 · 281 问题

查看课程