关于make_split分词的疑问
来源:6-10 数据处理-训练语料问答对的处理(2)

aiqingyuyan
2019-07-18
if next_line: # 如果有下一行,则将当前行当作问题,下一行当作回答
x_data.append(line)
y_data.append(next_line)
if last_line and next_line: # 如果有上一行和下一行,则将上一行和这一行拼接成一句问题,将下一行当作回答
x_data.append(last_line + separate_line(last_line) + line)
y_data.append(next_line)
if next_line and next_next_line: # 如果有下一行和下下一行,则将当前行当作问题,将下一行和下下一行当作回答
x_data.append(line)
y_data.append(next_line + separate_line(next_line) + next_next_line)
还是对这段代码里为什么用make_split不是很明白, 为什么要把上一行和这一行拼接起来作为问题?还有者为什么要把下一行和下下行拼接起来作为回答? 这背后的逻辑是什么?或者是根据什么原理/算法?头都想炸了
写回答
1回答
-
慕函数0201195
2019-07-18
不要太认真,只是为了x和y的数目一致而已,那个语料本身就是问答关系混乱的,根本没法通过简单的处理把问跟答的逻辑改成正确的,你真正做应用的时候语料肯定是自己处理的,你把自己处理过的高质量的语料放进去老师给的那个模型里训练,出来的效果就会比较好了。
00
相似问题