老师能解释下如何分词原理吗?我主语言不是java,看不太懂。

来源:5-4 二分搜索树的查找

weixin_慕妹5444478

2019-09-29

图片描述

写回答

1回答

liuyubobobo

2019-09-29

这个分词代码也有 C++ 版本,如下:https://github.com/liuyubobobo/Play-with-Algorithms/blob/master/05-Binary-Search-Tree/Course%20Code%20(C%2B%2B)/04-Binary-Search-Tree-Search/FileOps.h


基本原理其实就是先定位第一个字母,然后定位这个字符以后第一个非字母的位置,之后,这个字母和非字母之间就是一个单词;

然后,再定位这个非字母后的第一个字母,之后定位这个字母后的第一个非字母,然后,这个字母和非字母之间就是一个单词;

以此类推。


start定位了每次字母的位置;i定位了对于一个 start,之后第一个非字母的位置。


继续加油!:)

2
2
liuyubobobo
回复
慕妹013816
中文不能靠空格分词。实际上,对于中文来说,什么是“词”,定义也是模糊的。所以中文的分词是一个人工智能问题,通常在自然语言领域处理。如果有兴趣可以查找相关资料。
2020-05-31
共2条回复

算法与数据结构(C++版) 面试/评级的算法复习技能包

课程专为:短时间内应对面试、升职测评等艰巨任务打造

11198 学习 · 1617 问题

查看课程