中文分词器的问题

来源:10-14 【阶段总结】搜索2.0架构之搜索接入之java接入

牛顿f5

2021-01-16

1.ik_max_word问题
GET _analyze?pretty
{
“analyzer”: “ik_max_word”,
“text”:“张大仙”
}
分词结果是:张大,大仙。我搜索"张大仙"不能匹配。为什么还不如ik_smart分词粒度细。

2.中文分词里英文字母和字符的问题
比如下面的例子,如何忽略“-”字符
GET _analyze?pretty
{
“analyzer”: “ik_smart”,
“text”:“abc-张大仙”
}
分词结果如下:
{
“tokens” : [
{
“token” : “abc-”,
“start_offset” : 0,
“end_offset” : 4,
“type” : “LETTER”,
“position” : 0
},
{
“token” : “张”,
“start_offset” : 4,
“end_offset” : 5,
“type” : “CN_CHAR”,
“position” : 1
},
{
“token” : “大仙”,
“start_offset” : 5,
“end_offset” : 7,
“type” : “CN_WORD”,
“position” : 2
}
]
}

写回答

1回答

龙虾三少

2021-01-21

忽略字符可以用停用词 张大仙不能匹配的问题先确认下索引内用的分词结果和查询的时候是否一致

1
0

ES7+Spark 构建高匹配度搜索服务+千人千面推荐系统

ElasticSearch实现高相关性搜索,Spark MLlib实现个性化推荐

1384 学习 · 559 问题

查看课程