中文分词器的问题
来源:10-14 【阶段总结】搜索2.0架构之搜索接入之java接入
牛顿f5
2021-01-16
1.ik_max_word问题
GET _analyze?pretty
{
“analyzer”: “ik_max_word”,
“text”:“张大仙”
}
分词结果是:张大,大仙。我搜索"张大仙"不能匹配。为什么还不如ik_smart分词粒度细。
2.中文分词里英文字母和字符的问题
比如下面的例子,如何忽略“-”字符
GET _analyze?pretty
{
“analyzer”: “ik_smart”,
“text”:“abc-张大仙”
}
分词结果如下:
{
“tokens” : [
{
“token” : “abc-”,
“start_offset” : 0,
“end_offset” : 4,
“type” : “LETTER”,
“position” : 0
},
{
“token” : “张”,
“start_offset” : 4,
“end_offset” : 5,
“type” : “CN_CHAR”,
“position” : 1
},
{
“token” : “大仙”,
“start_offset” : 5,
“end_offset” : 7,
“type” : “CN_WORD”,
“position” : 2
}
]
}
写回答
1回答
-
龙虾三少
2021-01-21
忽略字符可以用停用词 张大仙不能匹配的问题先确认下索引内用的分词结果和查询的时候是否一致
10