中文分词器的问题

来源：10-14 【阶段总结】搜索2.0架构之搜索接入之java接入

牛顿f5

2021-01-16

1.ik_max_word问题
GET _analyze?pretty
{
“analyzer”: “ik_max_word”,
“text”:“张大仙”
}
分词结果是：张大，大仙。我搜索"张大仙"不能匹配。为什么还不如ik_smart分词粒度细。

2.中文分词里英文字母和字符的问题
比如下面的例子，如何忽略“-”字符
GET _analyze?pretty
{
“analyzer”: “ik_smart”,
“text”:“abc-张大仙”
}
分词结果如下：
{
“tokens” : [
{
“token” : “abc-”,
“start_offset” : 0,
“end_offset” : 4,
“type” : “LETTER”,
“position” : 0
},
{
“token” : “张”,
“start_offset” : 4,
“end_offset” : 5,
“type” : “CN_CHAR”,
“position” : 1
},
{
“token” : “大仙”,
“start_offset” : 5,
“end_offset” : 7,
“type” : “CN_WORD”,
“position” : 2
}
]
}