PostgreSQL使用zhparser自定义分词
法国景点PostgreSQL使⽤zhparser⾃定义分词
Zhparser是pg的⼀个中⽂全⽂检索插件,它基于简单中⽂分词(SCWS)实现中⽂解析器。
象棋小技巧我们在使⽤zhparser时常常会遇到的⼀个问题就是:我们想要分词的词语⽆法被识别。
例如:
bill=# SELECT * FROM ts_parse('zhparser', '⽀付宝使⽤很⽅便');怎么样注册
tokid | token
-------+-------
118|⽀付
110|宝
118|使⽤
100|很
118|⽅便
(5rows)
梦见死人对我笑上⾯这⼀句话中,默认的分词词库中⽆法识别“⽀付宝”这个词语,于是将它切成了“⽀付”和“宝”两个词,显然这不是我们希望看到的。那么我们要怎么重新⾃定义词库呢?
zhparser中⽀持⾃定义词库这⼀功能,⾃定义词库需要superuser权限, ⾃定义库是数据库级别的。
–将“⽀付宝”词加⼊词库中
bill=# insert into zhparser.zhprs_custom_word values('⽀付宝');
INSERT01
bill=# select sync_zhprs_custom_word();
sync_zhprs_custom_word
------------------------
(1row)
中秋祝福短语–重新登录数据库查看
bill=# SELECT * FROM ts_parse('zhparser', '⽀付宝使⽤很⽅便');
tokid | token
-------+--------
120|⽀付宝
118|使⽤千古玦尘结局是怎样的
100|很
118|⽅便
(4rows)
可以看到我们已经将“⽀付宝”这个词语加⼊到我们⾃定义的词库中了!

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。