7 Star 21 Fork 5

结巴分词科技 / sphinx-jieba

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

sphinx-jieba

Sphinx for Chinese with cppJieba

仿照Sphinx for Chinese,基于sphinx 2.2.9版本,结合cppJieba分词系统,让sphinx支持中文。

安装

解压

$ git clone https://github.com/qqcdn/sphinx-jieba
$ cd sphinx-jieba
$ git submodule update --init --recursive

编译(假设安装到/usr/local/sphinx目录,下文同)

$ sudo apt install gcc cmake automake
$ sudo apt install libmysqld-dev
$ ./configure --prefix=/usr/local/sphinx-jieba
--prefix 指定安装路径
--with-mysql 编译mysql支持
--with-pgsql 编译pgsql支持
$ make
$ make install

配置中文支持

修改sphinx.conf索引配置文件

在索引配置项中添加以下两项:

charset_type = utf-8
chinese_dictionary = /usr/local/sphinx/etc/xdict

注意在source部分一定加上如下字段,否则中文分词无法起作用。

sql_query_pre = SET NAMES utf8

TODOs:

  1. 在index时,添加同义词功能 a. 本身在Sphinx GetToken时可以返回多个同义Token b. 增加同义词典
  2. 字典支持二进制形式
  3. cmake make sure the expat and int64_t varible set.

空文件

简介

仿照Sphinx for Chinese,基于sphinx 2.2.9版本,结合cppJieba分词系统,让sphinx支持中文 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
C++
1
https://gitee.com/dizhi888/sphinx-jieba.git
git@gitee.com:dizhi888/sphinx-jieba.git
dizhi888
sphinx-jieba
sphinx-jieba
master

搜索帮助