SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。
这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。
SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。
SCWS下载安装:
wget http://www.ftphp.com/scws/down/scws-1.2.0.tar.bz2
tar xjf scws-1.2.0.tar.bz2
cd scws-1.2.0.tar.bz2
./configrue --prefix=/usr/local/scws
make && make install
cd phpext
/usr/local/webserver/php/bin/phpize
./configrue --with-scws=/usr/local/scws --with-php-config=/usr/local/php/bin/config-php
make && make install
这算安装scws 安装完毕! 现在对 php 进行配置,让php 支持scws模块!
PHP添加scws支持:
vi /usr/local/webserver/php/etc/php.ini
查找extension_dir 修改 "/" 目录为 scws扩展模块的目录,并添加如下:
extension_dir = "/usr/local/php/lib/php/extensions/no-debug-non-zts-20060613"
extension = "scws.so"
scws.default.charset = utf-8
scws.default.fpath = /usr/local/scws/etc
修改完以后重新加载 php 配置文件
tar xvjf scws-1.2.0.tar.bz2
文章评论