rss· 投稿· 设为首页· 加入收藏· 繁體版
当前位置: 火魔网 » 程序开发 » PHP

scws(Simple Chinese Word Segmentation)中文分词开源系统

这个东西很好用的。有支持windows版的也有linux版本的,相对之下windows的比较容易配置,因为有已经编译好的dll文件,但是linux版本的相对比较不好编译。具体的配置这里不做陈述,在服务器栏目下有陈述,这里贴出一个简单的测试程序。但是此程序是通用的。呵呵

<?php
$so = scws_new();
$so->set_charset('utf8');
$so->send_text("日本人是王八蛋!");

while ($tmp = $so->get_result()) foreach ($tmp as $k=>$v){
   echo $v['word'].' '; }
$so->close();
?>

执行结果:日本 人 是 王八蛋 !

很简单吧.这里没有进行指定字典和规则,因为已经在ini文件里配置好了。也可以在这里指定。现在正在寻找能够扩展词库的方法。还有这个扩展有c的源码。直接编译可以生成.so文件在linux下运行。

顶一下
(0)
踩一下
(0)