如何使用ictclas分词系统进行分词
1、使用ICTCLAS分词系统可以高效地实现分词。下面把过程贴出来。
2、打开exe文件运行,点击右上角功能性分析,分词,选择文件进行分析即可。这个软件很贴心,自己就会把文件写好“分词后”,分词之前一定要注意txt文档的编码是ANSI,不然分出来会乱码。
3、分词的核心逻辑在org.ictclas4j.segment.Segment 的 split(String src) 方法中。运行 SegMain 的结果是一串字符串(带有词性标注),细看了 Segment 与 org.ictclas4j.bean.SegResult 没看到一个个分好的词。
4、PHP 5。 HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。