美工买雪糕一直未归,各位将就看下。
分词程序用法: 1.对传入的单个句子分词;
2.对上传的规定形式的文本进行分词。

接口程序如下,使用html表单的post方法:
1.分一个词:来分一个词试下
2.分一堆词:来分一个文件试下.一个句子一行,以句号结尾.下载示例

使用注意事项: 1.只支持中文分词。传入GB2312编码即可。UTF8编码不吃哈。
2.分一堆词功能,上传文件完成后,会给出服务器上文本的路径,下载回来即可。
2.分一堆词在服务器上正常编码,下载时按照二进制文件处理,避免被Apache转码。

使用的算法、模型和库:
1.条件随机场ConitionalRandomField++0.58;
2.训练模型:4年的人民日报语料,前置由:中科院ICTCLAS50提供语料分词。
3.cgicc3.2.16;
4.人民日报语料拉取项目:https://github.com/psikyos/people_newspaper_scratch
5.随机数种子参考php session_id的生成,php源码4.0。
我不写代码,只做代码的搬运工...感谢各位算法大神的实现。

编译测试环境: 服务器端:
1.centos7,apache2.4
2.mac os x 10.10 EI Caption,MAMP4.0
3.mod_cgi模块,版本不详。
客户端:
1.Win10+vs2010+libcurl
2.chrome 48
3.safari

致谢:Johnsha,Kenneth,大工编程第一人——根叔..-_,-b