自动分词工具试用
  作者: fzg       更新时间:  2009/01/06 17:26:25  文章来源:EAKMRC

本中文分词工具试用版为单机版,且只能对*.txt文件进行处理。若需要ActiveX控件版或asp、aspx的源程序请与本站或作者联系。

在分词产生岐义时,采用基于词典的两次错位正向最大减字匹配法进行选择。因此当词典中含有句子中能发生岐义的后继词时,它能正确识别出来,并让人工来进行正确分词的选择,否则两次错位正向最大减字匹配法失效。但若被肢解的后继词的后半部无法与它后面的字形成字典中的词时,它可以被程序识别出来,并让人工进行字典添加词后,重新进行当前句子的分词。例如“已经取得文凭和尚未能取得文凭的学生”中,若字典已有“和尚”这个词,但还没有“尚未”或“尚未能”这两个词时,两次错位正向最大减字匹配法失效;但若字典里同样也没有“未能”这个词时,那么程序就可以发现并让人工添加词后重新分词。当然也可以让程序自动进行预定规则自动进行岐义处理。

 

中文分词工具下载(大小958k)

 
湖北大学企业档案与知识管理研究中心·武昌·宝积庵      邮编:430062    电邮:eakmrc@163.com
CopyRight@2007  All Rights Reserved By EAKMRC    版权声明  联系我们 管理入口