《计算机应用研究》|Application Research of Computers

基于类向量模型的中文姓名识别研究

Research of Chinese Names Identification Based on Class Vector Model

免费全文下载 (已被下载 次)  
获取PDF全文
作者 贾品贵,杨一平,卢朋
机构 中国科学院 自动化所 综合信息中心,北京 100080
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2007)04-0111-03
DOI 10.3969/j.issn.1001-3695.2007.04.031
摘要 提出了一种基于类向量模型的中文姓名识别方法。该方法通过类向量的生成来模拟人工识别姓名的过程,采用Viterbi算法对未经切分的汉字串进行类向量标注得到类向量序列,通过检查相邻类向量中类别和向量分量的变化来最终识别出人名。该方法是完全数据驱动的,不需要姓名识别的模式和规则。通过对互联网上随机抽取的1 000篇文章进行测试,结果表明,中文姓名识别召回率为82.2%,准确率为70.3%。
关键词 中文姓名识别;类向量模型;Viterbi算法;基于汉字
基金项目
本文URL http://www.arocmag.com/article/1001-3695(2007)04-0111-03.html
英文标题 Research of Chinese Names Identification Based on Class Vector Model
作者英文名 JIA Pin-gui, YANG Yi-ping, LU Peng
机构英文名 Integrate Information System Research Center, Institute of Automation, Chinese Academy of Sciences, Beijing 100080, China
英文摘要 This paper presented an approach for Chinese names identification based on class vector model. The formation of class vector imitated human name identification. Character sequence was tagged using Viterbi algorithm with different class vectors. By checking the class of neighboring class vectors and the change of their components, the possible names were recognized without any template or rule. The test was carried out on real corpus from Internet. The experiments show that the precision and recall rate respectively reach 70.3% and 82.2%.
英文关键词
参考文献 查看稿件参考文献
 
收稿日期
修回日期
页码 111-113
中图分类号
文献标志码 A