《计算机应用研究》|Application Research of Computers

基于条件随机场的汉语词汇特征研究

Study of Chinese lexical features base on conditional random fields

免费全文下载 (已被下载 次)  
获取PDF全文
作者 黄定琦,史晟辉
机构 北京化工大学 信息科学与技术学院
统计 摘要被查看 次,已被下载
摘要 汉语语言在书面表达时不具有天然分词的特性,词汇与词汇之间没有分词标记,因此在汉语文本的识别中需结合其行文的习惯及规则,即所谓的词汇特征。已有研究通常在实验中显式地标注词汇特征来提高识别效果,增加了人工处理流程,极大地加重了算法移植的工作量。研究并归纳了常用汉语语言的词汇特征,并利用条件随机场(conditional random fields,CRF)的特征提取能力,自行实现了复杂特征函数,在语料只具有简单标注的前提下,隐式地提取词汇特征,提高了识别效果。实验证明,在汉语分词中应用复杂词汇特征能有效提高识别性能,提供了在应用中提高识别算法可移植性的新思路。
关键词 条件随机场;汉语;词汇特征;信息提取
基金项目 北京市教委项目(GWGJ201608)
本文URL http://www.arocmag.com/article/02-2020-06-003.html
收稿日期
修回日期
页码 -
中图分类号 TP391
文献标志码