《计算机应用研究》|Application Research of Computers

吕苏语口语标注语料的自动分词方法研究

Automatic word segmentation on Lizu spoken annotation corpus

免费全文下载 (已被下载 次)  
获取PDF全文
作者 于重重,操镭,尹蔚彬,张泽宇,郑雅
机构 1.北京工商大学 计算机与信息工程学院,北京 100048;2.中国社会科学院民族学与人类学研究所,北京 100081
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2017)05-1325-04
DOI 10.3969/j.issn.1001-3695.2017.05.010
摘要 濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中;并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。
关键词 吕苏语;汉语标注语料;自动分词;改进结巴算法
基金项目 国家社会科学基金重大资助项目(14ZDB156)
国家教育部人文社会科学研究规划基金资助项目(15YJCZH224)
本文URL http://www.arocmag.com/article/01-2017-05-010.html
英文标题 Automatic word segmentation on Lizu spoken annotation corpus
作者英文名 Yu Chongchong, Cao Lei, Yin Weibin, Zhang Zeyu, Zheng Ya
机构英文名 1.CollegeofComputer&InformationEngineering,BeijingTechnology&BusinessUniversity,Beijing100048,China;2.InstituteofEthnology&Anthropology,ChineseAcademyofSocialSciences,Beijing100081,China
英文摘要 Endangered language documentation aims at rescuing and long term preserving all the information contained in the spoken endangered language, such as acoustics, linguistics, literature, history and traditional culture. Lizu language is one of the endangered language which has no text or document record and Lizu spoken corpus documentation is of great significance. Automatic word segmentation in Chinese annotation for Lizu spoken corpus is the basic work of establishing high quality Lizu language spoken corpus and Lizu language documentation system subsequentially. At present there is little research on word segmentation for Lizu language annotation corpus. This paper firstly analyzed the characteristics of Lizu language characteristics, and used Chinese automatic word segmentation in Lizu language Chinese annotation corpora. Besides it proposed improved jieba algorithm for false word segmentation problem in Lizu language annotation corpora using jieba word segmentation algorithm. By comparative experiments, the improved jieba word segmentation has higher accuracy, which improves the result of Lizu Chinese annotation corpus segmentation.
英文关键词 Lizu language; Chinese annotation corpus; automatic word segmentation; improved jieba algorithm
参考文献 查看稿件参考文献
  [1] 徐世璇. 我国濒危语言研究的历程和前景[J] . 西北民族大学学报:哲学社会科学版, 2015(1):83-90. [2] Chirkova K. The Duoxu language and the ersu-lizu-duoxu relationship[J] . Linguistics of the Tibeto-Burman Area, 2014, 37(1):104-146. [3] Da Wu. Three tongues and two identities:a case study of Ersu ethnic identities in Sichuan, China[J] . Cultural Diversity in China, 2015, 1(1):44-67. [4] 尹蔚彬. 从拉坞戎语看濒危语言的特点[J] . 西北民族大学学报:哲学社会科学版, 2016(2):114-118. [5] 尹蔚彬. 四川省藏区语言生态研究及价值[J] . 中国藏学, 2016(1):191-194. [6] 奉国和, 郑伟. 国内中文自动分词技术研究综述[J] . 图书情报工作, 2011, 54(2):41-45. [7] 马宁, 李亚超, 何向真, 等. 一种实用的资源稀缺条件下的分词方法[J] . 计算机应用研究, 2016, 33(1):68-70, 97. [8] Chen Aitao, He Jianzhang, Xu Liangjie, et al. Chinese text retrieval without using a dictionary[J] . ACM SIGIR Forum, 1997, 31(SI):42-49. [9] 陈明华, 殷景华, 舒昌, 等. 基于正反向最大匹配分词系统的实现[J] . 信息技术, 2009(6):142-127. [10] 赵伟, 戴新宇, 尹存燕, 等. 一种规则与统计相结合的汉语分词方法[J] . 计算机应用研究, 2004, 21(3):23-25. [11] Durrani N, Schmid H, Fraser A, et al. The operation sequence model combining N-gram-based and phrase-based statistical machine translation[J] . Computational Linguistics, 2015, 41(2):1-47[12] Liu Haihong, Liu Sha, Kirk K I, et al. Longitudinal performance of spoken word perception in Mandarin pediatric cochlear implant users[J] . International Journal of Pediatric Otorhinolaryngology, 2015, 79(10):1677-1682. [13] Sun Junyi. jieba中文分词[EB/OL] . (2012)[2016-04-20] . https://github. com/fxsjy/jieba. [14] 陶伟. 警务应用中基于双向最大匹配法的中文分词算法实现[J] . 电子技术与软件工程, 2016(4):153-155. [15] 张静, 宋俊德, 鄂海红. 中文分词中间件的设计与实现[EB/OL] . [2012-12-17] . http://www. paper. edu. cn/html/releasepaper/2012/12/37/. [16] 胡发刚, 谢军. 基于文本挖掘的电商企业评论打分机制有效性验证[J] . 吉林工商学院学报, 2015, 31(3):43-46. [17] SIGHAN[EB/OL] . http://www. sighan. cs. uchicago. edu.
收稿日期 2016/5/17
修回日期 2016/7/12
页码 1325-1328
中图分类号 TP391.1
文献标志码 A