《计算机应用研究》|Application Research of Computers

金融领域的事件句抽取

Event sentence extraction in financial field

免费全文下载 (已被下载 次)  
获取PDF全文
作者 李江龙,吕学强,周建设,刘秀磊
机构 1.北京信息科技大学 网络文化与数字传播北京市重点实验室,北京 100101;2.首都师范大学 北京成像技术高精尖创新中心,北京 100048
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2017)10-2915-04
DOI 10.3969/j.issn.1001-3695.2017.10.008
摘要 事件句抽取是事件抽取中的核心环节,在金融领域中,公司名识别则是事件句抽取中的重点和难点。针对金融领域的事件句抽取,首先充分利用互联网搜索和上市公司名信息进行公司名识别,如果一个N元组是公司名,则进行互联网搜索的结果中包含“公司”“集团”等字词多,同时与公司名库中部分公司名有较高的匹配度;其次,综合考虑句子位置信息、包含公司名信息、包含领域动词信息、与标题相似度四个方面特征,构造权值表达式;最终从句子集中选出金融事件句。在数据集上测试,实验结果证明提出的金融领域事件句抽取方法是可行的,公司名识别方法的正确率可达82.28%,召回率达68.93%,事件句抽取的正确率可达66.83%。
关键词 公司名识别;事件句;简称;事件抽取
基金项目 2014年度国家社会科学基金委托课题(14@ZH036)
北京成像技术高精尖创新中心资助项目(BAICIT-2016003)
国家自然科学基金资助项目(61271304,61671070)
本文URL http://www.arocmag.com/article/01-2017-10-008.html
英文标题 Event sentence extraction in financial field
作者英文名 Li Jianglong, Lyu Xueqiang, Zhou Jianshe, Liu Xiulei
机构英文名 1.BeijingKeyLaboratoryofInternetCulture&DigitalDisseminationResearch,BeijingInformationScience&TechnologyUniversity,Beijing100101,China;2.BeijingAdvancedInnovationCenterforImagingTechnology,CapitalNormalUniversity,Beijing100048,China
英文摘要 Event sentence recognition is an important part of the event extraction, and in the financial field, the identification of the company’s name is an essential as well as a difficult part of the event sentence recognition. For the event sentence identification in the financial field, this paper first made full use of the Internet search information to identify the company’s name. Secondly, it considered four factors to construct the value of multi-factor expression: the position of the sentence, the information of the company name, the domain verb information and the similarity between sentence and title. Finally, it chosed the financial event sentences from the sentence sets. The experimental results prove the method’s feasibility that the correct rate of the company name recognition method is 82.28%, and the recall rate is 68.93%. And the correct rate of event sentence recognition is 66.83%.
英文关键词 company name identification; event sentence; abbreviation; event extraction
参考文献 查看稿件参考文献
  [1] 韩永峰, 许旭阳, 李弼程, 等. 基于事件抽取的网络新闻多文档自动摘要[J] . 中文信息学报, 2012, 26(1):58-66.
[2] Lahari E P, Kumar D V N S, Ubale M. A comprehensive survey on feature extraction in text summarization[J] . International Journal of Computer Technology and Applications, 2014, 5(1):248.
[3] 熊娇, 王明文, 李茂西, 等. 基于词项—句子—文档三层图模型的多文档自动摘要[J] . 中文信息学报, 2014, 28(6):201-207.
[4] 钱强, 庞林斌, 高尚. 一种基于词共现图的受限领域自动问答系统[J] . 计算机应用研究, 2013, 30(3):841-843.
[5] 陈超, 朱洪波, 王亚强, 等. 中文财经文本中公司名简称的自动识别[J] . 四川大学学报:自然科学版, 2011, 48(2):308-314.
[6] 王宁, 葛瑞芳, 苑春法, 等. 中文金融新闻中公司名的识别[J] . 中文信息学报, 2002, 16(2):1-6.
[7] 张占英, 王中立. 中文文本中公司名简称的识别[J] . 许昌学院学报, 2003, 22(2):99-101.
[8] ACE (automatic content extraction) Chinese annotation guidelines for events, version 5. 5. 1[R/OL] . (2005-07-01). http://www. idc. upenn. edu/Projects/ACE/.
[9] 赵妍妍, 秦兵, 车万翔, 等. 中文事件抽取技术研究[J] . 中文信息学报, 2008, 22(1):3-8.
[10] 许旭阳, 韩永峰, 宋文政. 事件抽取技术的回顾与展望[J] . 信息工程大学学报, 2011, 12(1):113-118.
[11] 丁效, 宋凡, 秦兵, 等. 音乐领域典型事件抽取方法研究[J] . 中文信息学报, 2011, 25(2):15-20.
[12] 吴平博, 陈群秀, 马亮. 基于事件框架的事件相关文档的智能检索研究[J] . 中文信息学报, 2003, 17(6):25-30, 59.
[13] 王力, 李培峰, 朱巧明. 一种基于LDA模型的主题句抽取方法[J] . 计算机工程与应用, 2013, 49(2):160-164, 257.
[14] 王伟, 赵东岩, 赵伟. 中文新闻关键事件的主题句识别[J] . 北京大学学报:自然科学版, 2011, 47(5):789-796.
[15] Ji Heng, Grishman R. Refining event extraction through unsupervised cross-document inference[C] //Proc of the 46th Annual Meeting of the Association for Computational Linguistics. 2008:254-262.
[16] Li Peifeng, Zhou Guodong, Zhu Qiaoming, et al. Employing compositional semantics and discourse consistency in Chinese event extraction[C] //Proc of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg:Association for Computational Linguistics. 2012:1006-1016.
[17] 李培峰, 周国栋, 朱巧明. 基于语义的中文事件触发词抽取联合模型[J] . 软件学报, 2016, 27(2):280-294.
[18] Chen Zheng, Ji Heng. Can one language bootstrap the other:a case study on event extraction[C] //Proc of Workshop on Semi-Supervised Learning for Natural Language Processing. Stroudsburg:Association for Computational Linguistics, 2009:66-74.
[19] Ji Heng. Cross-lingual predicate cluster acquisition to improve bilingual event extraction by inductive learning[C] //Proc of Workshop on Unsupervised and Minimally Supervised Learning of Lexical Semantics. 2009:27-35.
[20] Qin Bing, Zhao Yanyan, Ding Xiao, et al. Event type recognition based on trigger expansion[J] . Tsinghua Science and Technology, 2010, 15(3):251-258.
[21] 赵军, 刘康, 周光有, 等. 开放式文本信息抽取[J] . 中文信息学报, 2011, 25(6):98-110.
收稿日期 2016/7/5
修回日期 2016/8/25
页码 2915-2918,2945
中图分类号 TP391.1
文献标志码 A