《计算机应用研究》|Application Research of Computers

基于神经网络的印刷体数学公式抽取方法

Research on mathematical formulas extraction from printed document based on neural network

免费全文下载 (已被下载 次)  
获取PDF全文
作者 常新峰,崔键,刘晓蔚,田学东
机构 河北大学 a.数学与计算机学院;b.图书馆,河北 保定 071002
统计 摘要被查看 次,已被下载
文章编号 1001-3695(2008)11-3483-03
DOI 10.3969/j.issn.1001-3695.2008.11.085
摘要 在分析中文印刷文档版式及字符特征的基础上,提出了一种将决策树与BP神经网络相结合的数学公式抽取方法。采用决策树方法将孤立公式从文档中抽取出来,采用BP神经网络方法定位内嵌公式。实验表明,该抽取方法对中文文档的公式抽取具有较高的正确率、容错率和速率。
关键词 光学字符识别;特征提取;数学公式抽取;决策树;BP神经网络
基金项目 国家自然科学基金资助项目(60772073)
本文URL http://www.arocmag.com/article/1001-3695(2008)11-3483-03.html
英文标题 Research on mathematical formulas extraction from printed document based on neural network
作者英文名 CHANG Xin-feng, CUI Jian, LIU Xiao-yu, TIAN Xue-dong
机构英文名 a. College of Mathematics & Computer, b. Hebei University Library, Hebei University, Baoding Hebei 071002, China
英文摘要 On the basis of the analysis of typographic information and character feature on printed document, an approach combining decision tree and BP neural network was proposed to extract mathematical formulas. Decision tree method was used to extract the isolated formulas lines. BP neural network was used to extract the embedded formulas from the text lines. The experiments show the methods can achieve satisfactory results.
英文关键词 OCR; feature extraction; mathematical formulas extraction; decision tree; BP neural network
参考文献 查看稿件参考文献
 
收稿日期
修回日期
页码 3483-3485
中图分类号
文献标志码 A