基于多种神经网络混合的出版PDF版面分析识别方法[发明专利]
专利名称:基于多种神经网络混合的出版PDF版面分析识别方法
专利类型:发明专利
sm是什么啥意思发明人:李翀,卢云龙,蒋路曦
致敬!大屏幕出现钟南山等抗疫英雄申请号:CN201911136541.6
申请日:20191119
公开号:CN110866388A
中国历史知识
公开日:
天气冷了的关心语句>诛仙手游隐藏任务20200306
专利内容由知识产权出版社提供
摘要:本发明涉及一种基于多种神经网络混合的出版PDF版面分析识别方法,属于图像识别、PDF版面分析技术领域,采用多任务训练模式,先对版面进行识别,分割并标注PDF版面,包括段落、标题、插图,并定位文本行,再对文本进行识别。本方法在版面识别上,通过多任务训练模式,同时完成了本文行、结构识别标注,全过程无需人工参与,有效保留了PDF文本结构信息。根据版面分析得到的带PDF文本结构信息的数据,构建出版数据常用中文字典,并针对性训练文本识别模型,从而使模型在PDF印刷体文本识别任务中识别精度得以大幅提升。识别后的文本同样具有结构信息,还原原始PDF布局结构,也便于后续二次编辑,制作电子书,挖掘图书内容知识。
申请人:重庆华龙网海数科技有限公司
地址:401120 重庆市渝北区青枫北路18号7-1
国籍:CN
代理机构:北京同恒源知识产权代理有限公司
代理人:赵荣之
超好听的英文歌
更多信息请下载全文后查看

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。