基于投影特征与结构特征的表格图像识别.pdf

上传人:大亚木业 文档编号:72636791 上传时间:2019-05-05 格式:PDF 页数:3 大小:249KB
返回 下载 相关 举报
基于投影特征与结构特征的表格图像识别.pdf_第1页
第1页 / 共3页
基于投影特征与结构特征的表格图像识别.pdf_第2页
第2页 / 共3页
基于投影特征与结构特征的表格图像识别.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述
第37卷第1期
计算机工程
2011年1月
Vol 37 No. 1
Computer Engineering
图形图像处理
文章号:1000-3428(201101-0210-03文标识码:A
中图分类号:TP391
基于投影特征与结构特征的表格图像识别
王,平西建,属林,王会
解放军信息工程大学信息工程学院,郑州450002)
摘要:通过分析表格的框线特征与结构特征,提出一种基于投影特征与结构特征的表格文本图像识別算法。该方法通过投影计算提取表
格的框线特征,通过击中或击不中变换提取表格的结构特征,根据所提特征重要性的不同,设定分类判决阓值。实验结果表明,该方法能
准确高效地区分表格文本图像与非表格文本图像,具有很强的实用性。
关词:投影特征;结构特征;表格识别
Form Image Recognition Based on Proiection and Structure Features
WANG Xu, PING Xi-jian, ZHOU Lin, WANG Hui-peng
( nformation Engineering ollege, PLA Infommation Engineering niversity, Zengzhou4502chin)
T Abstract According o the research of projection and structure features a form document image recognition al orithm is proposed based on the
projection and structure features of forms. The line feature of forms is obtained by projection, and the structure features are extracted b!
trans om. Due o the differences twen the w fees, i es he the hold d st nish omm document image. Experimental resuits show that
the proposed algor t m can distinguish between form and non-form document images accurately and efficiently
[Key words projection feature; structure feature; form recognition
DOI:10.3969issn.1000-3428.2011.01.072
1概述
法。现有的直线检测算法很多,如搜索式的连接法、相位
文本图像是指公文、文識、出版物、票据等文字档案,编组法?、 Radon变换、 Hough变换及其改进算法等。但这些
通过传真、扫描、照相等手段所形成的数字图像。表格文本方法都有一些不利因素,其中,运算最大是主要原因。
图像是指含有表格的一类文本图像,表格是一种利用文字和
对于表格文本图像而言,当其二值化后,常常会出现框
直线在二维平面上的不同位置关系将文字所携带的信息按
线断裂、残缺或字符粘连等现象,给表格框线的检涸和识别
定结构特征和逻辑意义划分的一类特殊文档,是采集和分配带来了很多困难。而投影法通过统计同一行或列上的黑像素
信息的重要工具。然而,在日常使用OCR软件处理文本图像
数目,避免了对直线段的直接检测,对表格线的连通性要求
时,往往会因为文本图像中存在表格结构而使整个OCR的识不高,具有很好的抗干扰和泛化能力,而且运算速度快,能
别结果混乱。因此,本文以文本图像中是否含有表格作为文够满足实时处理的要求。
本图像分类的依据,提出一种基于投影特征与结构特征的表
但是,表格中包含的文字等数据倍息往往会对框线的投
格图像识别方法。该方法能够快捷有效地区分表格文本图像
影造成干扰,可以通过数学形态学中的腐蚀和膨胀运算消
等相关自动化处理工作有着十分重要的意义ッ、表格编码
与非表格文本图像,对表格文本图像的文字提取
除图像中字符等细节的影响。
通过预处理中的双线性采样,表格中的字符尺寸他达到
2格图像的预处理
了大致的统一。选择水平长度为1(应大于字符的尺寸,但
在图像采集的过程中,表格文本图像往往由于噪声的影小子最短表格线的长度)的结构元素B(对文本图像F(.)
响产生质量退化、模糊、斜等现象,这势必会影响表格图
进行水平方向的腐蚀。经过腐蚀后的图像F(G,j)中小于结构
像的识别。因此,在进行表格文本图像识别前,需要对图像
元素B()的字符都被抹去了,然后再使用长度为!(应长于
进行平滑去噪和倾斜校正等预处理,以达到改善文本图像质
2,目的是更好地恢复表格框线)的结构元索B()对腐蚀后的
量,提高识别准确率的目的。同时,由于文本图像内容丰富,
文本图像进行膨胀,以恢复水平表格框线,公式如下
尺寸差异大,若直接在原图像上进行表格识别将导致运算时
F(i,j)=(F(i、j)G8()B()
间过长,不利于文本图像的实时处理。因此,在进行表格文
其中,“9”为腐蚀运算符;“⊕”为膨胀运算符。此时,图
本图像识别之前,首先采用双线性采样的方法对图像进行采
像F(i,)中只保留了水平方向的表格框线,用二维矩阵的形
样,使文本图像在相似的尺寸下处理,这样既可以提高识别
式表示为:
算法的运算速度,也有利于形态学结枘元素的选取
3表格特征的提取
项目:国家自然科学基金资助项目(60473022)
3.1基于形态学的投影特征提取
作者介:王绪(1985-),男,士研究生,主研方向:图像信息
表格文本图像与一般的文本图像最大的区別是以表格框处理,模式识别,文本图像分析与处理;平西建,教授、博士生导
线作为分割表格单元的主要依据。因此,对于表格特征的识师;周林,博士研究生;王会,士研究生
别与检测而言,从直线检测开始,是最直接最根本的研究方散将日:20106-16E-mal: wangzhaoxu20080808@163com
万方数据
展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 论文 > 电子信息


版权所有:www.WDFXW.net 

鲁ICP备14035066号-3