下载频道> 资源分类> matlab源码> 数学建模> 数学建模论文_基于MSER-CNN的商品信息图片字符检测与识别

标题:数学建模论文_基于MSER-CNN的商品信息图片字符检测与识别
分享到:

所属分类: 数学建模 资源类型:文档 文件大小: 1.16 MB 上传时间: 2016-09-01 20:46:53 下载次数: 350 资源积分:1分 提 供 者: 源码共享 20160901084641828
内容:
摘  要:在互联网+时代,越来越多的人们选择在电商网站购物,商家提供的商品信息是用户做出购买决定的重要依据。图片这种生动、形象的视觉表达方式在给消费者带来便利的同时,也给电子商务网站的管理者带来了技术上的挑战:图片中的文本以光学字符的形式表达,不能使用计算机直接检索和处理。在大数据背景下,自动地从商品信息图片上提取其中的文本信息,这将有助于电子商务企业更好地做出商品推荐、售后服务和信息监管。本文将基于字符的检测与识别技术对商品信息图片进行文本信息提取与挖掘。
在本次数据挖掘过程中,我们首先对获取得到的图片和标注数据进行预处理,过滤掉少量错误的标注信息,以提高标注信息的正确性。
接着,对图片文本信息进行检测,主要分为离线和在线两个处理过程。在离线阶段,我们根据标注样本提取字符区域和非字符区域,正则化处理后得到字符样本集和非字符样本集,采用三种分类方法:基于HOG和SVM的分类方法、基于LeNet的分类方法和基于Fast-RCNN的分类方法。在线处理阶段,我们首先采用MSER算法对图片的8个通道进行字符检测,接着根据先验知识,对候选区域的面积、长、宽进行粗筛选,然后根据候选区域的行间距把左右相邻的字符区域进行联通,再对这些行区域进行形态学处理和垂直投影,得到单个字符区域。再把这些字符区域输入三种分类器进行背景区域的去除,得到最终的检测结果。
然后,对检测出的字符区域进行基于CNN网络的识别。识别之前统一对字符图像进行灰度化、“字亮底暗”的预处理,以缩小样本空间,提高网络识别率。识别分为离线过程和在线过程。在离线阶段,自主设计了CNN模型,训练后,这种单网CNN在测试集中得到了93.07%的正确率。然而,由于给定的训练样本在种类上分布极不均匀,训练得到的CNN网络可能存在过拟合。我们尝试四种不同方法改进原网络:CNN+HOG、集成CNN、双网、迁移CNN。实验表明,在没有从根本上改变训练样本种类分布的情况下,提高识别率比较困难;此外,虽然本文的迁移CNN没有得到理想效果,但仍然是解决少样本,零样本问题,最有潜力的方法;最后,本文选择单网CNN作为识别模型。在在线阶段,我们把提取出的字符区域输入识别模型,得到预测的字符标签。
在实验过程中,我们分别对比了Fast-RCNN、Faster-RCNN等检测算法,同时对比分析了基于卷积神经网络和SVM分类器的优劣,以及不同的卷积神经网络模型,并对我们的检测识别方法的适用性以及参数设置进行了详细的分析,在给出的测试集中,检测率F-scroe为0.524,识别正确率为70.5%,最终平均F2score为0.2676。验证了本文方法的有效性。同时本论文也提供了方便交互使用的软件界面,可以为网络信息监管工作提供有力的技术支持。
 
关键词:字符检测识别;MSER;SVM;CNN;迁移学习;

文件列表(点击上边下载按钮,如果是垃圾文件请在下面评价差评或者投诉):

数学建模论文_基于数据挖掘技术的市财政收入分析预测模型时间序列/
数学建模论文_基于数据挖掘技术的市财政收入分析预测模型时间序列/www.gusucode.com.txt
数学建模论文_基于数据挖掘技术的市财政收入分析预测模型时间序列/【谷速代码】-免费源码.url
数学建模论文_基于数据挖掘技术的市财政收入分析预测模型时间序列/基于数据挖掘技术的市财政收入分析预测模型.pdf
数学建模论文_基于数据挖掘技术的市财政收入分析预测模型时间序列/说明.txt

关键词: 数学建模 字符 商品

Top_arrow
回到顶部
联系方式| 版权声明| 招聘信息| 广告服务| 银行汇款| 法律顾问| 兼职技术| 付款方式| 关于我们|
网站客服网站客服 程序员兼职招聘 程序员兼职招聘
沪ICP备19040327号-3
公安备案号:沪公网安备 31011802003874号
库纳格流体控制系统(上海)有限公司 版权所有
Copyright © 1999-2014, GUSUCODE.COM, All Rights Reserved