相信不少同学生活中都用过OCR技术,小到一张手写笔记、纸质发票、合同条款,大到一堆会议资料、一本书等,无论是手写的文字,还是印刷的中英文和其他语种,拿起手机相机拍一拍就能轻松识别提取出来,成为可以复制和编辑的文本。
【资料图】
OCR(Optical Character Recognition),即光学字符识别技术。作为计算机视觉领域的重要分支,OCR典型应用是通过图像文字识别实现信息录入,利用机器将图像中手写体或印刷体的文本转换为计算机可以直接处理的格式。同时,由于文字和符号包含丰富的语义信息,基于OCR提取文字信息继而进行分析,能够帮助机器更好地理解图像。
OCR应用场景
近年来,随着机器学习与卷积神经网络的快速发展,作为处理图片文字数据的OCR识别能力不断突破,逐渐在更加复杂的数字化场景发挥作用,有效降低了企业在信息提取和录入的人力成本。
票据识别
传统的通过人工方式整理、粘贴、核算发票费时费力而且容易出错。基于深度神经网络模型的OCR文字识别技术,可以把票据上的发票号码、开票日期、购买方信息、金额、里程、单价、号码等信息直接转化为可编辑文本,包括增值税发票、火车票、出租车发票、营业执照等常见票据。
卡证识别
银行业务场景下,在办理各项业务时必须输入身份证号、银行卡片信息等进行实名认证。通过应用OCR技术方案,用户仅需上传身份证或者银行卡图片,即可在毫秒内实现识别卡证全部信息,完成快速准确录入。
文稿录入
文字处理是OCR最常见的用途。用户可以将各类不可编辑的办公文档通过OCR识别一键转换为可编辑的版本。也可以将纸质版的历史文档转换为可搜索的PDF文件,对于旧报纸、杂志、信件和其他历史文件的存档大有裨益。
OCR识别难点
OCR技术的蓬勃发展,解决了低速的信息输入与高速信息处理之间的矛盾,通用场景下的OCR识别准确率也逐渐提高。但对于某些专用领域来说,OCR识别仍然并非易事。
从技术角度出发,OCR识别存在以下四个难点:
语种众多:不同国家常用语言不同,不同语言的字符形态区别也很大,增加了OCR算法的识别难度。
字体形态复杂:图片中的文字字体多样,如艺术字体、手写字体等,字号、字重、颜色不一。
拍摄角度多样:用户大多会使用手机作为拍摄文字的设备,拍摄过程中发生抖动、对焦偏差产生的失焦、拍摄角度不正等问题。
文字载体多样:例如食品包装发生形变,造成文字弯曲,打印文本模板重叠、多次复印文档图像颗粒化、文档照片成像质量模糊等各类实际问题。
标贝科技OCR数据服务
标贝科技依托先进的深度学习技术和海量优质数据资源,采用先进的图形算法,努力攻克复杂场景下的文档电子化痛点问题,为客户提供多场景、多语种、高精度的文字检测与识别服务,并针对图片模糊、倾斜、光照不均等情况进行深度优化,实现多种复杂场景下的精准识别。
同时,我们还提供文本OCR成品数据集,包含手写和多语言版本:
1、 25000张手写OCR数据
该数据为多场景下的手写OCR数据集。采集于多种室内室外场景,包括会议笔记,便签/随笔,课堂笔记,印刷体手写体混排的习题/试卷等。文字载体为常见的纸质、玻璃、iPad备忘录及APP截图、黑板等。
2、约19000张小语种OCR数据
该数据集为多语种OCR数据集,包括拍照文档约14000张以及截屏文档约5000张。场景分为室内室外场景,语种包含日文、韩文、德文、法文、意大利语、西班牙语等。文字载体为常见的纸质文档、书籍、论文、PPT等。
欢迎对以上数据集感兴趣的行业伙伴联系我们~
新闻排行
图文播报
科普信息网 - 科普类网站
联系邮箱:85 572 98@qq.com 备案号: 粤ICP备18023326号-39
版权所有:科普信息网 www.kepu365.cn copyright © 2018 - 2020
科普信息网版权所有 本站点信息未经允许不得复制或镜像,违者将被追究法律责任!