亮相CCIG2022,合合信息以智能文字识别技术挑战传统OCR应用难题

本文转自:新民晚报
亮相CCIG2022,合合信息以智能文字识别技术挑战传统OCR应用难题
文章图片

文章图片

图说: 丁凯博士在CCIG学术论坛上分享智能图像处理技术 来源/采访对象供图(下同)
【亮相CCIG2022,合合信息以智能文字识别技术挑战传统OCR应用难题】新民晚报讯(采访人员 金志刚)近日 , 2022中国图象图形大会(CCIG 2022)在成都圆满落幕 。本次大会由中国科学技术协会指导 , 中国图象图形学学会主办 , 四川大学承办 , 电子科技大学协办 , 汇聚了潘云鹤院士、郑南宁院士、高文院士、戴琼海院士、王耀南院士、乔红院士等百余位国内知名学者 , 以及来自百度、华为、OPPO、合合信息等企业的技术专家 , 共话图像图形学术研究与技术创新趋势 , 共谋行业新发展 。
本次大会设置了涵盖OCR(光学字符识别 , 通常指精准、快速识别图片文字)、图像理解、计算机视觉、人机交互、类脑视觉、AR/VR、三维视觉、模式识别等多个图形图像领域的学术论坛 , 合合信息自然语言算法研发总监丁凯博士、合合信息图像算法研发总监郭丰俊博士受邀参与《OCR前沿技术与产业应用》等论坛 , 和来自中科院、北京大学、华中科技大学、联想研究院、腾讯优图实验室等顶尖学术机构、高校与企业的研究人员们一道 , 分享OCR领域的前沿进展及技术规模化应用情况 。
丁凯博士认为 , 尽管OCR技术经历了一个世纪的发展 , 现今仍存在文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等亟待解决的问题 。OCR技术的进阶之路上 , 文档图像质量的增强是重要的研究方向 , 需克服页面弯曲、阴影遮挡、摩尔纹、图片模糊等现代文本图像处理中常见的干扰状况 。通过引入AI(人工智能)技术 , 合合信息智能文字识别及图像处理技术能够帮助各应用领域简化下游文档处理任务 , 提升文字识别效率与准确性 。
以弯曲矫正为例 , 丁凯博士介绍了基于文本行线拟合和坐标变换、基于文本行线优化矫正的方法原理和优缺点 , 并提到合合信息采用的基于位移场网络学习的方法的系统架构 , 可有效解决多种弯曲文档图像的矫正问题 。除此之外 , 在教育领域 , 合合信息“字迹擦除”技术融合了内容切分、手写字迹分离网络、文档质量增强技术 , 对复杂场景进行准确处理 , 实现作业及试卷笔记“一键擦除” 。
亮相CCIG2022,合合信息以智能文字识别技术挑战传统OCR应用难题
文章图片

文章图片

图说:“字迹擦除”功能演示:布满字迹的试卷(左)与“擦除字迹”后的试卷(右)
另外一方面 , 文档数字化流程的建立是加速企业数字化转型的关键 , 也是技术落地中的痛点 。为了更好地解决不同业务中存在的文档版式繁杂、训练样本匮乏、模型定制化调优周期长且效率低的问题 , 合合信息推出了TextIn Studio智能文字识别训练平台 , 可将底层资源、数据、模型训练、集成部署和服务管理应用多个模块整合在一起 , 针对性解决各项问题的同时 , 建立业务流程之间的闭环 , 实现模型自动化训练和部署 。
TextIn Studio生产出了大量不同场景的文档数字化模型 , 涉及近百种文档图像预处理、文字识别与理解、文档格式转换等方面的服务 , 较为全面地覆盖了企业和个人工作生活相关的文档类型 。合合信息通过TextIn小程序发起了针对高校研究者群体需求发起的限时体验活动 , 即高校的老师和学生注册并绑定带有“edu”后缀的教育邮箱后 , 每人一年可免费获得100万次的OCR服务 。“希望这个活动能够进一步推动OCR领域产业界和学术界的合作 , 支持开发者们以更低的门槛接触到相关技术 , 从而研发更多有价值的应用 , 推动领域更好地发展 。”丁凯博士说 。