【简道云·插件开发大赛】海带数字劳务创新室:图片PDF双字段通用表格识别插件

楼主
我是社区第845866位番薯,欢迎点我头像关注我哦~
15

一、选手介绍

  • 团队名称:海带数字劳务创新室
  • 团队成员:汤骏、老郭、学友
  • 成员分工:
    • 汤骏,负责插件设计和技术交流
    • 老郭,负责测试和应用功能。
    • 学友,负责应用表单开发和文档内容。
  • 参赛初衷:团队提升应用创新能力,更好服务劳务工外包业务场景。

二、作品介绍

插件:图片PDF双字段通用表格识别插件

  • 插件简介:同时支持拍照图片和PDF附件的OCR表格识别插件;识别出自动填入子表单,最多支持20列*200行。
  • 插件详细介绍:
    • 适用行业:通用型,不区分行业。
    • 当前痛点1:市场主流识别插件仅针对图片格式或单独的PDF识别,本插件同时支持双字段,用户自由选择识别来源,本插件会自动选择非空字段,双字段都上传时,会优先识别图片字段。
    • 当前痛点2:目前各类OCR插件主要针对性识别,如:身份证、驾驶证等固定格式的内容,不适合通用性场景。本插件的通用性表格识别功能支持多种业务表单的识别,并自动“分行”“分列”填入简道云的子表单,满足了不同业务的字段提取的需求。
  • 设计思路及实现路径:
    • 设计思路:在百度智能云开通表格识别V2接口,在插件中先调用初始化TOKEN通讯令牌接口;
    • 插件调用OCR识别接口时自动选择输入的识别文件的来源和格式。
  • 插件配置说明:
    • 触发动作:
    • 执行动作:
    • 设置输入字段:
    • 预期效果:
    • 识别PDF格式的《完税证明》:
    • 识别图片格式的《工资表格》

三、心得分享

  • 提升了公司团队的创新开发能力, 简道云平台可服务更多业务场景;
  • 写插件时,遇到代码调试出错定位难的困难,希望平台丰富出错点定位信息;
  • 插件的代码在变量传输时,如果长度太长会报错,希望后续能够:明显反馈是传输变量长度超限;
  • 插件开发平台的“子表单变量”定义很直观方便,是一个亮点功能,方便了代码开发和插件的表单变量配置。
  • 希望简道云插件的PYTHON环境能够支持更多的第3方PYTHON包。
分享扩散:

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表