一、选手介绍
- 团队名称:海带数字劳务创新室
- 团队成员:汤骏、老郭、学友
- 成员分工:
- 汤骏,负责插件设计和技术交流
- 老郭,负责测试和应用功能。
- 学友,负责应用表单开发和文档内容。
- 参赛初衷:团队提升应用创新能力,更好服务劳务工外包业务场景。
二、作品介绍
插件:图片PDF双字段通用表格识别插件
- 插件简介:同时支持拍照图片和PDF附件的OCR表格识别插件;识别出自动填入子表单,最多支持20列*200行。
- 插件详细介绍:
- 适用行业:通用型,不区分行业。
- 当前痛点1:市场主流识别插件仅针对图片格式或单独的PDF识别,本插件同时支持双字段,用户自由选择识别来源,本插件会自动选择非空字段,双字段都上传时,会优先识别图片字段。
- 当前痛点2:目前各类OCR插件主要针对性识别,如:身份证、驾驶证等固定格式的内容,不适合通用性场景。本插件的通用性表格识别功能支持多种业务表单的识别,并自动“分行”“分列”填入简道云的子表单,满足了不同业务的字段提取的需求。
- 设计思路及实现路径:
- 设计思路:在百度智能云开通表格识别V2接口,在插件中先调用初始化TOKEN通讯令牌接口;
- 插件调用OCR识别接口时自动选择输入的识别文件的来源和格式。
- 插件配置说明:
- 触发动作:
- 执行动作:
- 设置输入字段:
- 预期效果:
- 识别PDF格式的《完税证明》:
- 识别图片格式的《工资表格》
三、心得分享
- 提升了公司团队的创新开发能力, 简道云平台可服务更多业务场景;
- 写插件时,遇到代码调试出错定位难的困难,希望平台丰富出错点定位信息;
- 插件的代码在变量传输时,如果长度太长会报错,希望后续能够:明显反馈是传输变量长度超限;
- 插件开发平台的“子表单变量”定义很直观方便,是一个亮点功能,方便了代码开发和插件的表单变量配置。
- 希望简道云插件的PYTHON环境能够支持更多的第3方PYTHON包。
|