任务详情
1. 根据给定的pdf,提取pdf中的部分文字内容(可用正则表达式匹配),以及表格中的内容,并将内容整合成需要的格式。例子参见附件。2. pdf会有多种表格类型,需要适配几种不同的表格类型(10种左右,但大部分字段是类似的,有小部分的差异)。3. 交付结果是一个函数,函数的输入为pdf路径和相关字段dict(用来和pdf中字段整合成最终结果),输出为一个list。4. 因项目其他部分是python,所以这个部分也需要使用python完成。5. 我们有之前的python代码,已实现80%左右的表格内容提取,你也可以拿之前的代码做二次开发。6. 该项目为长期项目,后续的功能增加可长期合作。