码市
403人浏览/47人投稿
895天前
已托管赏金
技术要求:1、 将jpg、png、图片格式的扫描件通过ocr识别,输出word文档,可编辑;2、 将论文格式pdf识别,输出word文档,可编辑;3、 扫描件内容包括文字、图片、流程图、公式、表格等,识别出来结果需要与原图格式一致或高度相似;4、 识别过程需要返回识别进度;5、 支持离线部署,docker打包镜像;封装成webapi或命令形式,方便java调用。6、 使用python、C++、java开发语言;7、 支持后续升级服务;8、 工期:5-7天;9、 需要提供源代码。10、 识别结果优化,需要等调试接口完成后,上传多个内部文件,看识别结果情况。11、 文档排版需要支持两列排版,类似于论文格式;图片识别流程1、 图像识别流程(支持排版参数数据)1) 通过接口上传图片数据;2) 保存图片数据到本地;3) 返回唯一标识码;4) 通过另外一个接口+唯一标识码 获取识别结果和识别进度(doc文件)2、 Pdf图像识别流程(支持排版参数数据)a) 通过接口上传pdf文件b) Pdf文件拆分成多个图片c) 解析图片,生成wordd) 拼接成完整worde) 返回唯一标识码f) 通过另外一个接口+唯一标识码 获取识别结果和识别进度(doc文件)3、 获取解析结果a) 调用接口,传入唯一标识码b) 获取识别结果文件(doc文件)