任务详情
如题,找靠谱数据工程师!
项目情况:
法务文档处理和生成项目,后端已成型,需新增文档预处理管线。
目标:
将离散文档作结构化处理。
需要做啥:
搭建合同文档的自动化预处理流程:清洗、切分、结构化、分类、聚类。
使用 Python 实现 条款抽取和分类、参数化。
结合 RAG(检索增强生成)框架,优化条款推荐与合同生成效果。
维护数据管道与向量数据库,保证处理高效、稳定、可扩展。
基于open contract改造。
要求:
有数据工程经验和思维,能独立设计自动化流程。
熟练掌握 Python(pandas、regex、FastAPI、LangChain等)。
熟悉文档解析(Word、PDF)、NLP 或文本处理经验。
理解 RAG 流程:embedding、索引、召回、生成。
加分项:了解合同文本或法律行业场景。
合作方式:
先从项目走起,双方认可的话就长期合作
结算方式和价格你报
5年AI Python后端开发,大厂经历,985软件硕士,擅长langchain,langraph,rag ,vector db等技术栈,对结构化文档数据处理比较熟悉