任务详情
对word、pdf、excel文件内容进行提取和分类(文件内容中如果包含图片和表格,也要一并识别提取)。实现功能点:1、对word、pdf、excel文件内容进行提取切分。切分片段要有连贯,具备上下文语义,而非简单粗暴的\n\n或分割。2、切分片段做文本分类任务。分类标签可扩展。文本分类任务的准确率80%以上。常见分类标签如下:企业基本信息/企业简介:(企业名称、成立时间、注册资本、地址、法人、经营范围、发展历程...)企业知识产权/企业核心技术:(商标、专利、版权、主要核心技术...)企业产品/企业主营产品:(主导产品、主营产品...)企业成员/企业核心团队:(职工人数、核心团队情况、组织架构...)企业荣誉资质:(品牌荣誉、荣誉资质、品牌培育...)企业财务及经营数据情况:(主营业务收入、资产总额、利润总额、资产负债率、经营数据、经济指标...)