任务详情
需求描述: 爬虫动态页面网站文章,需要在现有框架内完成,提供一个样例包,要用到bs4、selenium,要求将爬取内容转换成html和pdf格式,整体代码较为完善,需要将一个半成品的项目包完善关键代码即可,属于一个项目 1)会提供一个含有大量关键代码的半成品包,需完成代码后正常运行,并实现以下需求 2)可爬取内容,保留源文件,转换格式为pdf和html文件 3)实现对文章的全量采集,如果实现不了,仅完成第一页的增量采集也可 技术:Python开发、beautifulsoup、seletnuim等 开发方式:远程开发 开发周期:1-3天