您的位置:首页 > 任务详情
爬虫/数据采集工程师
  • 雇主:mike
  • 发布时间:2025-11-06
  • 分类:灵活用工
免责声明 该外包需求信息来源于站外平台,本站仅提供公开信息部分字段展示与订阅服务,更多请查看免责声明。

任务详情

工作方式:全职|远程 地点:【远程】|薪资:【10000-15000】|招聘人数:【2】 面向公开可访问的流量来源,打造一套“Spy”类数据采集与变更监控能力:稳定抓取 → 结构化 → 差异比对 → 告警与回放;沉淀可复用的采集接口/SDK,与内部系统打通形成可观测、可回滚、可审计的数据中间层。 说明(合规与边界) 仅采集公开可访问的信息,尊重 robots.txt 与站点条款;不绕过登录/付费墙/访问控制;不采集个人敏感信息;使用合规代理与存储;对网站友好地控制频率与缓存;所有抓取在获得授权的环境与合法范围内进行。 你将负责 Playwright 采集引擎:基于 Chromium/WebKit/Firefox 通道,设计可插拔采集任务(并发/队列/重试/退避/节流),在无头/有头模式下都稳定运行。 Spy 接口研究:用 DevTools/Tracing/HAR 复盘页面行为,梳理公开接口(URL/参数/时间戳/签名字段等),沉淀为 Postman/OpenAPI/SDK。 结构化与去重:DOM/JSON 抽取、指纹与去重、版本化快照与变更日志,支持字段级 diff 与回放。 变更检测与告警:对核心字段(如标题、素材、价格、投放参数等)进行规则/阈值触发,推送告警、支持回滚。 任务编排与健康检查:调度(Cron/消息队列)、分布式执行、健康探针与自动恢复(异常隔离、断路器/熔断)。 数据出入口:提供对内检索/分析的 API/消息流;保证可查询、可追溯。 工程化:容器化(Docker)、CI/CD、日志/指标/追踪(Observability),以及权限与数据脱敏。 我们希望你具备 主力技术栈(二选一) Node.js 方向:Node.js(18+),Playwright(@playwright/test、Trace Viewer、route()/请求拦截、持久化上下文)、TypeScript 更佳。 Python 方向:Python(3.10+),Playwright for Python(同步/异步 API 熟悉)、pytest 更佳。 HTTP/浏览器基础:HTTP/1.1/2、缓存/压缩、Cookie/SameSite、CORS、TLS;熟练使用 DevTools(Network/Elements/Recorder)、能导入导出 HAR 并复现请求。 并发与稳态:任务队列与并发模型、限流/重试/指数退避/熔断;超时与幂等;异常归因与失败自动恢复。 解析与抽取:Playwright Selectors、Locator、评估脚本;CSS Selector/XPath、正则与文本清洗;了解 GraphQL/SSE/WebSocket 其一更佳。 数据与存储:PostgreSQL/MySQL 其一;Redis/消息队列(RabbitMQ/Kafka 任一)用于排队与去抖;基本的数据建模与索引优化。 可观测性:结构化日志、指标(Prometheus/Grafana 或 ELK 任一),能快速定位失败样本、支持数据回放。 文档与沉淀:把“网页操作 → 接口调用”反推成可复用文档/SDK,字段、限流与异常说明清晰完整。 AI 编程工具:会用 Copilot/Cursor/LLM 助手做样板生成/单测补全/重构建议,并对 AI 产出做人工审查与许可证合规校验。 与“Playwright + HTML/HTTP 提取 API”相关的必备点 熟悉 浏览器上下文隔离、持久化登录(storageState)、设备/区域/语言/时区模拟(用于合法实验与对照)。 会用 network interception(page.route)与 request/response 钩子做请求观测与最小可行复现。 能从前端脚本定位关键参数(token/nonce/timestamp/签名字段等),写出最小可行调用示例(仅限公开或授权接口)。 能将流程沉淀为 OpenAPI/TypeScript/Python SDK 的封装与示例。 熟悉缓存控制、友好处理 429/403 等站点保护信号(退避、降频、缓存命中提升),避免对目标站点造成压力。 加分项(写能力,不写具体业务名) 做过DOM/字段级 diff、快照与回放;有“变更 → 告警 → 回滚”的闭环实践。 任务编排与容灾:蓝绿/灰度、健康检查、自动回滚;分布式执行与节点健康度治理。 代理与出口治理(合规供应商):可用性与成本平衡、IP 健康度度量。 数据合规:PDPA/GDPR 与数据最小化;写过数据字典/数据血缘。 将 AI 引入工程流程:失败样本自动归因/聚类、生成埋点/单测、PR 评审建议等。 投递材料(帮助我们快速判断) 1–2 个相关项目(Playwright 采集/接口还原/变更监控/可观测),写清你的角色与指标变化(如“成功率 92%→99%”)。 任意代码片段或仓库(可去敏),展示并发抓取、限流/退避、变更 diff 或“从 HAR/cURL 复现接口调用”。 (如有)你整理过的 OpenAPI/Postman 示例与字段字典(可去敏)。 到岗时间与合作形式(全职/外包/驻场)。

任务附件 (0)

暂无稿件哦!

预期中标

已中标

0

快去分享,提高任务的曝光率吧