任务详情
关于Digitaste
Digitaste 是一家致力于数字化味觉分析的创新型公司,我们通过数字化手段采集/建模人类的味觉、嗅觉等一手感官数据,建立“感官数据库‘,弥补现有只能处理文字、图像、音频的数据库和智能体空白。我们将传统难以量化的香气、味觉、口感体验,转化成了可计算、可推荐、可共享的数字信息,帮助食品研发、健康营养等行业更精准地理解用户感官偏好,也让每个人更好地认识自己独特的“感官身份”。
网站:https://www.digitaste.ai
小红书/公众号:爱味觉 Digitaste
岗位职责
数据资产建设:统筹一手感官数据与第三方数据集(菜单/电商评论/社媒文本、地理与气象、图像、实验测量等)的规格对齐;沉淀数据字典与质量评估体系,产出可复用 TFRecord/Parquet 语料
自监督/多任务预训练:在 TensorFlow/Keras 上设计并实现掩码建模、对比学习、跨模态对齐(text–image–graph–geo)等目标;构建可复现训练框架与检查点管理,完成大规模分布式(GPU/TPU)训练与调参。
高吞吐训练与MLOps:基于 tf.data/tf.distribute/XLA 优化数据流水线与训练吞吐;对接 W&B/MLflow、DVC、CI/CD、容器化与作业编排(Docker/K8s/Airflow/Ray)。
评测与落地:建立离线/在线指标(如 Recall@K、NDCG、聚类纯度、距离度量等),将预训练表征应用到检索与推荐、口味指纹聚类、图谱推理与地理可视化。
协作与合规:与产品/后端/可视化/数据治理紧密合作,保障隐私合规(GDPR/PDPA)与可解释性;形成技术文档、数据规范与模型卡。
岗位要求
经验:3 年及以上机器学习/数据科学经验,≥1 年大规模预训练或表征学习实践;能独立端到端推进从数据到模型上线的闭环。
TensorFlow 能力:精通 TensorFlow 2.x/Keras(tf.data、TFRecords、tf.distribute、XLA/TPU),熟悉性能分析与故障定位;具备稳健的 Python 工程能力与单元/集成测试习惯。
多模态与图数据:有文本/图像/结构化/图谱其一到多项的建模经验;理解自监督学习(InfoNCE/SimCLR/CLIP-style 等)与度量学习。
数据工程:熟练使用 SQL/数据仓库(BigQuery/Postgres 等)与分布式计算(Spark/Ray/Beam 其一);能把混杂来源的数据打造成可训练、可回溯、可版本化的资产。
合规与沟通:具备数据伦理与隐私意识,中英沟通顺畅,能输出高质量技术文档与复现实验脚本。