您的位置:首页 > 任务详情
【硬核兼】全栈能力,嵌入工程师,音视频底层 + Gemini Live API 多模态打样 (POV 视觉方向)
  • 雇主:mike
  • 发布时间:2025-12-31
  • 分类:灵活用工
免责声明 该外包需求信息来源于站外平台,本站仅提供公开信息部分字段展示与订阅服务,更多请查看免责声明。

任务详情

【核心任务】 硬件调通:实现 App 稳定调取外置 UVC 摄像头流。 AI 集成:对接 Google Gemini Multimodal Live API (WebSocket),实现实时视频帧发送与语音回传。 屏幕联动:利用 MediaProjection 权限抓取手机屏幕(如导航/订单界面),实现“外部视角+手机内部屏幕”双流识别。 后台运行:确保在手机锁屏或切换到第三方 App 时,AI 语音交互不断线。 【对你的期待】 精通 Android ios原生开发,有处理 UVC 驱动或 Camera2 接口的实战经验。 熟悉音视频推流(WebRTC/WebSocket)及图像压缩处理。 对大模型 API 接入有经验者优先。 能够接受“快速迭代、小步快跑”的打样逻辑,UI 只要能用就行,重点在底层逻辑稳定性。 【合作方式】 性质:远程兼职,项目制交付。 周期:预计 1-2 周内跑通 MVP 流程。 预算:专项协调,如全栈¥8000 - ¥12000(根据实现质量和进度可谈,支持阶段性分批支付)。 有兴趣直接邮箱发电话

任务附件 (0)

暂无稿件哦!

预期中标

已中标

0

快去分享,提高任务的曝光率吧