GoForum › 🌐 V2EX

VoxSight - 用语音操控网页的 Chrome 扩展，基于 Gemini 多模态视觉

JasonRobert · 2026-03-25 13:39 · 0 次点赞 · 0 条回复

各位 V 友好，分享一个最近做的 Chrome 扩展。

VoxSight – 用语音操控网页的 Chrome 扩展

说话就能操作网页。比如”点击搜索按钮”“描述这个页面”“向下滚动”，VoxSight 截屏后交给 Gemini 的多模态视觉模型分析，然后在页面上精确执行操作。

工作流程：

特点：

技术栈： Chrome MV3 + Gemini Live API (bidirectional streaming) + Cloud Run WebSocket

欢迎试用和反馈！

VoxSight 使用截图

0 条回复

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: JasonRobert

发布: 2026-03-25

点赞: 0

回复: 0