GoForum🌐 V2EX

ai 变声-思考

ffw5b7 · 2026-01-14 17:23 · 0 次点赞 · 2 条回复

最近看了这个帖子 https://www.v2ex.com/t/1182067#reply243 链接,让我对 AI 变声有一些思考。

其实,变声的核心在于音色的数据集。换句话说,如果想“模拟”一个人的声音,需要收集到特定条件的数据: 同一个人的语音 说话清晰,口齿分明 时长充足,通常 20–60 分钟以上

可能的采集场景: 视频博主:上传的视频或直播语音被用于训练 AI 模型 恶意行为者:多次语音沟通,甚至利用通讯录信息,模拟你的声音向家人进行诈骗

2 条回复
cmos · 2026-01-14 17:43
#2
  1. 思而不学则殆,Voice Conversion 已经是个很成熟的技术了
  2. 核心是声学特征,不是数据集,比如梅尔频谱、F0 、频谱包络等。
  3. 不用那么长时间,Zero-shot 可以做到 10 秒了。就算是追求高真实度,也是更加注重精细声学、声码器,以及解耦和扩散模型上。
  4. 你说的采集场景和应用场景已经被玩烂了,so-vits-svc 就是因为涉及到法律问题才主动 archived 的。
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: ffw5b7
发布: 2026-01-14
点赞: 0
回复: 0