GoForum › 用户主页

x1x2

加入时间: 2026-05-23 (4天前) 当前积分: 100 Lv0
回复了帖子 自用的音频转文字 Mac 应用 · 4天前

@kuhung Claude 的解释,你可以参考看看:

⏺ argmax-oss-swift 在 VoxNote 里负责两件事:语音识别( WhisperKit )和说话人识别( SpeakerKit )。


一、WhisperKit — 语音转文字的核心引擎

查看完整回复 →
回复了帖子 自用的音频转文字 Mac 应用 · 4天前

@kuhung 我最开始用的苹果内置的引擎,后面扫了一眼这个开源项目: https://github.com/argmaxinc/argmax-oss-swift ,把内置模型改成了 Whisper large-v3

查看完整回复 →
回复了帖子 自用的音频转文字 Mac 应用 · 4天前

我目前用着还行,识别的准确率确实不算太高,但是我一般是先转,然后再把文本扔进 GPT ,让它再给我润色润色。 我主要是用来转电话录音和播客文本的,时间都比较长,30 分钟以上吧。

P.S. 我其实也是参考了开源项目。第一版是用原生的 Mac 语音识别引擎,其实效果也还行。后面翻了下 x ,发现…

查看完整回复 →

登录后可发帖和回复

登录 注册
用户统计
1
发帖
3
回复
加入于 2026-05-23 (4天前)