GoForum › 🌐 V2EX

自用的音频转文字 Mac 应用

x1x2 · 2026-05-23 17:23 · 0 次点赞 · 8 条回复

完全自用的本地音频转文字应用，有需要的朋友可以自取，耗费了不少 token ，希望利用率能够高。

8 条回复

lambdaX999 · 2026-05-23 17:33

我自己之前也拿开源项目魔改了一个 https://i.imgur.com/5eSAwX7.png ，最终使用下来感觉体验还是不如豆包啥的，功耗还低，你这个用着咋样

AlangHa · 2026-05-23 17:33

真是优秀

kuhung · 2026-05-23 17:38

好奇佬用的什么语音转文字和说话人识别模型

x1x2 · 2026-05-23 17:58

我目前用着还行，识别的准确率确实不算太高，但是我一般是先转，然后再把文本扔进 GPT ，让它再给我润色润色。我主要是用来转电话录音和播客文本的，时间都比较长，30 分钟以上吧。

P.S. 我其实也是参考了开源项目。第一版是用原生的 Mac 语音识别引擎，其实效果也还行。后面翻了下 x ，发现有成熟开源，就拿来用了。

x1x2 · 2026-05-23 18:13

@kuhung 我最开始用的苹果内置的引擎，后面扫了一眼这个开源项目： https://github.com/argmaxinc/argmax-oss-swift ，把内置模型改成了 Whisper large-v3

x1x2 · 2026-05-23 18:18

@kuhung Claude 的解释，你可以参考看看：

⏺ argmax-oss-swift 在 VoxNote 里负责两件事：语音识别（ WhisperKit ）和说话人识别（ SpeakerKit ）。

一、WhisperKit — 语音转文字的核心引擎

VoxNote 自己只负责把音频文件读成 [Float] 浮点数组（ AudioProcessor.loadAudioAsFloatArray ），之后全部交给 WhisperKit：

[Float] 音频数据

↓

whisperKit.transcribe(audioArray:decodeOptions:callback:segmentCallback:)

↓

[TranscriptionResult] ← 含完整文本 + 每段时间戳

VoxNote 给 WhisperKit 的配置参数：

转录过程中 WhisperKit 会不断回调进度（ 0%→98%）和中间文本，VoxNote 把这些映射成 UI 上的 .transcribing(progress, partialText) 实时显示。

二、SpeakerKit — 说话人识别（可选功能）

用户开启说话人标注后，VoxNote 会同时跑两个任务：

同一份 [Float] 音频

  ├─ 并行 → speakerKit.diarize()  → DiarizationResult （谁在什么时间说话）
  └─ 顺序 → whisperKit.transcribe() → [TranscriptionResult]（说了什么）

合并 → diarization.addSpeakerInfo(to: results, strategy: .subsegment)

↓

” [Speaker 1] 你好，请问……

[Speaker 2] 好的，我来解释一下……"

SpeakerKit 底层用的是 Pyannote v4 的 CoreML 模型，在本机完成推理，不联网。

ern · 2026-05-23 18:23

whisper 的模型感觉不太行，据说小红书的那个好点，还没研究。反正实测一段录音，whisper 转出来很乱，gemini 在线和飞书在线都能转个 95%左右。

kuhung · 2026-05-23 19:03

@x1x2 whisper 系列我自己测下来确实性能一般，中文的误识别率挺高。另外 large 的开销比 medium 高吧，好奇是这里是有做过取舍吗

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: x1x2

发布: 2026-05-23

点赞: 0

回复: 0