ClawHub Skills 本地语音转文字(OpenAI Whisper)技能使用参考手册
2026-03-04 16:24 更新
一、工具介绍
OpenAI Whisper 是一款由 OpenAI 研发的本地语音转文字工具,无需调用 API 密钥,通过 CLI(命令行界面)即可完成音频转录、翻译等操作。该工具支持多种音频格式,可灵活选择不同大小的模型以平衡速度与准确率。
👤 作者:Peter Steinberger
👉 Skills 下载地址:openai-whisper-1.0.0.zip
二、安装步骤
Whisper 支持通过 Homebrew 快速安装(适用于 macOS 系统),执行以下命令即可完成安装:
## 安装 OpenAI Whisper(brew 方式),安装后会自动生成 whisper 可执行文件
brew install openai-whisper
三、快速上手(带中文注释)
示例1:基础音频转录(输出TXT文件)
## 转录指定MP3音频文件,使用medium模型,输出格式为TXT,输出目录为当前目录
whisper /path/audio.mp3 --model medium --output_format txt --output_dir .
示例2:音频翻译+输出SRT字幕文件
## 对指定M4A音频文件执行翻译任务(默认将其他语言转为英文),输出格式为SRT字幕文件
whisper /path/audio.m4a --task translate --output_format srt
四、详细使用教程
1. 核心参数说明
| 参数名 | 作用 | 常用值/说明 |
|---|---|---|
--model |
指定使用的模型 | turbo(默认,速度最快)、small、medium、large(准确率最高,速度最慢) |
--task |
任务类型 | transcribe(默认,转录,将音频转为对应文字)、translate(翻译,转为英文) |
--output_format |
输出文件格式 | txt(纯文本)、srt(字幕文件)、vtt、json等 |
--output_dir |
输出目录 | 绝对路径或相对路径(如 . 代表当前目录) |
--language |
指定音频语言 | zh(中文)、en(英文)、ja(日语)等,示例:--language zh |
2. 进阶使用示例
示例1:转录中文音频并输出SRT文件
## 明确指定音频为中文,使用large模型提升准确率,输出SRT字幕文件到指定目录
whisper /path/中文音频.mp3 --language zh --model large --output_format srt --output_dir ~/Desktop/字幕输出
示例2:批量转录同目录下所有音频文件
## 转录当前目录下所有MP3文件,使用small模型,输出TXT格式
whisper *.mp3 --model small --output_format txt
3. 模型相关注意事项
- 首次运行 Whisper 时,指定的模型会自动下载并缓存到
~/.cache/whisper目录,后续运行无需重复下载; - 模型越大,转录/翻译准确率越高,但对设备性能要求更高(如
large模型建议在性能较好的电脑上使用); turbo模型是默认选项,兼顾速度与基础准确率,适合日常轻量使用。
五、常见问题
- 模型下载慢:可手动下载模型文件并放到
~/.cache/whisper目录,模型文件可从 OpenAI 官方仓库获取; - 音频格式不支持:Whisper 原生支持 MP3、M4A、WAV 等主流格式,若格式不兼容,可先用 ffmpeg 转换(如
ffmpeg -i 不兼容音频.flac 兼容音频.mp3); - 中文转录准确率低:建议指定
--language zh并使用medium或large模型。
以上内容是否对您有帮助:

免费 AI IDE


更多建议: