ClawHub Skills 本地语音转文字(OpenAI Whisper)技能使用参考手册

2026-03-04 16:24 更新

一、工具介绍

OpenAI Whisper 是一款由 OpenAI 研发的本地语音转文字工具,无需调用 API 密钥,通过 CLI(命令行界面)即可完成音频转录、翻译等操作。该工具支持多种音频格式,可灵活选择不同大小的模型以平衡速度与准确率。

👤 作者:Peter Steinberger
👉 Skills 下载地址:openai-whisper-1.0.0.zip

二、安装步骤

Whisper 支持通过 Homebrew 快速安装(适用于 macOS 系统),执行以下命令即可完成安装:

## 安装 OpenAI Whisper(brew 方式),安装后会自动生成 whisper 可执行文件
brew install openai-whisper

三、快速上手(带中文注释)

示例1:基础音频转录(输出TXT文件)

## 转录指定MP3音频文件,使用medium模型,输出格式为TXT,输出目录为当前目录
whisper /path/audio.mp3 --model medium --output_format txt --output_dir .

示例2:音频翻译+输出SRT字幕文件

## 对指定M4A音频文件执行翻译任务(默认将其他语言转为英文),输出格式为SRT字幕文件
whisper /path/audio.m4a --task translate --output_format srt

四、详细使用教程

1. 核心参数说明

参数名 作用 常用值/说明
--model 指定使用的模型 turbo(默认,速度最快)、smallmediumlarge(准确率最高,速度最慢)
--task 任务类型 transcribe(默认,转录,将音频转为对应文字)、translate(翻译,转为英文)
--output_format 输出文件格式 txt(纯文本)、srt(字幕文件)、vttjson
--output_dir 输出目录 绝对路径或相对路径(如 . 代表当前目录)
--language 指定音频语言 zh(中文)、en(英文)、ja(日语)等,示例:--language zh

2. 进阶使用示例

示例1:转录中文音频并输出SRT文件

## 明确指定音频为中文,使用large模型提升准确率,输出SRT字幕文件到指定目录
whisper /path/中文音频.mp3 --language zh --model large --output_format srt --output_dir ~/Desktop/字幕输出

示例2:批量转录同目录下所有音频文件

## 转录当前目录下所有MP3文件,使用small模型,输出TXT格式
whisper *.mp3 --model small --output_format txt

3. 模型相关注意事项

  • 首次运行 Whisper 时,指定的模型会自动下载并缓存到 ~/.cache/whisper 目录,后续运行无需重复下载;
  • 模型越大,转录/翻译准确率越高,但对设备性能要求更高(如 large 模型建议在性能较好的电脑上使用);
  • turbo 模型是默认选项,兼顾速度与基础准确率,适合日常轻量使用。

五、常见问题

  1. 模型下载慢:可手动下载模型文件并放到 ~/.cache/whisper 目录,模型文件可从 OpenAI 官方仓库获取;
  2. 音频格式不支持:Whisper 原生支持 MP3、M4A、WAV 等主流格式,若格式不兼容,可先用 ffmpeg 转换(如 ffmpeg -i 不兼容音频.flac 兼容音频.mp3);
  3. 中文转录准确率低:建议指定 --language zh 并使用 mediumlarge 模型。
以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号