1、背景

最近在做面试复盘，但录音的内容太长，听音频的方式又太低效
需要把录音转成文字，阅读的方式会快很多
尝试了几种白嫖的方案后，效果转换都不理想，并且限制录音时长，撑死就是几分钟，完全不够用
于是，不得不斥巨资19.8元，在传说国内语音最强的某飞官方购买录音转文字服务

2、效果对比

录音内容主要是介绍我做过有代表性的项目，左边是OpenAI开源Whisper，右边是某飞付费

截图中，红色圈表示错误的，绿色表示正确的最终结果是whisper 4 vs 1 完胜某飞

colab这是我唯一找到支持安装whisper环境，并且免费提供GPU的AI平台！
Kaggle似乎也行，但用起来很不稳定。
如果你有更多的免费GPU平台，非常欢迎你留言交流

在colab上使用whisper超级简单

在https://colab.research.google.com/这里注册即可

新建笔记本

安装whisper依赖 !pip install -U openai-whisper

上传你的录音

复制文件路径并执行命令 !whisper --model large --language Chinese --initial_prompt "以下是普通话的句子。" 你的文件路径

模型很大，你需要等（忍）一下

默认会使用CPU运行时，效率比较低

切换GPU运行时，GPU会比CPU快很多
但都是免费资源，无法保证全力输出 GPU免费只有12小时，省着点用用完后，记得点击右上角连接断开

最后看看一小段跟od hr对话的效果

如果需要在本地运行的话，需要安装ffmpeg命令行
python版本最好是3.9 其他的跟上面没区别

友情提示，如果你没有GPU，最好不要在本地运行；CPU即使拉满，输出的速度也是远不及GPU
因为我本地没有GPU，所以不了解本地应该怎么配置GPU