最近在做面试复盘,但录音的内容太长,听音频的方式又太低效
需要把录音转成文字,阅读的方式会快很多
尝试了几种白嫖的方案后,效果转换都不理想,并且限制录音时长,撑死就是几分钟,完全不够用
于是,不得不斥巨资19.8元,在传说国内语音最强的某飞官方购买录音转文字服务
录音内容主要是介绍我做过有代表性的项目,左边是OpenAI开源Whisper,右边是某飞付费
截图中,红色圈表示错误的,绿色表示正确的 最终结果是whisper 4 vs 1 完胜某飞
词语 | whisper | 某飞 |
---|---|---|
致景 | 错误(自己) | 错误(自己) |
Jenkins | 正确 | 错误(说点kiss) |
GitlabCI | 正确 | 错误(GPS) |
yapi | 正确 | 错误(VIP) |
入参 | 正确 | 错误(入仓) |
python | 错误(派生) | 正确 |
colab这是我唯一找到支持安装whisper环境,并且免费提供GPU的AI平台!
Kaggle似乎也行,但用起来很不稳定。
如果你有更多的免费GPU平台,非常欢迎你留言交流
在colab上使用whisper超级简单
在https://colab.research.google.com/
这里注册即可
新建笔记本
安装whisper依赖
!pip install -U openai-whisper
上传你的录音
复制文件路径并执行命令
!whisper --model large --language Chinese --initial_prompt "以下是普通话的句子 。" 你的文件路径
模型很大,你需要等(忍)一下
默认会使用CPU运行时,效率比较低
切换GPU运行时,GPU会比CPU快很多
但都是免费资源,无法保证全力输出
GPU免费只有12小时,省着点用
用完后,记得点击右上角连接断开
最后看看一小段跟od hr对话的效果
如果需要在本地运行的话,需要安装ffmpeg
命令行
python版本最好是3.9
其他的跟上面没区别
友情提示,如果你没有GPU,最好不要在本地运行;CPU即使拉满,输出的速度也是远不及GPU
因为我本地没有GPU,所以不了解本地应该怎么配置GPU
本文作者:花菜
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!