编辑
2023-05-30
白嫖
00
请注意,本文编写于 529 天前,最后修改于 529 天前,其中某些信息可能已经过时。

目录

1、背景
2、效果对比
3、如何使用whisper
3.1 colab
3.1.1 注册colab
3.1.2 安装whisper环境
3.1.3 使用whisper
3.2 本地运行

1、背景

最近在做面试复盘,但录音的内容太长,听音频的方式又太低效
需要把录音转成文字,阅读的方式会快很多
尝试了几种白嫖的方案后,效果转换都不理想,并且限制录音时长,撑死就是几分钟,完全不够用
于是,不得不斥巨资19.8元,在传说国内语音最强的某飞官方购买录音转文字服务

image.png

2、效果对比

录音内容主要是介绍我做过有代表性的项目,左边是OpenAI开源Whisper,右边是某飞付费

image.png

截图中,红色圈表示错误的,绿色表示正确的 最终结果是whisper 4 vs 1 完胜某飞

词语whisper某飞
致景错误(自己)错误(自己)
Jenkins正确错误(说点kiss)
GitlabCI正确错误(GPS)
yapi正确错误(VIP)
入参正确错误(入仓)
python错误(派生)正确

3、如何使用whisper

3.1 colab

colab这是我唯一找到支持安装whisper环境,并且免费提供GPU的AI平台!
Kaggle似乎也行,但用起来很不稳定。
如果你有更多的免费GPU平台,非常欢迎你留言交流

在colab上使用whisper超级简单

3.1.1 注册colab

https://colab.research.google.com/这里注册即可

3.1.2 安装whisper环境

新建笔记本 image.png

安装whisper依赖 !pip install -U openai-whisper image.png

3.1.3 使用whisper

上传你的录音

image.png

复制文件路径并执行命令 !whisper --model large --language Chinese --initial_prompt "以下是普通话的句子 。" 你的文件路径

image.png

模型很大,你需要等(忍)一下

image.png 默认会使用CPU运行时,效率比较低

切换GPU运行时,GPU会比CPU快很多
但都是免费资源,无法保证全力输出 GPU免费只有12小时,省着点用 用完后,记得点击右上角连接断开 image.png

最后看看一小段跟od hr对话的效果

image.png

3.2 本地运行

如果需要在本地运行的话,需要安装ffmpeg命令行
python版本最好是3.9 其他的跟上面没区别

友情提示,如果你没有GPU,最好不要在本地运行;CPU即使拉满,输出的速度也是远不及GPU
因为我本地没有GPU,所以不了解本地应该怎么配置GPU

本文作者:花菜

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!