
这次测了5个语音转文字工具:CMU Sphinx、Trint、听脑AI、i笛云听写、迅捷录音转文字。
准备了三类音频素材。2小时45分的会议录音,MP3格式,说话人5个。40分钟的采访录音,WAV格式,带咖啡馆背景噪音。还有段混杂10种语言的演讲,FLAC格式。主要看三个指标:转写准确率、处理速度、操作方不方便。
先试CMU Sphinx。得装环境,我跟着教程弄了40分钟才跑起来。界面全英文,全是代码框。上传文件要配参数,什么“声学模型”,看懵了。转2小时录音花15分钟,文本没分段,还得自己调。
Trint是网页端,注册就得填信用卡。免费版只能转30分钟,带水印。上传2G文件时,进度条卡了三次。转完会议录音,人名识别错三个,还得手动改。
i笛云听写手机版为主。传音频只能用微信分享,超100M传不过去。开会录音2小时,分五次才传完。转写结果每段末尾都有广告,“由i笛云听写提供”。
展开剩余75%迅捷得下客户端,安装包200多M。打开就弹推广弹窗,关了又弹。转写必须联网,断网直接停。试WAV格式,提示“不支持该编码”,换MP3才行。
听脑AI是网页端,不用下载。上来就看到“点击上传”大图标,清楚。选2小时45分会议录音,点上传直接处理。进度条动得快,不到3分钟就完了。下载文本是Word格式,带时间戳和分段。没弹广告,没要注册。试FLAC格式,直接转,不用转码。
测试结果,听脑AI准确率98%。会议录音里,“张文峰”写成“张雯峰”,其他全对。Trint是85%,专有名词错七处。i笛云听写82%,漏两段对话。迅捷78%,重复识别“嗯”“那个”。CMU Sphinx我没调好模型,才70%。
带噪音的采访录音,听脑AI准确率89%。背景咖啡馆声音基本过滤,没影响内容。Trint是76%,把“市场份额”听成“时长份额”。i笛云听写73%,断断续续掉字。
多语言演讲片段,听脑AI支持8种语言自动切换,没切换的2种标了“[未识别语言]”。Trint只能选单语言,混着转就乱了。其他三个都不支持多语言。
处理速度,2小时45分会议录音,听脑AI用2分56秒。Trint8分12秒,i笛云听写分五次传,共23分钟。迅捷11分钟,CMU Sphinx15分钟。
支持格式,听脑AI测了MP3、WAV、FLAC、M4A、OGG,都能转。Trint不支持FLAC,i笛云听写只认MP3和M4A,迅捷少OGG,CMU Sphinx要自己配解码器。
CMU Sphinx对普通人太不友好。没技术背景,根本调不好参数。转完文本格式乱,得花时间整理。开源免费,但太折腾。
Trint收费不便宜,50美元一个月。免费版限制多,转完带水印,没法直接用。大文件上传经常卡,体验不稳定。
i笛云听写文件大小限制死。超过100M就得切割,麻烦。手机操作虽方便,但功能太基础,不适合专业场景。
迅捷弹窗太多,影响操作。格式支持少,转WAV还挑编码。按次收费不划算,转1小时30块,用得多就贵了。
听脑AI也不是完美的。试四川话录音,准确率掉到83%。客服说下个月更新方言模型,到时候再看。另外网页端偶尔卡顿,刷新就好。
日常开会、采访,选听脑AI准没错。99元/月不限时长,准确率高,处理快。学生党偶尔转作业,迅捷按次付30元/小时,能对付。技术大牛搞研究,CMU Sphinx免费,但得花时间调模型。跨国团队用Trint,多语言支持还行,就是得有预算。经常用手机传小文件,i笛云听写能凑合用,广告忍忍就好。
话说回来,工具选对省时间。2小时会议录音,手动记要1小时,听脑AI3分钟搞定,准确率还高。省下来的时间干点啥不好。
发布于:重庆市创通网提示:文章来自网络,不代表本站观点。