我需要从大量的长音频文件中挑选单词和短语,最终目标是为每个短语的起点和终点生成时间戳。单词和短语是对事件的描述和简短注释,这些事件需要加上时间标记。我已经看到了对Google GAudI的引用,但是它已经消失了(link)。我已经看到了另一个解决方案(Simple Audio Indexer),但是它需要IBM Watson。也许可以使用Android语音到文本处理器?谁能推荐其他解决方案?我更喜欢使用Python接口的解决方案,但是Java也可以。谢谢。
我花了很多时间试图让Android手机语音识别以自由格式模式工作,但还没有准备好迎接黄金时段。我和其他人还没有找到一种方法可以每隔几秒钟关闭一次蜂鸣声。
因此,我录制了完整的音频文件,并通过索引器运行它们。我找到了一个有趣的解决方案,称为Aeneas,但它依赖于名为eSpeak的旧软件包,因此无法将其安装在OSX上(eSpeak需要对OSX现在已锁定的目录具有安装特权)。
接下来,我尝试了简单音频索引器(SAI)。在IBM Watson BlueMix上设置帐户很容易,并且可以为您提供1000分钟的免费STT(语音到文本)时间。SAI易于安装,易于使用且运行良好。我曾经pydub
将M4A / AAC文件转换为WAV。我确实遇到了需要IBM支持的问题,他们在两个小时内给出了一个运行参数以解决我的问题(需要将inactivity_timeout扩展到默认的30秒以外)以响应。现在运行良好。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句