音频索引：从音频文件生成时间对齐的文本标签

debugcn 发表于 Dev

赫菲斯托斯

我需要从大量的长音频文件中挑选单词和短语，最终目标是为每个短语的起点和终点生成时间戳。单词和短语是对事件的描述和简短注释，这些事件需要加上时间标记。我已经看到了对Google GAudI的引用，但是它已经消失了（link）。我已经看到了另一个解决方案（Simple Audio Indexer），但是它需要IBM Watson。也许可以使用Android语音到文本处理器？谁能推荐其他解决方案？我更喜欢使用Python接口的解决方案，但是Java也可以。谢谢。

赫菲斯托斯

我花了很多时间试图让Android手机语音识别以自由格式模式工作，但还没有准备好迎接黄金时段。我和其他人还没有找到一种方法可以每隔几秒钟关闭一次蜂鸣声。

因此，我录制了完整的音频文件，并通过索引器运行它们。我找到了一个有趣的解决方案，称为Aeneas，但它依赖于名为eSpeak的旧软件包，因此无法将其安装在OSX上（eSpeak需要对OSX现在已锁定的目录具有安装特权）。

接下来，我尝试了简单音频索引器（SAI）。在IBM Watson BlueMix上设置帐户很容易，并且可以为您提供1000分钟的免费STT（语音到文本）时间。SAI易于安装，易于使用且运行良好。我曾经pydub将M4A / AAC文件转换为WAV。我确实遇到了需要IBM支持的问题，他们在两个小时内给出了一个运行参数以解决我的问题（需要将inactivity_timeout扩展到默认的30秒以外）以响应。现在运行良好。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-7

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

音频索引：从音频文件生成时间对齐的文本标签

音频索引：从音频文件生成时间对齐的文本标签

如何获得音频文件的总时间？

Perl音频文件持续时间

如何获得音频文件的总时间？

验证音频文件

提供音频文件

连接音频文件

识别音频文件

在很短的时间后多次播放音频文件？

计算播放音频文件时剩下的时间

使用开始和停止时间修剪音频文件

FFmpeg忽略了修剪音频文件android的开始时间

使用开始和停止时间修剪音频文件

从终端中的特定时间播放音频文件？

在Django项目模板中生成音频文件

以编程方式将文本保存到音频文件

如何将音频文件上传到文本通道

将音频文件拆分

从PHP读取音频文件

ReCaptcha下载音频文件？

拿起Android音频文件

回形针音频文件上传

从Powerpoint提取音频文件

不含标题的音频文件

SpriteKit覆盖音频文件

FFmpeg跳过音频文件

如何使用javascript随机播放音频标签中的多个音频文件？

从PHP脚本获取音频文件时，更改JavaScript音频对象的当前时间

python从音频文件中提取音频频谱

Android：如何从音频文件获取音频细节