音频索引:从音频文件生成时间对齐的文本标签

Audio Indexing: Generating time-aligned text tags from audio file

我需要从大量长音频文件中挑选单词和短语,最终目标是为每个短语的起点和终点生成一个时间戳。单词和短语是对需要时间标记的事件的描述和简单评论。我看到了对 Google 的 GAudI 的引用,但它已经消失了 (link). I've seen another solution (Simple Audio Indexer) 但它需要 IBM Watson。也许可以使用 Android 语音到文本处理器?谁能推荐一些其他的解决方案?我更喜欢具有 Python 接口的解决方案,但 Java 也是可能的。谢谢

我花了很多时间试图让 Android in-phone 语音识别在自由模式下工作,但它还没有准备好迎接黄金时段。我和其他人还没有找到每隔几秒关闭一次蜂鸣声的方法。

因此,我正在录制完整的音频文件并 运行通过索引器对它们进行处理。我找到了一个名为 Aeneas 的有趣解决方案,但它依赖于一个名为 eSpeak 的旧软件包,我无法将其安装在 OSX 上(eSpeak 需要对 OSX 现已锁定的目录的安装权限下)。

接下来我继续尝试 Simple Audio Indexer (SAI)。在 IBM Watson BlueMix 上设置帐户非常轻松,它们会为您提供 1000 分钟的免费 STT (Speech-to-text) 时间。 SAI 易于安装、使用简单且运行良好。我使用 pydub 将我的 M4A/AAC 文件转换为 WAV。我 运行 解决了一个需要 IBM 支持的问题,他们在两小时内回复了一个 运行 参数,解决了我的问题(需要将 inactivity_timeout 延长到超过默认的 30 秒)。现在运行良好。