音频索引：从音频文件生成时间对齐的文本标签

Audio Indexing: Generating time-aligned text tags from audio file

我需要从大量长音频文件中挑选单词和短语，最终目标是为每个短语的起点和终点生成一个时间戳。单词和短语是对需要时间标记的事件的描述和简单评论。我看到了对 Google 的 GAudI 的引用，但它已经消失了 (link). I've seen another solution (Simple Audio Indexer) 但它需要 IBM Watson。也许可以使用 Android 语音到文本处理器？谁能推荐一些其他的解决方案？我更喜欢具有 Python 接口的解决方案，但 Java 也是可能的。谢谢

我花了很多时间试图让 Android in-phone 语音识别在自由模式下工作，但它还没有准备好迎接黄金时段。我和其他人还没有找到每隔几秒关闭一次蜂鸣声的方法。

因此，我正在录制完整的音频文件并运行通过索引器对它们进行处理。我找到了一个名为 Aeneas 的有趣解决方案，但它依赖于一个名为 eSpeak 的旧软件包，我无法将其安装在 OSX 上（eSpeak 需要对 OSX 现已锁定的目录的安装权限下）。

接下来我继续尝试 Simple Audio Indexer (SAI)。在 IBM Watson BlueMix 上设置帐户非常轻松，它们会为您提供 1000 分钟的免费 STT (Speech-to-text) 时间。 SAI 易于安装、使用简单且运行良好。我使用 pydub 将我的 M4A/AAC 文件转换为 WAV。我运行解决了一个需要 IBM 支持的问题，他们在两小时内回复了一个运行参数，解决了我的问题（需要将 inactivity_timeout 延长到超过默认的 30 秒）。现在运行良好。

音频索引：从音频文件生成时间对齐的文本标签

Audio Indexing: Generating time-aligned text tags from audio file

python

audio

android

speech-recognition