文字转语音音节音频段连接规则

Question

我正在寻找一些关于在不使用任何现有 TTS 工具、库等的情况下从零开始创建文本到语音程序的研究。主要是关于创建和组合音频片段的规则。

我想将它用于少数罕见的古老语言，并且语言本身的情况非常简单。首先，它的词基范围不大，大约 1000 个单词，其次，它的发音和写的一样，所以单词中每个字母的发音是绝对相等的，例如单词：

parjashif

这意味着 "father of" 和 "son of father" 音节是：

par  
ja
shif

并且具有相同部分的其他单词的所有存在变体是：

par
ja

1.shif
2.kif
3.hof
4.hefi

仅此而已，如您所见，只有 4 个变体

所以，唯一要考虑的就是存在的音节之间的连接间隔，让发音听起来不离散。

Answer 1

这就是正确实施文本转语音软件的诀窍。发音要看语境，如果不注意语境，发音就会不自然。适当的系统会记录上下文中的所有音节，当 select 将它们连接起来时，它会非常注意元素之间的平滑过渡。

您的一个选择是在双音素上拆分原始数据库并尝试连接双音素而不是音节。会顺畅很多。

总的来说，就算是从零开始，还是先看理论比较好。至少像 Building Synthetic Voices 或 Paul Taylor 的 "Speech Synthesis" 教科书。

Text to speech syllables audio segments connection rules