语音到文本再到翻译是一个不可能实现的梦想吗?

Is Speech-to-Text-to-Translation an Impossible Dream?

理论上,人们可以使用笔记本电脑或平板电脑或 phone 的微型 phone 来捕捉口语,将其转换为屏幕上的文字,然后通过访问 API 例如 google 翻译,请参阅 "a"(不是 "the" - 几乎没有)粗略 "draft" 翻译 thos 个单词(例如,从英语到西班牙语或从西班牙语到英语)。

我认为这在法庭上会有用 - 作为法庭口译员的一种 "hands-free memo pad"。

理论上简单,但是可行吗?我看到几个潜在的问题:

必须告诉软件哪个是目标语言,哪个是源语言。否则,如果设备留给它自己的设备(自动检测),可能会有延迟,有时甚至会得出错误的结论。

必须过滤掉背景噪音和语音。

翻译(尝试)只有在说话者说完句子后才有效——软件怎么知道这一点?通过暂停的长度?有些人在一个句子中停顿了很长时间;有些人几乎不会在句子之间停顿,所以...那将如何工作?

人们说话不清晰,或口音难以理解。

这甚至没有提到(除了这里,间接地)上下文经常被 robot underlord 翻译者误解。

我的直觉是,如果亚伯拉罕林肯和马丁路德金同时发言(即使在法庭上,有时也会发生),软件会得出这样的结果:

为了分数和七年前的今天,我很高兴能与大家相聚。我们的父辈在这片大陆上带来了第四个国家,一个新国家,这个国家将作为自由孕育的最伟大国家而载入史册。致力于为所有人的自由而生而平等的示威游行。我们民族的历史。

...然后翻译成这样:

Por puntuación y hace siete años que estoy encantado de unirme a ustedes hoy。 Nuestros padres trajeron cuarto en este continte, una nueva nación, en lo que va a pasar a la historia como el mayor concebida en la libertad, y. Dedicada a la transpiración que la demostración por la libertad en todos los hombres son creados iguales。 La historia de nuestra nación.

我想我想说的是,人类 "rock" 在处理这类事情时 - 至少与机器(软件)目前的复杂程度相比,但是我们,还是我们 "rock" 足以克服这个问题?有没有办法克服这些障碍,至少在某种程度上足以让这样的程序值得麻烦使用?完美是无法实现的;我认为,匹配人类技能也是一个无法实现的目标,尤其是考虑到环境因素。然而:可以 Speech-to-Text-to-Context-to-Translation 做得更好,如果可以,怎么做?

我觉得可以,而且可以做得比较好:

  • 设备应该能够部分地根据各种传感器和内存提供的数据来理解上下文, 这些需要进行微调才能获得良好的结果,但这不是人们实际上一直在做的事情吗?我们根据所见、所感、所处位置来评估环境;我们所见所闻,所感所感,所到之处 - 智能设备应该能够重现这些

  • 设备应该能够根据它对给定语言的了解来猜测句子 ends/starts 的位置——人们也这样做,

如果该设备具有与人类相同的传感器、知识和记忆力,那么理论上它也可以做到这一点。

即使眨眼也能提供很多上下文,我认为这一切都归结为设备接受并用于正确翻译文本的数据的复杂性和范围。知道的越多越好