Keras 分词器：将数字保留为 "words"

Question

我正在使用 keras 分词器来准备文本。现在我有像 26.07.2020 或 27.September 1993.

这样的 x 值

我想使用分词器将 September 作为单词添加到索引中，但也想使用 26 或 2020。

我以前用过char_level=True，但我认为模型应该用像September这样的词作为词标记来表现得更好。使用 keras 分词器是否可行？如果可行，如何实现？

非常感谢。

Answer 1

您可以用空格替换 .，Tokenizer 用空格分割您的句子，然后标记每个单词。

所以一个简单的解决方案是

x.replace('.', ' ')

Keras tokenizer: Keep Numbers as "words"