Keras 分词器:将数字保留为 "words"

Keras tokenizer: Keep Numbers as "words"

我正在使用 keras 分词器来准备文本。 现在我有像 26.07.202027.September 1993.

这样的 x 值

我想使用分词器将 September 作为单词添加到索引中,但也想使用 26 或 2020。

我以前用过char_level=True,但我认为模型应该用像September这样的词作为词标记来表现得更好。使用 keras 分词器是否可行?如果可行,如何实现?

非常感谢。

您可以用空格替换 .Tokenizer 用空格分割您的句子,然后标记每个单词。

所以一个简单的解决方案是

x.replace('.', ' ')