Keras 分词器:将数字保留为 "words"
Keras tokenizer: Keep Numbers as "words"
我正在使用 keras 分词器来准备文本。
现在我有像 26.07.2020
或 27.September 1993
.
这样的 x 值
我想使用分词器将 September
作为单词添加到索引中,但也想使用 26 或 2020。
我以前用过char_level=True,但我认为模型应该用像September
这样的词作为词标记来表现得更好。使用 keras 分词器是否可行?如果可行,如何实现?
非常感谢。
您可以用空格替换 .
,Tokenizer
用空格分割您的句子,然后标记每个单词。
所以一个简单的解决方案是
x.replace('.', ' ')
我正在使用 keras 分词器来准备文本。
现在我有像 26.07.2020
或 27.September 1993
.
我想使用分词器将 September
作为单词添加到索引中,但也想使用 26 或 2020。
我以前用过char_level=True,但我认为模型应该用像September
这样的词作为词标记来表现得更好。使用 keras 分词器是否可行?如果可行,如何实现?
非常感谢。
您可以用空格替换 .
,Tokenizer
用空格分割您的句子,然后标记每个单词。
所以一个简单的解决方案是
x.replace('.', ' ')