如何添加已知词分词器keras python?

How to add known words tokenizer keras python?

我想使用带有印度尼西亚语的 keras 将文本转换为序列。但是 keras 分词器只检测已知词。

如何在keras中添加已知词?或任何将文本转换为序列的解决方案?

from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)
tokenizer.fit_on_texts(concated['TITLE'].values)
txt = ["bisnis di indonesia sangat maju"]
seq = list(tokenizer.texts_to_sequences_generator(txt))

如果我使用印度尼西亚语,"seq" 变量生成空数组,如果我使用英语单词,它的工作完美。如何将keras用于不同的语言?或者无论如何向keras添加一些已知词?

谢谢

Keras 不懂 任何语言或单词。 使用fit_on_textsfit_on_sequences方法创建词汇表。

我猜你是在 fit 对某些英文文本(即 concated['TITLE'].values)进行分词器处理。结果,内部词汇表只包含英语单词(没有印度尼西亚语单词)。这解释了如果 txt 仅包含非英语单词,seq 将为空的原因。

此外,您可以查看 source code of the Tokenizer class