如何添加已知词分词器keras python？

Question

我想使用带有印度尼西亚语的 keras 将文本转换为序列。但是 keras 分词器只检测已知词。

如何在keras中添加已知词？或任何将文本转换为序列的解决方案？

from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)
tokenizer.fit_on_texts(concated['TITLE'].values)
txt = ["bisnis di indonesia sangat maju"]
seq = list(tokenizer.texts_to_sequences_generator(txt))

如果我使用印度尼西亚语，"seq" 变量生成空数组，如果我使用英语单词，它的工作完美。如何将keras用于不同的语言？或者无论如何向keras添加一些已知词？

谢谢

Answer 1

Keras 不懂任何语言或单词。您使用fit_on_texts或fit_on_sequences方法创建词汇表。

我猜你是在 fit 对某些英文文本（即 concated['TITLE'].values）进行分词器处理。结果，内部词汇表只包含英语单词（没有印度尼西亚语单词）。这解释了如果 txt 仅包含非英语单词，seq 将为空的原因。

此外，您可以查看 source code of the Tokenizer class。

如何添加已知词分词器keras python？

How to add known words tokenizer keras python?

python

nlp

tokenize

keras

data-science