如何添加已知词分词器keras python?
How to add known words tokenizer keras python?
我想使用带有印度尼西亚语的 keras 将文本转换为序列。但是 keras 分词器只检测已知词。
如何在keras中添加已知词?或任何将文本转换为序列的解决方案?
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)
tokenizer.fit_on_texts(concated['TITLE'].values)
txt = ["bisnis di indonesia sangat maju"]
seq = list(tokenizer.texts_to_sequences_generator(txt))
如果我使用印度尼西亚语,"seq" 变量生成空数组,如果我使用英语单词,它的工作完美。如何将keras用于不同的语言?或者无论如何向keras添加一些已知词?
谢谢
Keras 不懂 任何语言或单词。 您使用fit_on_texts
或fit_on_sequences
方法创建词汇表。
我猜你是在 fit
对某些英文文本(即 concated['TITLE'].values
)进行分词器处理。结果,内部词汇表只包含英语单词(没有印度尼西亚语单词)。这解释了如果 txt
仅包含非英语单词,seq
将为空的原因。
此外,您可以查看 source code of the Tokenizer
class。
我想使用带有印度尼西亚语的 keras 将文本转换为序列。但是 keras 分词器只检测已知词。
如何在keras中添加已知词?或任何将文本转换为序列的解决方案?
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=n_most_common_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True)
tokenizer.fit_on_texts(concated['TITLE'].values)
txt = ["bisnis di indonesia sangat maju"]
seq = list(tokenizer.texts_to_sequences_generator(txt))
如果我使用印度尼西亚语,"seq" 变量生成空数组,如果我使用英语单词,它的工作完美。如何将keras用于不同的语言?或者无论如何向keras添加一些已知词?
谢谢
Keras 不懂 任何语言或单词。 您使用fit_on_texts
或fit_on_sequences
方法创建词汇表。
我猜你是在 fit
对某些英文文本(即 concated['TITLE'].values
)进行分词器处理。结果,内部词汇表只包含英语单词(没有印度尼西亚语单词)。这解释了如果 txt
仅包含非英语单词,seq
将为空的原因。
此外,您可以查看 source code of the Tokenizer
class。