word2vec 工具包距离脚本
word2vec toolkit distance script
我正在使用 "distance" 脚本在我构建的 word2vec 中查找相似的词。它包含大约 160 万个单词,并通过以下命令训练:
./word2vec -train processed-text-2016.txt -output vec-cbow-neg.txt -debug 2 -threads 5 -size 300 -window 10 -sample 1e-3 -negative 10 -hs 0 -binary 0 -cbow 1 > w2v-neg.log &
我的问题是,当我输入任何单词时,我得到以下信息:
输入单词或句子(EXIT 中断):rt
单词:rt 在词汇表中的位置:658253
词余弦距离
-0.000451 0.494857
356414 0.477918
9 0.441466
83 0.432876
63 0.431347
-0.020525 0.429472
.047345 0.425791
36 0.423420
242 0.418320
... ...
输入单词或句子(EXIT 中断):nd
单词:nd 在词汇表中的位置:336527
词余弦距离
3 0.494377
489 0.492153
632 0.483827
0.002335 0.462591
0693 0.458801
036869 0.452456
036819 0.447690
31 0.443887
... ...
输入单词或句子(EXIT 中断):and
单词:和词汇表中的位置:1600843
词余弦距离
080852 0.451752
57 0.438413
16577 0.437900
4 0.433538
.005464 0.429279
003131 0.422587
17380 0.420614
9 0.419624
5082 0.419569
0.019322 0.417945
.000435 0.417265
115991 0.414139
... ...
输入单词或句子(EXIT 中断):happy
字词:happy 在词汇表中的位置:-1
字典里的单词!
输入单词或句子(EXIT 中断):man
单词:man 在词汇中的位置:470143
词余弦距离
0.055039 0.488181
4793 0.455608
90743 0.454786
060493 0.453180
36 0.451387
6 0.450261
4 0.445118
830 0.442580
490 0.439919
0.025327 0.437766
0.005571 0.436606
0.001964 0.436544
-0.012627 0.434358
... ...
输入单词或句子(EXIT 中断):women
单词:women 在词汇表中的位置:-1
字典里的单词!
输入单词或句子(EXIT 中断):queen
单词:queen 在词汇表中的位置:-1
如果我从模型文件(文本文件)中 grep 这些词,我会找到它们,所以我不确定为什么会这样或如何克服这个问题?是因为数据中的噪音(我正在调试这个)还是我使用的参数?
答案很简单,我使用的是模型的文本格式,而不是二进制格式...
我正在使用 "distance" 脚本在我构建的 word2vec 中查找相似的词。它包含大约 160 万个单词,并通过以下命令训练:
./word2vec -train processed-text-2016.txt -output vec-cbow-neg.txt -debug 2 -threads 5 -size 300 -window 10 -sample 1e-3 -negative 10 -hs 0 -binary 0 -cbow 1 > w2v-neg.log &
我的问题是,当我输入任何单词时,我得到以下信息: 输入单词或句子(EXIT 中断):rt
单词:rt 在词汇表中的位置:658253
词余弦距离
-0.000451 0.494857
356414 0.477918
9 0.441466
83 0.432876
63 0.431347
-0.020525 0.429472
.047345 0.425791
36 0.423420
242 0.418320
... ...
输入单词或句子(EXIT 中断):nd
单词:nd 在词汇表中的位置:336527
词余弦距离
3 0.494377
489 0.492153
632 0.483827
0.002335 0.462591
0693 0.458801
036869 0.452456
036819 0.447690
31 0.443887
... ...
输入单词或句子(EXIT 中断):and
单词:和词汇表中的位置:1600843
词余弦距离
080852 0.451752
57 0.438413
16577 0.437900
4 0.433538
.005464 0.429279
003131 0.422587
17380 0.420614
9 0.419624
5082 0.419569
0.019322 0.417945
.000435 0.417265
115991 0.414139
... ...
输入单词或句子(EXIT 中断):happy
字词:happy 在词汇表中的位置:-1 字典里的单词! 输入单词或句子(EXIT 中断):man
单词:man 在词汇中的位置:470143
词余弦距离
0.055039 0.488181
4793 0.455608
90743 0.454786
060493 0.453180
36 0.451387
6 0.450261
4 0.445118
830 0.442580
490 0.439919
0.025327 0.437766
0.005571 0.436606
0.001964 0.436544
-0.012627 0.434358
... ...
输入单词或句子(EXIT 中断):women
单词:women 在词汇表中的位置:-1 字典里的单词! 输入单词或句子(EXIT 中断):queen
单词:queen 在词汇表中的位置:-1
如果我从模型文件(文本文件)中 grep 这些词,我会找到它们,所以我不确定为什么会这样或如何克服这个问题?是因为数据中的噪音(我正在调试这个)还是我使用的参数?
答案很简单,我使用的是模型的文本格式,而不是二进制格式...