Gensim Word2Vec Error: ValueError: missing section header before line #0

Question

我是 Gensim Word2Vec 的新手。我试图使用 Word2Vec 为一些原始 html 文件构建词向量。所以我先把html文件转成txt文件

我的第一个问题：

当我训练 word2vec 模型时，一切都很好。但是当我想通过

来测试模型的准确性时

model.accuracy(file_name)

它产生了错误：

Traceback (most recent call last):
  File "build_w2v.py", line 82, in <module>
    main()
  File "build_w2v.py", line 77, in main
    gen_w2v_model()
  File "build_w2v.py", line 71, in gen_w2v_model
    accuracy = model.accuracy(target)
  File "/home/k/shankai/app/anaconda2/lib/python2.7/site-packages/gensim/models/word2vec.py", line 1330, in accuracy
    return self.wv.accuracy(questions, restrict_vocab, most_similar, case_insensitive)
  File "/home/k/shankai/app/anaconda2/lib/python2.7/site-packages/gensim/models/keyedvectors.py", line 679, in accuracy
    raise ValueError("missing section header before line #%i in %s" % (line_no, questions))
ValueError: missing section header before line #0

下面是示例文件：

zGR='ca-about-health_js';var ziRfw=0;zobt=" Vision Ads";zOBT=" Ads";function zIpSS(u){zpu(0,u,280,375,"ssWin")}function zIlb(l,t,f){zT(l,'18/1Pp/wX')}


zWASL=1;zGRH=1
#rs{margin:0 0 10px}#rs #n5{font-weight:bold}#rs a{padding:7px;text-transform:capitalize}Poking Eyelashes - Poking Eyelashes Problem


<!--
zGOW=0;xd=0;zap="";zAth='25752';zAthG='25752';zTt='11';zir='';zBTS=0;zBT=0;zSt='';zGz=''
ch='health';gs='vision';xg="Vision";zcs=''
zFDT='0'
zFST='0'
zOr='BA15WT26OkWA0O1b';zTbO=zRQO=1;zp0=zp1=zp2=zp3=zfs=0;zDc=1;
zSm=zSu=zhc=zpb=zgs=zdn='';zFS='BA110BA0110B00101';zFD='BA110BA0110B00101'
zDO=zis=1;zpid=zi=zRf=ztp=zpo=0;zdx=20;zfx=100;zJs=0;
zi=1;zz=';336280=2-1-1299;72890=2-1-1299;336155=2-1-12-1;93048=2-1-12-1;30050=2-1-12-1';zx='100';zde=15;zdp=1440;zds=1440;zfp=0;zfs=66;zfd=100;zdd=20;zaX=new Array(11, new Array(100,1051,8192,2,'336,300'),7, new Array(100,284,8196,12,'336,400'));zDc=1;;zDO=1;;zD336=1;zhc='';;zGTH=1;
zGo=0;zG=17;zTac=2;zDot=0;
zObT="Vision";zRad=5;var tp=" primedia_"+(zBT?"":"non_")+"site_targeting";if(!this.zGCID)zGCID=tp
else zGCID+=tp;
if(zBT>0){zOBR=1}
if(!this.uy)uy='about.com';if(typeof document.domain!="undefined")document.domain=uy;//-->


function zob(p){if(!this.zOfs)return;var a=zOfs,t,i=0,l=a.length;if(l){w('<div id="oF"><b>'+(this.zobt?zobt:xg+' Ads')+'</b><ul>');while((i<l)&&i<zRad){t=a[i++].line1;w('<li><a href="/z/js/o'+(p?p:'')+'.htm?k='+zUriS(t.toLowerCase())+(this.zobr?zobr:'')+'&d='+zUriS(t)+'&r='+zUriS(zWl)+'" target="_'+(this.zOBNW?'new'+zr(9999):'top')+'">'+t+'</a></li>');}w('</ul></div>')}}function rb600(){if(gEI('bb'))gEI('bb').height=600}zJs=10
zJs=11
zJs=12
zJs=13
zc(5,'jsc',zJs,9999999,'')
zDO=0

所以这个文件实际上以许多（我不知道）space或\n开头。当我在 vim.It looks like this.

打开

那么这里有什么问题呢？

我的第二个问题：

此外，我正在对一些生物医学论文进行文本分类。我得到的文件都是日文或英文的 html 原始文件。在我进行了 ascii 转换和一些 stop_words 清理之后，文件中仍然有许多 HTML 代码。

当我尝试清理这些文件并将字符限制为 [a-zA-Z0-9] 时，我发现了一些医学术语，例如 [4protein...] 或其他未正确清理的内容。

对于如何清理这些文件有什么建议吗？

Answer 1

accuracy() 的参数应该是一组用于测试模型的类比，其格式为原始 word2vec.c 分发中可用的 questions-words.txt 文件格式。（它应该不是你自己的文件。）

Gensim Word2Vec Error: ValueError: missing section header before line #0

Gensim Word2Vec Error: ValueError: missing section header before line #0

html

python

nlp

gensim

word2vec

我的第一个问题：

我的第二个问题：