使用 python 从文本文件中提取单词
Extract words from text files with python
我有一个 html 文件,其中包含我无法使用 BeautifulSoup 轻松提取的内容,因为我认为它加载了 Javascript.
..."inlineParams":"json","title":"","lNameP":"MYNAME","key":"degree_result_person"},"firstName":"MYFIRSTNAME"...
我想提取此文件中的多个名称。这些名字就在 "lNameP" 之后。有什么方法可以循环获取所有这些名称(在这种情况下我想获取 MYNAME)?
非常感谢,
使用正则表达式?
import re
pattern = re.compile('\"(lNameP)\"\:\"(.*?)\"')
result = pattern.findall(string)
result[0][0]
是键,result[0][1]
是值。
此 regex 代码将完全符合您的需要:
string ='"inlineParams":"json","title":"","lNameP":"MYNAME","key":"degree_result_person"},"firstName":"MYFIRSTNAME"'
import re
pattern = re.compile('\"lNameP"\:"(.*?)"')
match = pattern.search(string).group(1)
print (match)
输出:
MYNAME
我有一个 html 文件,其中包含我无法使用 BeautifulSoup 轻松提取的内容,因为我认为它加载了 Javascript.
..."inlineParams":"json","title":"","lNameP":"MYNAME","key":"degree_result_person"},"firstName":"MYFIRSTNAME"...
我想提取此文件中的多个名称。这些名字就在 "lNameP" 之后。有什么方法可以循环获取所有这些名称(在这种情况下我想获取 MYNAME)?
非常感谢,
使用正则表达式?
import re
pattern = re.compile('\"(lNameP)\"\:\"(.*?)\"')
result = pattern.findall(string)
result[0][0]
是键,result[0][1]
是值。
此 regex 代码将完全符合您的需要:
string ='"inlineParams":"json","title":"","lNameP":"MYNAME","key":"degree_result_person"},"firstName":"MYFIRSTNAME"'
import re
pattern = re.compile('\"lNameP"\:"(.*?)"')
match = pattern.search(string).group(1)
print (match)
输出:
MYNAME