R中的文本搜索
text searching in R
我正在尝试查询以在名为 RISmed 的 R 包中使用,它将从 pubmed 数据库中搜索并下载相关期刊文章信息。我想总是一起搜索两个词,例如:
query= "gene sequencing"
search<-EUtilsSummary(query,type="esearch",db = "pubmed",mindate=2014, maxdate=2014, retmax=20)
如果我使用上面的命令,它将分别搜索基因和测序,然后搜索基因和测序,这意味着如果在整个文本中基因和测序存在,我的命令会捕获它们但我想以这种方式搜索,它会考虑 "Gene sequencing",两个词总是在一起。我该如何编写该查询?有人能帮帮我吗?
提前致谢!
我会试试这个:
query <- '"gene sequencing"[Title/Abstract]'
Pubmed 搜索引擎确实接受带引号的字符串,您只需要知道如何在 R 中保留它们。使用周围的单引号是一种方法。使用反斜杠引号是另一回事。请注意,我对您的代码进行的实验的返回值表明转义反斜杠是该包的实现方式:
> str(search)
Formal class 'EUtilsSummary' [package "RISmed"] with 6 slots
..@ db : chr "pubmed"
..@ count : num 542
..@ retmax : num 20
..@ retstart : num 0
..@ PMID : chr [1:20] "25548628" "25543043" "25542841" "25540641" ...
..@ querytranslation: chr "\"gene sequencing\"[Title/Abstract] AND 2014[EDAT] : 2014[EDAT]"
我正在尝试查询以在名为 RISmed 的 R 包中使用,它将从 pubmed 数据库中搜索并下载相关期刊文章信息。我想总是一起搜索两个词,例如:
query= "gene sequencing"
search<-EUtilsSummary(query,type="esearch",db = "pubmed",mindate=2014, maxdate=2014, retmax=20)
如果我使用上面的命令,它将分别搜索基因和测序,然后搜索基因和测序,这意味着如果在整个文本中基因和测序存在,我的命令会捕获它们但我想以这种方式搜索,它会考虑 "Gene sequencing",两个词总是在一起。我该如何编写该查询?有人能帮帮我吗?
提前致谢!
我会试试这个:
query <- '"gene sequencing"[Title/Abstract]'
Pubmed 搜索引擎确实接受带引号的字符串,您只需要知道如何在 R 中保留它们。使用周围的单引号是一种方法。使用反斜杠引号是另一回事。请注意,我对您的代码进行的实验的返回值表明转义反斜杠是该包的实现方式:
> str(search)
Formal class 'EUtilsSummary' [package "RISmed"] with 6 slots
..@ db : chr "pubmed"
..@ count : num 542
..@ retmax : num 20
..@ retstart : num 0
..@ PMID : chr [1:20] "25548628" "25543043" "25542841" "25540641" ...
..@ querytranslation: chr "\"gene sequencing\"[Title/Abstract] AND 2014[EDAT] : 2014[EDAT]"