搜索排除一个词的句子的正则表达式
Regex that search for sentences that exclude one word
各位再见,
我正在创建一个语料库,其中包含 XML 格式的包含关键字“catastrophic”的推文。每条推文都是这样嵌入的:
<tweet>"Catastrophic loss" at Tennessee's Zoo Knoxville as 33 reptiles are found dead </tweet>
<tweet>Overcoming Catastrophic Forgetting by Incremental Moment Matching, Lee et al.</tweet
在删除了大量不必要的数据后,仍有大约 200 多条推文根本不包含该关键字。我想删除它们,所以我尝试了这样的正则表达式,但它不起作用:
<tweet>^.*(?!catastrophic).*$</tweet>
有人知道吗?
不确定您使用的是哪种编程语言或其他工具集。
但一个非常简单的方法可能是使用只写入包含灾难性条目的过滤器重写文件(或任何类型的输入):
假设它是一个文件,每条推文一行(只是为了说明这个想法):
egrep '<tweet>.*catastrophic.*</tweet>' originalFile > newFile
各位再见,
我正在创建一个语料库,其中包含 XML 格式的包含关键字“catastrophic”的推文。每条推文都是这样嵌入的:
<tweet>"Catastrophic loss" at Tennessee's Zoo Knoxville as 33 reptiles are found dead </tweet>
<tweet>Overcoming Catastrophic Forgetting by Incremental Moment Matching, Lee et al.</tweet
在删除了大量不必要的数据后,仍有大约 200 多条推文根本不包含该关键字。我想删除它们,所以我尝试了这样的正则表达式,但它不起作用:
<tweet>^.*(?!catastrophic).*$</tweet>
有人知道吗?
不确定您使用的是哪种编程语言或其他工具集。
但一个非常简单的方法可能是使用只写入包含灾难性条目的过滤器重写文件(或任何类型的输入):
假设它是一个文件,每条推文一行(只是为了说明这个想法):
egrep '<tweet>.*catastrophic.*</tweet>' originalFile > newFile