在 Hadoop/Pig 中使用匹配过滤
Filtering with Matching in Hadoop/Pig
我正在努力学习 Hadoop/Pig 并且一直在 AWS 上工作,
日期如下所示(每列包含各种网站):
<http://openean.kaufkauf.net/id/businessentities/GLN_7654990000088>
<http://www.w3.org/2000/01/rdf-schema#isDefinedBy>
<http://openean.kaufkauf.net/id/businessentities/>
<http://openean.kaufkauf.net/id/businessentities/GLN_6406510000068> .
我正在尝试过滤其中包含 'business' 的行,但过滤器一直返回 0 条记录。 my_data 的格式如上所示,有 3 列,第一列是上面显示的主题以及我要过滤的内容。我有:
filter1 = FILTER my_data BY subject=='.*business.*';
不确定为什么这没有返回任何内容,因为 'business' 肯定在 3 个记录中。
试试这个
filter1 = FILTER my_data BY (subject matches '.* business.*');
我正在努力学习 Hadoop/Pig 并且一直在 AWS 上工作,
日期如下所示(每列包含各种网站):
<http://openean.kaufkauf.net/id/businessentities/GLN_7654990000088>
<http://www.w3.org/2000/01/rdf-schema#isDefinedBy>
<http://openean.kaufkauf.net/id/businessentities/>
<http://openean.kaufkauf.net/id/businessentities/GLN_6406510000068> .
我正在尝试过滤其中包含 'business' 的行,但过滤器一直返回 0 条记录。 my_data 的格式如上所示,有 3 列,第一列是上面显示的主题以及我要过滤的内容。我有:
filter1 = FILTER my_data BY subject=='.*business.*';
不确定为什么这没有返回任何内容,因为 'business' 肯定在 3 个记录中。
试试这个
filter1 = FILTER my_data BY (subject matches '.* business.*');