解析 Amazon Electronics Review Apache Pig

Question

我已经在我的 cloudera VM 中的 Apache Pig 中加载了 Amazon Electronics Reviews 数据集（http://jmcauley.ucsd.edu/data/amazon/）5 核（1,689,188 条评论）

我已经关注了其他问题：-

Apache Pig error while dumping Json data

评论示例

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is at times hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" }

grunt> 评论 = 加载 'amazon/amazon-pro/reviews.json' 使用 org.apache.pig.builtin.JsonLoader('id:chararray, asin:int, reviewerName: chararray, helpful:(int), reviewText:chararray, overall:float, summary:chararray, time:int, reviewTime:chararray');

grunt> viewReview = LIMIT 评论 1;

grunt> DUMP viewReview;

我收到以下错误

2016-11-17 08:05:33,797 [main] INFO org.apache.pig.tools.pigstats.ScriptState - 脚本中使用的 Pig 功能：LIMIT
2016-11-17 08:05:35,897 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MRCompiler - 文件连接阈值：100 乐观？错误的
2016-11-17 08:05:36,531 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - 优化前的 MR 计划大小：2
2016-11-17 08:05:36,532 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - 优化后的 MR 计划大小：2
2016-11-17 08:05:37,577 [main] INFO org.apache.pig.tools.pigstats.ScriptState - Pig 脚本设置已添加到作业中
2016-11-17 08:05:38,183 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent 未设置，设置为默认值 0.3
2016-11-17 08:05:38,225 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - 将并行度设置为 1
2016-11-17 08:05:38,230 [main] 信息 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - 创建 jar 文件 Job974442700781595171.jar
2016-11-17 08:05:57,665 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - 已创建 jar 文件 Job974442700781595171.jar
2016-11-17 08:05:57,754 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - 设置单店作业
2016-11-17 08:05:58,090 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 个 map-reduce 作业等待提交。
2016-11-17 08:05:58,347 [JobControl] WARN org.apache.hadoop.mapred.JobClient - 使用 GenericOptionsParser 解析参数。应用程序应该为此实现工具。
2016-11-17 08:05:58,614 [主要] 信息 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 0% 完成
2016-11-17 08:06:00,041 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.df.interval 已弃用。相反，使用 fs.df.interval
2016-11-17 08:06:00,041 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.max.objects 已弃用。相反，使用 dfs.namenode.max.objects
2016-11-17 08:06:00,041 [JobControl] 警告 org.apache.hadoop.conf.Configuration - hadoop.native.lib 已弃用。相反，使用 io.native.lib.available
2016-11-17 08:06:00,041 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.data.dir 已弃用。相反，使用 dfs.datanode.data.dir
2016-11-17 08:06:00,041 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.name.dir 已弃用。相反，使用 dfs.namenode.name.dir
2016-11-17 08:06:00,041 [JobControl] 警告 org.apache.hadoop.conf.Configuration - fs.default.name 已弃用。相反，使用 fs.defaultFS
2016-11-17 08:06:00,041 [JobControl] 警告 org.apache.hadoop.conf.Configuration - fs.checkpoint.dir 已弃用。相反，使用 dfs.namenode.checkpoint.dir
2016-11-17 08:06:00,041 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.block.size 已弃用。相反，使用 dfs.blocksize
2016-11-17 08:06:00,041 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.access.time.precision 已弃用。相反，使用 dfs.namenode.accesstime.precision
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.replication.min 已弃用。相反，使用 dfs.namenode.replication.min
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.name.edits.dir 已弃用。相反，使用 dfs.namenode.edits.dir
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.replication.considerLoad 已弃用。相反，使用 dfs.namenode.replication.considerLoad
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.balance.bandwidthPerSec 已弃用。相反，使用 dfs.datanode.balance.bandwidthPerSec
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.safemode.threshold.pct 已弃用。相反，使用 dfs.namenode.safemode.threshold-pct
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.http.address 已弃用。相反，使用 dfs.namenode.http-address
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.name.dir.restore 已弃用。相反，使用 dfs.namenode.name.dir.restore
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.https.client.keystore.resource 已弃用。相反，使用 dfs.client.https.keystore.resource
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.backup.address 已弃用。相反，使用 dfs.namenode.backup.address
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.backup.http.address 已弃用。相反，使用 dfs.namenode.backup.http-address
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.permissions 已弃用。相反，使用 dfs.permissions.enabled
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.safemode.extension 已弃用。相反，使用 dfs.namenode.safemode.extension
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.datanode.max.xcievers 已弃用。相反，使用 dfs.datanode.max.transfer.threads
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.https.need.client.auth 已弃用。相反，使用 dfs.client.https.need-auth
2016-11-17 08:06:00,042 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.https.address 已弃用。相反，使用 dfs.namenode.https-address
2016-11-17 08:06:00,043 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.replication.interval 已弃用。相反，使用 dfs.namenode.replication.interval
2016-11-17 08:06:00,043 [JobControl] 警告 org.apache.hadoop.conf.Configuration - fs.checkpoint.edits.dir 已弃用。相反，使用 dfs.namenode.checkpoint.edits.dir
2016-11-17 08:06:00,043 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.write.packet.size 已弃用。相反，使用 dfs.client-write-packet-size
2016-11-17 08:06:00,043 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.permissions.supergroup 已弃用。相反，使用 dfs.permissions.superusergroup
2016-11-17 08:06:00,043 [JobControl] 警告 org.apache.hadoop.conf.Configuration - topology.script.number.args 已弃用。相反，请使用 net.topology.script.number.args
2016-11-17 08:06:00,043 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.umaskmode 已弃用。相反，使用 fs.permissions.umask-mode
2016-11-17 08:06:00,043 [JobControl] 警告 org.apache.hadoop.conf.Configuration - dfs.secondary.http.address 已弃用。相反，使用 dfs.namenode.secondary.http-address
2016-11-17 08:06:00,045 [JobControl] 警告 org.apache.hadoop.conf.Configuration - fs.checkpoint.period 已弃用。相反，使用 dfs.namenode.checkpoint.period
2016-11-17 08:06:00,045 [JobControl] 警告 org.apache.hadoop.conf.Configuration - topology.node.switch.mapping.impl 已弃用。相反，请使用 net.topology.node.switch.mapping.impl
2016-11-17 08:06:00,045 [JobControl] 警告 org.apache.hadoop.conf.Configuration - io.bytes.per.checksum 已弃用。相反，使用 dfs.bytes-per-checksum
2016-11-17 08:06:00,217 [JobControl] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - 要处理的总输入路径：1
2016-11-17 08:06:00,270 [JobControl] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - 要处理的总输入路径（组合）：11
2016-11-17 08:06:01,755 [主要] 信息 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_201611170800_0001
2016-11-17 08:06:01,755 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 处理别名 r,评论
2016-11-17 08:06:01,755 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 详细位置：M: reviews[1,10],r[2,4] C: R:
2016-11-17 08:06:01,755 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 更多信息请访问：http://localhost.localdomain:50030/jobdetails.jsp?jobid=job_201611170800_0001
2016-11-17 08:09:30,985 [主要] 信息 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 完成 50%
2016-11-17 08:09:31,500 [main] 信息 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 作业 job_201611170800_0001 失败！停止 运行 所有依赖作业
2016-11-17 08:09:31,538 [主要] 信息 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 100% 完成
2016-11-17 08:09:31,596 [main] 错误 org.apache.pig.tools.pigstats.SimplePigStats - 错误 2997：无法从支持错误中重新创建异常：org.codehaus.jackson.JsonParseException：当前令牌 (VALUE_STRING) 不是数字, 不能使用数值访问器
 在 [来源：java.io.ByteArrayInputStream@67de0c09；行：1，列：43]
    在 org.codehaus.jackson.JsonParser._constructError(JsonParser.java:1291)
    在 org.codehaus.jackson.impl.JsonParserMinimalBase._reportError(JsonParserMinimalBase.java:385)
    在 org.codehaus.jackson.impl.JsonNumericParserBase._parseNumericValue(JsonNumericParserBase.java:399)
    在 org.codehaus.jackson.impl.JsonNumericParserBase.getIntValue(JsonNumericParserBase.java:254)
    在 org.apache.pig.builtin.JsonLoader.readField(JsonLoader.java:189)
    在 org.apache.pig.builtin.JsonLoader.getNext(JsonLoader.java:157)
    在 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigRecordReader.nextKeyValue(PigRecordReader.java:211)
    在 org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:483)
    在 org.apache.hadoop.mapreduce.task.MapContextImpl.nextKeyValue(MapContextImpl.java:76)
    在 org.apache.hadoop.map
2016-11-17 08:09:31,597 [main] 错误 org.apache.pig.tools.pigstats.PigStatsUtil - 1 个 map reduce 作业失败！
2016-11-17 08:09:31,602 [main] INFO org.apache.pig.tools.pigstats.SimplePigStats - 脚本统计：

HadoopVersion PigVersion UserId StartedAt FinishedAt 特性
2.0.0-cdh4.7.0 0.11.0-cdh4.7.0 cloudera 2016-11-17 08:05:37 2016-11-17 08:09:31 限制

失败的！

失败的工作：
JobId 别名功能消息输出
job_201611170800_0001 r,reviews 消息：作业失败！

输入：
无法从 "hdfs://localhost.localdomain:8020/user/cloudera/amazon/amazon-pro/reviews.json" 读取数据

输出：

柜台：
写入的总记录数：0
写入的总字节数：0
溢出内存管理器溢出计数：0
主动溢出的袋子总数：0
主动溢出的记录总数：0

工作 DAG：
job_201611170800_0001 -> 空，
无效的


2016-11-17 08:09:31,602 [main] 信息 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 失败！
2016-11-17 08:09:31,635 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1066：无法打开别名 r 的迭代器
日志文件中的详细信息：/home/cloudera/pig_1479349681179.log

Answer 1

我认为您对 helpful 的模式定义有问题。与 this other answer 相关的内容应该如下所示：

..., helpful:{t:(score:int)}, ...

Answer 2

reviews = LOAD '/user/cloudera/review.json' USING org.apache.pig.builtin.JsonLoader('reviewerID:chararray, asin:chararray,reviewerName: chararray, helpful:{t:(score:int)}, reviewText:chararray, overall:chararray, summary:chararray, Time:chararray, reviewTime:chararray');

DUMP reviews;

解析 Amazon Electronics Review Apache Pig

Parsing Amazon Electronics Review Apache Pig

parsing

json

hadoop

apache-pig

bigdata