Spark 文件系统观察器无法在 Windows 上工作

Question

两个人在他们的计算机上测试了 Apache Spark...

我们下载了 Hadoop 2.6 的 Spark prebuild 版本，转到文件夹 /spark-1.6.2-bin-hadoop2.6/，创建了一个 "tmp" 目录，然后运行:

$ bin/run-example org.apache.spark.examples.streaming.HdfsWordCount tmp

我向 "tmp" 目录添加了任意文件 content1 和 content2dssdgdg。

-------------------------------------------
Time: 1467921704000 ms
-------------------------------------------
(content1,1)
(content2dssdgdg,1)

-------------------------------------------
Time: 1467921706000 ms

Spark 在我的 Ubuntu 15.10 笔记本电脑上检测到具有上述终端输出的文件，但在我同事的 Windows 7 Enterprise 笔记本电脑上没有检测到这些文件。

Spark 的文件系统观察器是否在 Windows 上不起作用？

Answer 1

John，我建议使用托管在 https://github.com/karthikj1/Hadoop-2.7.1-Windows-64-binaries. To use this hadoop version you need to use spark version that is pre-built for user provided hadoop. Make sure to set SPARK_DIST_CLASSPATH as mentioned in https://spark.apache.org/docs/latest/hadoop-provided.html. Also put %HADOOP_HOME%\lib\native on PATH. Once setup, you need to follow steps 3.1,3.3,3.4 and 3.5 mentioned at https://wiki.apache.org/hadoop/Hadoop2OnWindows 的 64 位 windows 7 的 hadoop 编译二进制文件来启动本地 HDFS。虽然运行 HdfsWordCount 您需要将 hdfs:///tmp 作为目录路径 arg 传递。祝一切顺利。

Spark 文件系统观察器无法在 Windows 上工作

Spark file system watcher not working on Windows

windows

ubuntu

filesystemwatcher

apache-spark