Apache-Spark 库内容

Question

我正在尝试使用 Apache-Spark 的 MLlib 库运行 Java 测试程序。

我从他们的网站下载了最新的 Spark 版本，并按照 O'reilly 的书 "Learning Spark, Lightning-Fast Big Data Analysis" 找到有用的示例和提示，但是在导入正确的库时，他们（以及我的其他教程）发现谷歌搜索）使用我下载的 Spark 文件夹中未包含的类。

这是一个例子：

大多数教程都导入了 org.apache.spark.mllib.regression.LabeledPoint，但在我的案例中不存在。我只有 :

Java套索套件
Java线性回归套件
JavaRidgeRegressionSuite

我对应该包含在库中的所有其他文件都有同样的问题。我尝试下载旧版本，但它仍然是一样的，即使是与 MLlib 没有直接关系的文件（org.apache.spark.SparkConf 和 org.apache.spark.api.java.* 文件）

我是不是漏掉了一步，或者有人知道吗？

谢谢！

编辑

本书第一个例子需要导入：

import org.apache.spark.mllib.classification.LogisticRegressionModel;
import org.apache.spark.mllib.classification.LogisticRegressionWithSGD;
import org.apache.spark.mllib.feature.HashingTF;
import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.regression.LabeledPoint;

我从 this link 下载：

Spark 版本：1.2.1

包类型：源代码

下载类型：直接下载

（这是我在 Stack Overflow 上的第一个 post，所以如果我做错了请不要犹豫告诉我）

Answer 1

为了得到你想要的 jar，你必须编译你用 maven 下载的源代码（如果你不熟悉这个工具，我建议你下载一个预构建的版本） .

构建完成后，您将在yourSparkFolder/spark-1.2.1/mllib/target中找到您想要的jar。

请注意，这只会解决这个特定问题。 Spark mlibs 列出了各种依赖项 here. Personnaly, I managed these by using maven in my spark project (you can find the required dependencies here).

Answer 2

也许这会对你有所帮助！

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-mllib_2.10</artifactId>
    <version>1.3.0</version>
</dependency>

Apache-Spark 库内容

Apache-Spark library content

java

apache-spark

apache-spark-mllib