Apache-Spark 库内容

Apache-Spark library content

我正在尝试使用 Apache-Spark 的 MLlib 库运行 Java 测试程序。

我从他们的网站下载了最新的 Spark 版本,并按照 O'reilly 的书 "Learning Spark, Lightning-Fast Big Data Analysis" 找到有用的示例和提示,但是在导入正确的库时,他们(以及我的其他教程)发现谷歌搜索)使用我下载的 Spark 文件夹中未包含的 类。

这是一个例子:

大多数教程都导入了 org.apache.spark.mllib.regression.LabeledPoint,但在我的案例中不存在。我只有 :

我对应该包含在库中的所有其他文件都有同样的问题。我尝试下载旧版本,但它仍然是一样的,即使是与 MLlib 没有直接关系的文件(org.apache.spark.SparkConf 和 org.apache.spark.api.java.* 文件)

我是不是漏掉了一步,或者有人知道吗?

谢谢!

编辑

本书第一个例子需要导入:

import org.apache.spark.mllib.classification.LogisticRegressionModel;
import org.apache.spark.mllib.classification.LogisticRegressionWithSGD;
import org.apache.spark.mllib.feature.HashingTF;
import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.regression.LabeledPoint;

我从 this link 下载:

Spark 版本:1.2.1

包类型:源代码

下载类型:直接下载

(这是我在 Stack Overflow 上的第一个 post,所以如果我做错了请不要犹豫告诉我)

为了得到你想要的 jar,你必须编译你用 maven 下载的源代码(如果你不熟悉这个工具,我建议你下载一个预构建的版本) .

构建完成后,您将在yourSparkFolder/spark-1.2.1/mllib/target中找到您想要的jar。

请注意,这只会解决这个特定问题。 Spark mlibs 列出了各种依赖项 here. Personnaly, I managed these by using maven in my spark project (you can find the required dependencies here).

也许这会对你有所帮助!

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-mllib_2.10</artifactId>
    <version>1.3.0</version>
</dependency>