Pyspark shell 输出几个数字而不是加载箭头
Pyspark shell outputs several numbers instead of the loading arrow
我目前正在为一些具有 104
布尔特征的训练数据拟合 Support Vector Machine 模型,因此我使用 SparseVector
作为特征,例如(我将其显示为 DataFrame
只是为了便于阅读,但实际上它是 RDD
):
+--------------------+-----+
| features|label|
+--------------------+-----+
|(104,[11,44,76,96...| 0.0|
|(104,[11,47,60,96...| 1.0|
|(104,[14,47,60,96...| 0.0|
|(104,[4,44,72,96]...| 1.0|
+--------------------+-----+
我遇到的问题是 SparkShell
显示数以百万计的数字(如下所示),我认为此打印会降低应用程序的性能,那么如何关闭它?是什么产生了这个?
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
[Stage 494:========> (5 + 4) / 32]
实际上加载箭头显示在过程结束时。此外,其他模型也会发生这种情况,例如 LogisticRegression
在你的 pyspark 中试试这 3 行 shell:
logger = sc._jvm.org.apache.log4j
logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )
如果您想要更多的输出,ERROR 可能是 WARN
我目前正在为一些具有 104
布尔特征的训练数据拟合 Support Vector Machine 模型,因此我使用 SparseVector
作为特征,例如(我将其显示为 DataFrame
只是为了便于阅读,但实际上它是 RDD
):
+--------------------+-----+
| features|label|
+--------------------+-----+
|(104,[11,44,76,96...| 0.0|
|(104,[11,47,60,96...| 1.0|
|(104,[14,47,60,96...| 0.0|
|(104,[4,44,72,96]...| 1.0|
+--------------------+-----+
我遇到的问题是 SparkShell
显示数以百万计的数字(如下所示),我认为此打印会降低应用程序的性能,那么如何关闭它?是什么产生了这个?
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
1 104
2 104
3 104
0 104
[Stage 494:========> (5 + 4) / 32]
实际上加载箭头显示在过程结束时。此外,其他模型也会发生这种情况,例如 LogisticRegression
在你的 pyspark 中试试这 3 行 shell:
logger = sc._jvm.org.apache.log4j
logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )
如果您想要更多的输出,ERROR 可能是 WARN