Windows spark 中的文件读取 csv

Question

我在 Python

中使用数据块进行练习

我正在尝试通过以下方式加载 windows 文件：

diamonds = spark.read.csv('file:///C:/abc.csv', header="true", inferSchema="true")

我确信我的文件在 C:/abc.csv 但系统总是 returns 这个错误:

u'Path does not exist file:/C:/abc.csv;'

如何在 windows 系统中加载文件？

Answer 1

1.将完整路径定义为变量 - 如果 local

，则每个路径都应以驱动器开头

# remove the 'file' string and use 'r' or 'u' prefix to indicate raw/unicore string format
# Option 1
PATH = r'C:\abc.csv'  # raw string
# Option 2
PATH = u'C:\abc.csv' # unicode string

2。将路径变量设置为您的 spark 调用

diamonds = spark.read.csv(PATH, header="true", inferSchema="true")

本质上，你的文件路径是错误的。

Answer 2

Databricks 是一种在云端运行集群的云服务。您可以使用浏览器中的笔记本与集群进行交互，但数据块无法访问您计算机上的文件。（允许网站访问您计算机上的任意文件将是一个巨大的安全问题。如果我向您发送恶意 link，并且当您单击它时我可以读取您计算机上的任何文件）。

如果您使用数据块左侧的数据按钮 UI，您可以上传 csv 文件并创建可用于数据块集群的表。

Windows spark 中的文件读取 csv

Windows file in spark read csv

python

csv

apache-spark

databricks