Windows spark 中的文件读取 csv
Windows file in spark read csv
我在 Python
中使用数据块进行练习
我正在尝试通过以下方式加载 windows 文件:
diamonds = spark.read.csv('file:///C:/abc.csv', header="true", inferSchema="true")
我确信我的文件在 C:/abc.csv 但系统总是 returns 这个错误:
u'Path does not exist file:/C:/abc.csv;'
如何在 windows 系统中加载文件?
1.将完整路径定义为变量 - 如果 local
,则每个路径都应以驱动器开头
# remove the 'file' string and use 'r' or 'u' prefix to indicate raw/unicore string format
# Option 1
PATH = r'C:\abc.csv' # raw string
# Option 2
PATH = u'C:\abc.csv' # unicode string
2。将路径变量设置为您的 spark 调用
diamonds = spark.read.csv(PATH, header="true", inferSchema="true")
本质上,你的文件路径是错误的。
Databricks 是一种在云端运行集群的云服务。您可以使用浏览器中的笔记本与集群进行交互,但数据块无法访问您计算机上的文件。 (允许网站访问您计算机上的任意文件将是一个巨大的安全问题。如果我向您发送恶意 link,并且当您单击它时我可以读取您计算机上的任何文件)。
如果您使用数据块左侧的数据按钮 UI,您可以上传 csv 文件并创建可用于数据块集群的表。
我在 Python
中使用数据块进行练习我正在尝试通过以下方式加载 windows 文件:
diamonds = spark.read.csv('file:///C:/abc.csv', header="true", inferSchema="true")
我确信我的文件在 C:/abc.csv 但系统总是 returns 这个错误:
u'Path does not exist file:/C:/abc.csv;'
如何在 windows 系统中加载文件?
1.将完整路径定义为变量 - 如果 local
,则每个路径都应以驱动器开头# remove the 'file' string and use 'r' or 'u' prefix to indicate raw/unicore string format
# Option 1
PATH = r'C:\abc.csv' # raw string
# Option 2
PATH = u'C:\abc.csv' # unicode string
2。将路径变量设置为您的 spark 调用
diamonds = spark.read.csv(PATH, header="true", inferSchema="true")
本质上,你的文件路径是错误的。
Databricks 是一种在云端运行集群的云服务。您可以使用浏览器中的笔记本与集群进行交互,但数据块无法访问您计算机上的文件。 (允许网站访问您计算机上的任意文件将是一个巨大的安全问题。如果我向您发送恶意 link,并且当您单击它时我可以读取您计算机上的任何文件)。
如果您使用数据块左侧的数据按钮 UI,您可以上传 csv 文件并创建可用于数据块集群的表。