当一列为 xml 时使用 sparl.read.csv
Using sparl.read.csv when one column is xml
我有 10 列的 CSV,其中一列是 XML 字段。当我从 Azure 数据湖将其读入数据块笔记本时,它会将 xml 分成新行,而不是将其保留在一个字段中。
有办法阻止这种情况发生吗?数据显示时是这样的
但是当我打开 CSV 时就像这样
我正在使用以下代码读取 csv
sourceDf = spark.read.csv(sourceFilePath, sep=',', header=True, inferSchema=True)
我正在尝试在 ADF 中构建数据管道并希望使用数据块来解析 XML 字段,但我需要能够先将其读入数据块。
为了正确读取数据,我需要将 multiline=True 定义为如下选项:
sourceDf = spark.read.csv(sourceFilePath, sep=',', header=True, inferSchema=True, multiLine=True)
然后我得到一个格式正确的列。
我有 10 列的 CSV,其中一列是 XML 字段。当我从 Azure 数据湖将其读入数据块笔记本时,它会将 xml 分成新行,而不是将其保留在一个字段中。
有办法阻止这种情况发生吗?数据显示时是这样的
但是当我打开 CSV 时就像这样
我正在使用以下代码读取 csv
sourceDf = spark.read.csv(sourceFilePath, sep=',', header=True, inferSchema=True)
我正在尝试在 ADF 中构建数据管道并希望使用数据块来解析 XML 字段,但我需要能够先将其读入数据块。
为了正确读取数据,我需要将 multiline=True 定义为如下选项:
sourceDf = spark.read.csv(sourceFilePath, sep=',', header=True, inferSchema=True, multiLine=True)
然后我得到一个格式正确的列。