当一列为 xml 时使用 sparl.read.csv

Question

我有 10 列的 CSV，其中一列是 XML 字段。当我从 Azure 数据湖将其读入数据块笔记本时，它会将 xml 分成新行，而不是将其保留在一个字段中。

有办法阻止这种情况发生吗？数据显示时是这样的

但是当我打开 CSV 时就像这样

我正在使用以下代码读取 csv

sourceDf = spark.read.csv(sourceFilePath, sep=',', header=True, inferSchema=True)

我正在尝试在 ADF 中构建数据管道并希望使用数据块来解析 XML 字段，但我需要能够先将其读入数据块。

Answer 1

为了正确读取数据，我需要将 multiline=True 定义为如下选项：

sourceDf = spark.read.csv(sourceFilePath, sep=',', header=True, inferSchema=True, multiLine=True)

然后我得到一个格式正确的列。

Using sparl.read.csv when one column is xml