当一列为 xml 时使用 sparl.read.csv

Using sparl.read.csv when one column is xml

我有 10 列的 CSV,其中一列是 XML 字段。当我从 Azure 数据湖将其读入数据块笔记本时,它会将 xml 分成新行,而不是将其保留在一个字段中。

有办法阻止这种情况发生吗?数据显示时是这样的

但是当我打开 CSV 时就像这样

我正在使用以下代码读取 csv

sourceDf = spark.read.csv(sourceFilePath, sep=',', header=True, inferSchema=True)

我正在尝试在 ADF 中构建数据管道并希望使用数据块来解析 XML 字段,但我需要能够先将其读入数据块。

为了正确读取数据,我需要将 multiline=True 定义为如下选项:

sourceDf = spark.read.csv(sourceFilePath, sep=',', header=True, inferSchema=True, multiLine=True)

然后我得到一个格式正确的列。