是否可以使用 pyspark 将未引用的 JSON 转换为 CSV 或适当的 JSON 格式
Is it possible to convert unquoted JSON to either CSV or appropriate JSON format using pyspark
我正在使用 pyspark,其中我从日志文件中提取所需的字符串,该字符串是 JSON 字符串但没有引号。以下是示例:
{PlatformVersion=123,PlatformClient=html,namespace=NAT}
我想将其转换为 CSV 或 JSON,因为我想使用数据管道将其进一步存储到关系数据库中。有没有办法将此类字符串转换为 CSV 或 JSON?
下面正在做这项工作。
步骤:
- 删除大括号
- 除以
,
- 除以
=
- 用键和值填充字典
result = {}
log_line = '{PlatformVersion=123,PlatformClient=html,namespace=NAT}'
log_line = log_line[1:-1]
parts = log_line.split(',')
for part in parts:
k,v = part.split('=')
result[k] = v
print(result)
output
{'PlatformVersion': '123', 'PlatformClient': 'html', 'namespace': 'NAT'}
我正在使用 pyspark,其中我从日志文件中提取所需的字符串,该字符串是 JSON 字符串但没有引号。以下是示例:
{PlatformVersion=123,PlatformClient=html,namespace=NAT}
我想将其转换为 CSV 或 JSON,因为我想使用数据管道将其进一步存储到关系数据库中。有没有办法将此类字符串转换为 CSV 或 JSON?
下面正在做这项工作。
步骤:
- 删除大括号
- 除以
,
- 除以
=
- 用键和值填充字典
result = {}
log_line = '{PlatformVersion=123,PlatformClient=html,namespace=NAT}'
log_line = log_line[1:-1]
parts = log_line.split(',')
for part in parts:
k,v = part.split('=')
result[k] = v
print(result)
output
{'PlatformVersion': '123', 'PlatformClient': 'html', 'namespace': 'NAT'}