将结构化（机器结构）文本文件（配置文件）解析为结构化 table 格式

Question

主要目标是将或多或少可读的配置文件转换为 table 格式，每个人都可以阅读这种格式，而不需要更深入地了解机器及其配置标准。

我有一个配置文件：

******A MANO:111111         ,20190726,001,0914,06621242746     
DXS*HAWA776A0A*VA*V0/6*1
ST*001*0001
ID1*HAW250755*VMI1-9900****250755*6*0
CB1*021545*DeBright*7.030.16*3.02*250755
PA1*0*100
PA1*1*60
PA2*2769*166140*210*12600*0*0*0*0
******E MANO:111111         ,20190726,001,0914,06621242746     
******A MANO:222222         ,20190726,001,0914,06621242746     
DXS*HAWA776A0A*VA*V0/6*1
ST*001*0001
ID1*HAW250755*VMI1-9900****250755*6*0
CB1*021545*DeBright*7.030.16*3.02*250755
PA1*0*100
PA1*1*60
PA2*2769*166140*210*12600*0*0*0*0
******E MANO:222222         ,20190726,001,0914,06621242746

文件中有几个对象始终以 'A MANO:' 开头并以 'E MANO:' 结尾，后跟对象编号。下面的所有行都是对象的属性（机器的设置）。并非所有对象都具有相同数量的设置。一个对象可能有 55 行，另一个对象可能有 199 行。

到目前为止我尝试了什么：

from pyparsing import *

'''
grammar:
object_nr ::= Word(nums, exact=6)
num ::= '0' | '1' | '2' | '3' | '4' | '5' | '6' | '7' | '8' | '9'
'''

path_input = r'\...\...'

with open(path_input) as input_file:
    line = input_file.readline()
    cnt = 1

object_nr_parser = Word(nums, exact=6)

for match, start, stop in object_nr_parser.scanString(input_file):
    print(match, start, stop)

这给了我打印输出： ['201907'] 116 122 ['019211'] 172 178

它找到的数字以及字符串中的起点和终点。但这个数字不是我要找的，也不正确。我什至在配置文件中找不到第二个数字。

用 pyparsing 解决这个问题是正确的方法还是有更方便的方法？我哪里做错了？

最后，如果我为每台机器创建一个对象，其属性将是 A MANO: 和 E MANO 之间的所有行：

预期结果是这样的：

{"object": "111111",
"line1":"DXS*HAWA776A0A*VA*V0/6*1",
"line2":"ST*001*0001",
"line3":"ID1*HAW250755*VMI1-9900****250755*6*0",
"line4":"CB1*021545*DeBright*7.030.16*3.02*250755",
"line5":"PA1*0*100",
"line6":"PA1*1*60",
"line7":"PA2*2769*166140*210*12600*0*0*0*0"},
{"object": "222222",
"line1":"DXS*HAWA776A0A*VA*V0/6*1",
"line2":"ST*001*0001",
"line3":"ID1*HAW250755*VMI1-9900****250755*6*0",
"line4":"CB1*021545*DeBright*7.030.16*3.02*250755",
"line5":"PA1*0*100",
"line6":"PA1*1*60",
"line7":"PA2*2769*166140*210*12600*0*0*0*0",
"line8":"PA2*2769*166140*210*12600*0*0*0*0",
"line9":"PA2*2769*166140*210*12600*0*0*0*0",
"line10":"PA2*2769*166140*210*12600*0*0*0*0"}

不确定这是否是达到此目的的最佳解决方案，但这是此时想到的解决方案。

完成任务的最肮脏的方法之一是使用正则表达式并将 MANO 替换为换行符，并将所有换行符替换为“;”。我认为这不是应该使用的解决方案

Answer 1

你可以逐行解析：

import re

with open('file.txt', 'r') as f:
    lines = f.readlines()
    lines = [x.strip() for x in lines]

result = []
name = ''
i = 1
for line in lines:
    if 'A MANO' in line:
        name = re.findall('A MANO:(\d+)', line)[0]
        result.append({'object': name})
        i = 1
    elif 'E MANO' not in line:
        result[-1][f'line{i}'] = line
        i += 1

输出：

[{
        'object': '111111',
        'line1': 'DXS*HAWA776A0A*VA*V0/6*1',
        'line2': 'ST*001*0001',
        'line3': 'ID1*HAW250755*VMI1-9900****250755*6*0',
        'line4': 'CB1*021545*DeBright*7.030.16*3.02*250755',
        'line5': 'PA1*0*100',
        'line6': 'PA1*1*60',
        'line7': 'PA2*2769*166140*210*12600*0*0*0*0'
    }, {
        'object': '222222',
        'line1': 'DXS*HAWA776A0A*VA*V0/6*1',
        'line2': 'ST*001*0001',
        'line3': 'ID1*HAW250755*VMI1-9900****250755*6*0',
        'line4': 'CB1*021545*DeBright*7.030.16*3.02*250755',
        'line5': 'PA1*0*100',
        'line6': 'PA1*1*60',
        'line7': 'PA2*2769*166140*210*12600*0*0*0*0'
    }
]

但我建议使用更紧凑的输出格式：

import re

with open('file.txt', 'r') as f:
    lines = f.readlines()
    lines = [x.strip() for x in lines]

result = {}
name = ''
for line in lines:
    if 'A MANO' in line:
        name = re.findall('A MANO:(\d+)', line)[0]
        result[name] = []
    elif 'E MANO' not in line:
        result[name].append(line)

输出：

{
    '111111': ['DXS*HAWA776A0A*VA*V0/6*1', 'ST*001*0001', 'ID1*HAW250755*VMI1-9900****250755*6*0', 'CB1*021545*DeBright*7.030.16*3.02*250755', 'PA1*0*100', 'PA1*1*60', 'PA2*2769*166140*210*12600*0*0*0*0'],
    '222222': ['DXS*HAWA776A0A*VA*V0/6*1', 'ST*001*0001', 'ID1*HAW250755*VMI1-9900****250755*6*0', 'CB1*021545*DeBright*7.030.16*3.02*250755', 'PA1*0*100', 'PA1*1*60', 'PA2*2769*166140*210*12600*0*0*0*0']
}

将结构化（机器结构）文本文件（配置文件）解析为结构化 table 格式

parse a structured (structure of machine) text-file (config-file) into a structured table format

python

algorithm

parsing

text

config