使用 python 解析多列字符串

Question

我正在尝试从名为 NWChem 的化学信息学程序的文本输出中提取数据，我已经在此处提取了我感兴趣的输出部分（振动模式）是我提取的 string:

s = '''                   1           2           3           4           5           6

 P.Frequency       -0.00        0.00        0.00        0.00        0.00        0.00

           1    -0.23581     0.00000     0.00000     0.00000     0.01800    -0.04639
           2     0.00000     0.25004     0.00000     0.00000     0.00000     0.00000
           3    -0.00000     0.00000     0.00000     0.00000    -0.21968    -0.08522
           4    -0.23425     0.00000     0.00000     0.00000    -0.14541     0.37483
           5     0.00000     0.00000     0.99611     0.00000     0.00000     0.00000
           6     0.00192     0.00000     0.00000     0.00000    -0.42262     0.43789
           7    -0.23425     0.00000     0.00000     0.00000    -0.14541     0.37483
           8     0.00000     0.00000     0.00000     0.99611     0.00000     0.00000
           9    -0.00193     0.00000     0.00000     0.00000    -0.01674    -0.60834

                    7           8           9

 P.Frequency     1583.30     3661.06     3772.30

           1    -0.00000    -0.00000     0.06664
           2     0.00000     0.00000     0.00000
           3    -0.06754     0.04934     0.00000
           4     0.41551     0.56874    -0.52878
           5     0.00000     0.00000     0.00000
           6     0.53597    -0.39157     0.42577
           7    -0.41551    -0.56874    -0.52878
           8     0.00000     0.00000     0.00000
           9     0.53597    -0.39157    -0.42577'''

首先，我使用正则表达式拆分行上的数据。

import re
p = re.compile('\n + +(?=[\d| ]+\n\n P.Frequency +)')
d = re.split(p, s)
print(d[0])

                   1           2           3           4           5           6

 P.Frequency       -0.00        0.00        0.00        0.00        0.00        0.00

           1    -0.23581     0.00000     0.00000     0.00000     0.01800    -0.04639
           2     0.00000     0.25004     0.00000     0.00000     0.00000     0.00000
           3    -0.00000     0.00000     0.00000     0.00000    -0.21968    -0.08522
           4    -0.23425     0.00000     0.00000     0.00000    -0.14541     0.37483
           5     0.00000     0.00000     0.99611     0.00000     0.00000     0.00000
           6     0.00192     0.00000     0.00000     0.00000    -0.42262     0.43789
           7    -0.23425     0.00000     0.00000     0.00000    -0.14541     0.37483
           8     0.00000     0.00000     0.00000     0.99611     0.00000     0.00000
           9    -0.00193     0.00000     0.00000     0.00000    -0.01674    -0.60834

但是我无法弄清楚如何提取垂直呈现的振动模式。我想轻松访问数组数组或 numpy 数组中的每个振动模式。像这样：

[[-0.00, -0.23581, 0.0000, ..., -0.00193],
 [0.00, 0.00000, ..., 0.00000],
  ...
 [3772.30, 0.06664, ..., 0.0000, --0.42577]]

Answer 1

通过 2 np.genfromtxt 读取，我可以将您的数据文件加载到 2 个数组中，并将它们连接成一个 9x9 数组：

In [134]: rows1 = np.genfromtxt('stack30874236.txt',names=None,skip_header=4,skip_footer=10)

In [135]: rows2 =np.genfromtxt('stack30874236.txt',names=None,skip_header=17)

In [137]: rows=np.concatenate([rows1[:,1:],rows2[:,1:]],axis=1)

In [138]: rows
Out[138]: 
array([[-0.23581,  0.     ,  0.     ,  0.     ,  0.018  , -0.04639, -0.     , -0.     ,  0.06664],
       [ 0.     ,  0.25004,  0.     ,  0.     ,  0.     ,  0.     , 0.     ,  0.     ,  0.     ],
       ...
       [-0.00193,  0.     ,  0.     ,  0.     , -0.01674, -0.60834, 0.53597, -0.39157, -0.42577]])

In [139]: rows.T
Out[139]: 
array([[-0.23581,  0.     , -0.     , -0.23425,  0.     ,  0.00192,  -0.23425,  0.     , -0.00193],
       [ 0.     ,  0.25004,  0.     ,  0.     ,  0.     ,  0.     ,
       ...
       [ 0.06664,  0.     ,  0.     , -0.52878,  0.     ,  0.42577, -0.52878,  0.     , -0.42577]])

我必须选择跳过 header/footer 值以适合数据文件。用代码推导它们需要更多的工作。

Answer 2

由于 hpaulj suggested, the numpy function genfromtxt，解析此类字符串非常方便，但是由于我正在使用 python3，我需要将我的字符串转换为字节流以将其传递给此函数。

下面是实现该技巧的代码：

import numpy as np
from io import BytesIO
i = 0
for row in d:
    values = np.genfromtxt(BytesIO(row.encode(encoding='UTF-8')), skip_header=1).transpose()[1:]
    if i == 0:
        data = values
    else:
        data = np.concatenate((data, values))
    i += 1

使用 python 解析多列字符串

Parse multicolumn string using python

python

regex

numpy

cheminformatics