使用 pandas.read_csv 分隔列
Separating columns using pandas.read_csv
我正在尝试将更大的 .txt
文件中的一个 table 读入 python。
数据摘录为:
2 Network magnitudes:
MLv 2.05 +/- 1.34 7
M 2.05 7 preferred
7 Phase arrivals:
sta net dist azi phase time res wt sta
BMOR EC 0.0 226 P 00:22:31.385 -0.6 M 1.0 BMOR
BREF EC 0.0 347 P 00:22:31.543 -0.5 M 1.0 BREF
BTAM EC 0.0 58 P 00:22:31.796 -0.3 M 1.0 BTAM
BVC2 EC 0.0 26 P 00:22:33.061 0.8 M 1.0 BVC2
BNAS EC 0.1 294 P 00:22:32.871 -0.1 M 1.0 BNAS
SUCR EC 0.1 314 P 00:22:34.610 0.6 M 1.0 SUCR
BRRN EC 0.1 207 P 00:22:34.768 0.4 M 1.0 BRRN
7 Station magnitudes:
sta net dist azi type value res amp per
BMOR EC 0.0 226 MLv 1.48 -0.57 1.20076
我只想要相位到达 table 所以 np.loadtext
和 np.genfromtxt
由于各种原因都达不到要求(无法处理数字和字符串/包含 bug 除非你只指定一个 space (' ') 分隔符,我这里不能这样做)
我一直在尝试使用 pandas.read_csv
函数,但它无法识别分隔符
a = pd.read_csv(datafileloc, sep='\+s', skiprows=5, skipfooter=3)
产生:
a
Out[90]:
sta net dist azi phase time res wt sta
0 BMOR EC 0.0 226 P 00:22:31.385 -0....
1 BREF EC 0.0 347 P 00:22:31.543 -0....
2 BTAM EC 0.0 58 P 00:22:31.796 -0....
3 BVC2 EC 0.0 26 P 00:22:33.061 0....
4 BNAS EC 0.1 294 P 00:22:32.871 -0....
5 SUCR EC 0.1 314 P 00:22:34.610 0....
6 BRRN EC 0.1 207 P 00:22:34.768 0....
这看起来不错,除了它们都是一个字符串而且它没有注意白色的 space 分隔符:
a.values
Out[89]:
array([['BMOR EC 0.0 226 P 00:22:31.385 -0.6 M 1.0 BMOR'],
['BREF EC 0.0 347 P 00:22:31.543 -0.5 M 1.0 BREF'],
['BTAM EC 0.0 58 P 00:22:31.796 -0.3 M 1.0 BTAM'],
['BVC2 EC 0.0 26 P 00:22:33.061 0.8 M 1.0 BVC2'],
['BNAS EC 0.1 294 P 00:22:32.871 -0.1 M 1.0 BNAS'],
['SUCR EC 0.1 314 P 00:22:34.610 0.6 M 1.0 SUCR'],
['BRRN EC 0.1 207 P 00:22:34.768 0.4 M 1.0 BRRN']], dtype=object)
行可以用 list(a.values[0])[0].split()
分隔,但这需要重新组织以获取单独的列。我想让 pandas.read_csv
认识到它们是分开的,这样我就可以提取单独的列(一旦我扩大规模,合理高效将很重要)
我哪里错了?
正如DSM所指出的,是分隔符的错别字:
\s+
,不是\+s
来自 the documentation 中 delim_whitespace
参数标题下的拼写错误。
我正在尝试将更大的 .txt
文件中的一个 table 读入 python。
数据摘录为:
2 Network magnitudes:
MLv 2.05 +/- 1.34 7
M 2.05 7 preferred
7 Phase arrivals:
sta net dist azi phase time res wt sta
BMOR EC 0.0 226 P 00:22:31.385 -0.6 M 1.0 BMOR
BREF EC 0.0 347 P 00:22:31.543 -0.5 M 1.0 BREF
BTAM EC 0.0 58 P 00:22:31.796 -0.3 M 1.0 BTAM
BVC2 EC 0.0 26 P 00:22:33.061 0.8 M 1.0 BVC2
BNAS EC 0.1 294 P 00:22:32.871 -0.1 M 1.0 BNAS
SUCR EC 0.1 314 P 00:22:34.610 0.6 M 1.0 SUCR
BRRN EC 0.1 207 P 00:22:34.768 0.4 M 1.0 BRRN
7 Station magnitudes:
sta net dist azi type value res amp per
BMOR EC 0.0 226 MLv 1.48 -0.57 1.20076
我只想要相位到达 table 所以 np.loadtext
和 np.genfromtxt
由于各种原因都达不到要求(无法处理数字和字符串/包含 bug 除非你只指定一个 space (' ') 分隔符,我这里不能这样做)
我一直在尝试使用 pandas.read_csv
函数,但它无法识别分隔符
a = pd.read_csv(datafileloc, sep='\+s', skiprows=5, skipfooter=3)
产生:
a
Out[90]:
sta net dist azi phase time res wt sta
0 BMOR EC 0.0 226 P 00:22:31.385 -0....
1 BREF EC 0.0 347 P 00:22:31.543 -0....
2 BTAM EC 0.0 58 P 00:22:31.796 -0....
3 BVC2 EC 0.0 26 P 00:22:33.061 0....
4 BNAS EC 0.1 294 P 00:22:32.871 -0....
5 SUCR EC 0.1 314 P 00:22:34.610 0....
6 BRRN EC 0.1 207 P 00:22:34.768 0....
这看起来不错,除了它们都是一个字符串而且它没有注意白色的 space 分隔符:
a.values
Out[89]:
array([['BMOR EC 0.0 226 P 00:22:31.385 -0.6 M 1.0 BMOR'],
['BREF EC 0.0 347 P 00:22:31.543 -0.5 M 1.0 BREF'],
['BTAM EC 0.0 58 P 00:22:31.796 -0.3 M 1.0 BTAM'],
['BVC2 EC 0.0 26 P 00:22:33.061 0.8 M 1.0 BVC2'],
['BNAS EC 0.1 294 P 00:22:32.871 -0.1 M 1.0 BNAS'],
['SUCR EC 0.1 314 P 00:22:34.610 0.6 M 1.0 SUCR'],
['BRRN EC 0.1 207 P 00:22:34.768 0.4 M 1.0 BRRN']], dtype=object)
行可以用 list(a.values[0])[0].split()
分隔,但这需要重新组织以获取单独的列。我想让 pandas.read_csv
认识到它们是分开的,这样我就可以提取单独的列(一旦我扩大规模,合理高效将很重要)
我哪里错了?
正如DSM所指出的,是分隔符的错别字:
\s+
,不是\+s
来自 the documentation 中 delim_whitespace
参数标题下的拼写错误。