从word文档中提取表格
Extracting tables from a word doc
是否有任何工具可以使用 python 或 vba
从 word 文档中提取所有表格并将它们转换为 csv 文件或任何 excel 扩展文件
请注意,word 文件包含文本和表格。
您可以将 pandas
与 python-docx
. Per 答案一起使用 您可以从文档中提取所有表格并将它们放入列表中:
from docx import Document
import pandas as pd
document = Document('test.docx')
tables = []
for table in document.tables:
df = [['' for i in range(len(table.columns))] for j in range(len(table.rows))]
for i, row in enumerate(table.rows):
for j, cell in enumerate(row.cells):
if cell.text:
df[i][j] = cell.text
tables.append(pd.DataFrame(df))
然后您可以通过遍历列表将表格保存到 csv 文件:
for nr, i in enumerate(tables):
i.to_csv("table_" + str(nr) + ".csv")
是否有任何工具可以使用 python 或 vba
从 word 文档中提取所有表格并将它们转换为 csv 文件或任何 excel 扩展文件请注意,word 文件包含文本和表格。
您可以将 pandas
与 python-docx
. Per
from docx import Document
import pandas as pd
document = Document('test.docx')
tables = []
for table in document.tables:
df = [['' for i in range(len(table.columns))] for j in range(len(table.rows))]
for i, row in enumerate(table.rows):
for j, cell in enumerate(row.cells):
if cell.text:
df[i][j] = cell.text
tables.append(pd.DataFrame(df))
然后您可以通过遍历列表将表格保存到 csv 文件:
for nr, i in enumerate(tables):
i.to_csv("table_" + str(nr) + ".csv")