如何使用Python脚本批量将HTML转为Markdown

How to Use Python Script to Convert HTML to Markdown in Batch

我正在尝试将目录下的所有 .html 文件转换为 Markdown。经过一番谷歌搜索后,我发现了一个名为 html2text.

的 Pypi 脚本

然后我写了一个代码块,一次可以将一个.html转换成.md。

import html2text as ht
import os
import sys

from pathlib import Path

text_maker = ht.HTML2Text()

with open('myHtmlFilePath.html','r',encoding='UTF-8') as f:
    htmlpage = f.read()

text = text_maker.handle(htmlpage)

with open('myMarkdownFileName.md','w') as f:
    f.write(text)

有没有可能我可以将此代码块包装在一个循环中,以便它可以将任何文件扩展名为 .html 的文件转换为给定目录下的 .md?

如果你使用linux你可以使用查找命令

linux

import os

dir = "."

for file in os.popen("find " + dir).read().splitlines():
    if file.endswith(".html"):
        print(file)

windows

import os

dir = "."

for i in os.walk(dir):
    for i2 in i[2]:
        if i2.endswith(".html"):
            print(i[0] + "/" + i2)