非常快速地读取doc文件c#

Question

我想从 .doc 文件中提取文本，我使用此代码

Microsoft.Office.Interop.Word.Application word = new  Microsoft.Office.Interop.Word.Application();
object miss = System.Reflection.Missing.Value;
object path = FileToSave_path + FileNameToSave + ".doc";
object readOnly = true;
Microsoft.Office.Interop.Word.Document docs = word.Documents.Open(ref path, ref miss, ref readOnly, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss, ref miss);
string totaltext = "";
for (int p = 0; p < docs.Paragraphs.Count; p++)
{
    ExtractedHTML += " \r\n " + docs.Paragraphs[p + 1].Range.Text.ToString();
}

docs.Close();
word.Quit();

问题是这段代码很慢，我有很多包含很多段落的.doc文件任何其他快速提取 .doc 的方法？

Answer 1

它太慢了，因为你每次都需要 'start' Word（这发生在水下，但它仍然需要执行一些启动例程）。因此，如果您只关闭文档而不关闭 Word 本身（使用 word.Quit();）。

您还可以查看无需 Word 即可打开 .doc 文件的第三方库。对于 .docx 文件，您可以使用微软自己的 OpenXML SDK.

非常快速地读取doc文件c#

read doc file very fast c#

c#

ms-word