如何将 MS Word 文档中的文本解析为字符串

mat*_*nik 4 c# parsing text ms-word

我正在尝试找到一种方法将 word 文档的文本解析为项目中的字符串。我有超过 600 个 word(.doc) 文件,我需要它们来获取文本内容(如果可能的话,使用新行和选项卡)并且为每一个将其分配给一个字符串。

我一直在阅读有关 Open XML SDK 的内容,但对于看起来如此简单的东西来说,它看起来相当复杂。

Vad*_*dim 5

Open XML SDK 仅适用于 2007 及更新的格式,并且使用起来并不简单。

如果性能不是问题,您可以使用 Word Automation,并让 Word 为您执行此操作。它看起来像这样:

var app = new Application();
var doc = app.Documents.Open(documentLocation);

string rangeText = doc.Range().Text;

doc.Save();
doc.Close();

Marshal.ReleaseComObject(doc);    
Marshal.ReleaseComObject(app);
Run Code Online (Sandbox Code Playgroud)

请参阅http://www.codeproject.com/Articles/18703/Word-2007-Automationhttp://www.codeproject.com/Articles/21247/Word-Automation了解更完整的示例和说明。请注意,如果您的文档非常复杂(脚注、文本框、表格...),这可能会变得更加棘手。

另一种选择是让 word 将文档保存为文本,然后读取文本文件。看看这个 - http://msdn.microsoft.com/en-us/library/microsoft.office.tools.word.document.saveas(v=vs.80).aspx