pet*_*ter 10
gem docx使用起来非常简单
require 'docx'
puts Docx::Document.open('test.docx')
Run Code Online (Sandbox Code Playgroud)
要么
d = Docx::Document.open('test.docx')
d.each_paragraph do |p|
puts p
end
Run Code Online (Sandbox Code Playgroud)
你可以在https://github.com/chrahunt/docx找到并安装它gem install docx
但是docx不支持.doc文件(单词2007及更早版本),那么你可以像这样使用WIN32OLE:
require 'win32ole'
begin
word = WIN32OLE.connect('Word.Application')
doc = word.ActiveDocument
rescue
word = WIN32OLE.new('word.application')
path_open = 'C:\Users\...\test.doc' #yes: backslashes in windows
doc = word.Documents.Open(path_open)
end
word.visible = true
doc.Sentences.each { |x| puts x.text }
Run Code Online (Sandbox Code Playgroud)
在 Ruby 中你可以做类似的事情:
thedoc = `externalProgram some_file`
Run Code Online (Sandbox Code Playgroud)
所以你需要的是一个好的外部程序。
您可以查看软件库wv或(显然最近没有更新)程序反词。我想还有其他人。 OpenOffice可以读取文档文件并导出文本文件,因此通过 CLI 驱动 OO 可能也可以工作。