Ans*_*shi -4 python format file
f = open('file.txt')
print f.read()
Run Code Online (Sandbox Code Playgroud)
那是非常直接的不是吗?这是有效的,因为python知道如何读写.txt文件.这些格式如何运作?我希望构建一个python程序来阅读至少主要格式的文档(包括pdf),电子表格和演示文稿.
现在请不要告诉我,"继续使用PDFMiner!"; "使用IronPython进行阅读.doc!"
我想了解自己,格式魔术是如何发生的.我想知道格式是如何工作的,这样我就可以构建自己的"任何格式阅读器".我不想要解决方案来阅读各种格式.我想知道它背后的理论.
任何指向此类资源的链接或有关阅读多种格式的帮助都非常感谢.
-谢谢
不,你完全误解了你的代码在做什么.Python不"知道"如何读取.txt文件,因为这里没有"格式".它只是打开一个普通文件并打印出它在那里找到的字节.
像PDF或DOC这样的东西是完全不同的.字节本身并不意味着什么:它们是相关应用程序理解的文件格式的表示.为了以理解它们包含的内容的方式"读取"它们,您需要构建一个与原始应用程序完全相同的解析器.这就是你所引用的那些库(尽管IronPython是.NET中的Python实现,与读取doc文件无关).
| 归档时间: |
|
| 查看次数: |
117 次 |
| 最近记录: |