Ces*_*sar 16
查看Web Harvest.它既是一个可以使用的库,也是一个数据提取工具,听起来就是你想要做的.您可以创建XML脚本文件,以指示scraper如何从中提取所需的信息.提供的GUI对于快速测试脚本非常有用.
查看项目的样本页面,看看它是否适合您要做的事情.
Apache Tika是最好的选择.Apache最近从现有项目中提取了许多子项目并将其公之于众.Tika是以前是Apache Lucene组件的其中之一.由于Apache的支持和声誉以及广泛使用的父项目Lucene,它必定是一个非常好的选择.此外,它是开源的.
Apache Tika网站简介:
Apache Tika™工具包使用现有的解析器库检测和提取各种文档中的元数据和结构化文本内容.
支持的格式是:
Run Code Online (Sandbox Code Playgroud)HyperText Markup Language XML and derived formats Microsoft Office document formats OpenDocument Format Portable Document Format Electronic Publication Format Rich Text Format Compression and packaging formats Text formats Audio formats Image formats Video formats Java class files and archives The mbox format
| 归档时间: |
|
| 查看次数: |
24698 次 |
| 最近记录: |