lan*_*ana 10 java search-engine
我正在尝试创建一个搜索引擎,以便学习并获得更多Java经验.
我的目的是在服务器上存储大约100个文件,混合使用html,xml,doc,txt,并为每个文件提供元数据.
因此,当我搜索关键字时,它应该显示一个文件,其元描述类似于Google.
我的问题是,除了html之外,您可以将元数据添加到任何其他文件格式,以便显示元描述.
您是否能够指向我的Java搜索引擎,它可以在文件格式(txt,html)中搜索并显示结果.
我正在为自己的代码工作,但是想看看其他人的代码以获得一些帮助吗?
Dav*_*ton 26
Lucene是规范的Java搜索引擎.
要从各种来源添加文档,请查看Apache Tika以及带有服务/ Web界面的完整系统solr.
Lucene允许任意元数据与其文档相关联.Tika将自动从各种格式中剔除元数据.
1)我的问题是除了HTML之外你可以将元数据添加到任何其他文件格式,以便显示元描述.
通常,您将使用数据库并将元数据与文档一起存储.然后,您将使用数据库查询(可能使用SQL或ilike)进行关键字搜索.
这些文件可以存储在硬盘驱动器上,只有DB中的路径,也可以作为CLOB或BLOB放入数据库,具体取决于您是否有文本或二进制文档.
2)您是否可以指向Java搜索引擎,它可以在文件格式(txt,html)中搜索并显示结果.