hoj*_*oju 3 database filesystems web-crawler
我想抓取一个网站并将内容存储在我的计算机上以供以后分析。然而,我的操作系统文件系统对子目录的数量有限制,这意味着存储原始文件夹结构不起作用。
建议?
将 URL 映射到某个文件名以便可以平面存储?或者只是将其放入 SQLite 等数据库中以避免文件系统限制?
这完全取决于您打算抓取的文本和/或网页的有效数量。通用的解决方案可能是
这种方法的优点是 DBMS 仍然很小,但可用于 SQL 驱动的查询(临时或编程性质)以根据各种条件进行搜索。在 SQL 服务器本身内存储许多/大文件通常没有什么好处(而且很令人头疼)。此外,在处理/分析每个页面时,可以将附加元数据(例如标题、语言、最重复的 5 个单词等)添加到数据库中。