我有一个包含大量链接的网页.我想编写一个脚本,将脚本中包含的所有数据转储到本地文件中.
有人用PHP做过吗?一般准则和陷阱就足以作为答案.
php web-crawler
我们已经删除了数千页的报纸文章.每页的报纸,问题,日期,页码和OCR文本都已放入mySQL数据库.
我们现在想要在PHP中构建类似Google的搜索引擎,以查找给定查询的页面.它必须快速,并且任何搜索都不会超过一秒钟.
我们该怎么做?
php mysql search-engine
搜索引擎机器人用什么作为起点?是DNS查询还是从一些知名网站的固定列表开始?任何猜测或建议?
search-engine
php ×2
search-engine ×2
mysql ×1
web-crawler ×1