当我参加一个关于网络挖掘的访谈时,我问到了一个有趣的问题.问题是,是否可以使用Apache Spark抓取网站?
我猜这有可能,因为它支持Spark的分布式处理能力.在采访之后我搜索了这个,但找不到任何有趣的答案.这可能与Spark有关吗?
web-crawler web apache-spark
apache-spark ×1
web ×1
web-crawler ×1