我利用了亚马逊的 AWS 产品,如果我想得对,请从高层次解释这一点。
所以我的本地机器上几乎没有 Python 抓取脚本。我想使用 AWS 实现超快速的互联网连接和更便宜的价格 - 赢/赢!
我知道我可以在 EC2 上部署 centOS/Ubuntu 实例。安装必要的 Python 库。使用 boto (Python) 启动和停止实例以节省成本。到目前为止我的想法正确吗?(可行吗?)
我将 CRON 一些脚本,这些脚本将开始获取(抓取)HTML 文件以供稍后解析。所以这些 HTML 文件被复制到 S3 进行存储(或者我应该将它们转储到我的本地机器,因为这是我将在 MySQL 中解析和存储的方式?)。
请告知我的假设和我对 AWS 的几小时阅读/谷歌搜索的了解是否有意义。