我正在尝试使用单个输入来抓取某个网站。现在我已经用 Scrapy 构建了它,在进行所有调整(包括不遵守 robots.txt)之后,它工作得很好,并且它自动循环运行以进行数据挖掘。
现在我需要制作一些可以通过输入抓取单个页面的东西
问题是,我能够访问的唯一页面是 robots.txt 页面,并且我无法在网上找到任何有关 robots.txt 的信息。
有没有关于如何使用 BS 或 Requests 进行操作的教程?
使用 Python(通过 cmd)并在其中写入以下内容时:
>>> import random
>>> print("hello"),print("world"),print(random.randint(5,10))
Run Code Online (Sandbox Code Playgroud)
我得到的输出是:
hello
world
8
(None, None, None)
Run Code Online (Sandbox Code Playgroud)
现在我不确定为什么解释器返回 的None元组,而不是单个None。
我正在通过 docker compose 创建一个图像,但由于某种原因,名称被翻了一番?
一切都很好,没有问题,但图像名称看起来像“poc_tool_poc_tool” 如何更改名称?或添加版本控制?
码头工人:
c70753c4553e poc_tool_poc_tool "streamlit run --ser…" 17 minutes ago Up 11 minutes 0.0.0.0:8889->8889/tcp poc_tool_poc_tool_1
Run Code Online (Sandbox Code Playgroud)
该项目构建如下:
- poc_tool
- app1
- app2
- app3
- docker-compose.yml
- Dockerfile
Run Code Online (Sandbox Code Playgroud)
Dockerfile:
FROM python:3.8-slim-buster AS build
COPY app3 /app
COPY app1/src /app/src
COPY app2 /app/app2
WORKDIR /app
RUN pip install -r requirements.txt
EXPOSE 8889
ENTRYPOINT ["streamlit","run","--server.port","8889"]
CMD ["app.py"]
Run Code Online (Sandbox Code Playgroud)
码头工人组成:
version: "3"
services:
poc_tool:
build: .
volumes:
...
ports:
- "8889:8889"
Run Code Online (Sandbox Code Playgroud)