小编Sla*_*ugz的帖子

请求/BeautifulSoup VS robots.txt

我正在尝试使用单个输入来抓取某个网站。现在我已经用 Scrapy 构建了它,在进行所有调整(包括不遵守 robots.txt)之后,它工作得很好,并且它自动循环运行以进行数据挖掘。

现在我需要制作一些可以通过输入抓取单个页面的东西

问题是,我能够访问的唯一页面是 robots.txt 页面,并且我无法在网上找到任何有关 robots.txt 的信息。

有没有关于如何使用 BS 或 Requests 进行操作的教程?

python beautifulsoup scrapy web-scraping python-requests

2
推荐指数
1
解决办法
3257
查看次数

为什么我在 Python 控制台中得到 None 元组的打印,而不是单个 None 的打印?

使用 Python(通过 cmd)并在其中写入以下内容时:

>>> import random
>>> print("hello"),print("world"),print(random.randint(5,10))
Run Code Online (Sandbox Code Playgroud)

我得到的输出是:

hello
world
8
(None, None, None)
Run Code Online (Sandbox Code Playgroud)

现在我不确定为什么解释器返回 的None元组,而不是单个None

python python-3.x read-eval-print-loop nonetype

2
推荐指数
1
解决办法
130
查看次数

码头工人更改图像名称?

我正在通过 docker compose 创建一个图像,但由于某种原因,名称被翻了一番?

一切都很好,没有问题,但图像名称看起来像“poc_tool_poc_tool” 如何更改名称?或添加版本控制?

码头工人:

c70753c4553e   poc_tool_poc_tool   "streamlit run --ser…"   17 minutes ago   Up 11 minutes   0.0.0.0:8889->8889/tcp   poc_tool_poc_tool_1
Run Code Online (Sandbox Code Playgroud)

该项目构建如下:

- poc_tool
   - app1
   - app2
   - app3
   - docker-compose.yml
   - Dockerfile
Run Code Online (Sandbox Code Playgroud)

Dockerfile:

FROM python:3.8-slim-buster AS build
COPY app3 /app
COPY app1/src /app/src
COPY app2 /app/app2
WORKDIR /app
RUN pip install -r requirements.txt
EXPOSE 8889
ENTRYPOINT ["streamlit","run","--server.port","8889"]
CMD ["app.py"]
Run Code Online (Sandbox Code Playgroud)

码头工人组成:

version: "3"
services:
  poc_tool:
    build: .
    volumes:
      ...
    ports:
      - "8889:8889"
Run Code Online (Sandbox Code Playgroud)

docker dockerfile docker-compose

1
推荐指数
1
解决办法
40
查看次数