小编Sla*_*ugz的帖子

请求/BeautifulSoup VS robots.txt

我正在尝试使用单个输入来抓取某个网站。现在我已经用 Scrapy 构建了它，在进行所有调整（包括不遵守 robots.txt）之后，它工作得很好，并且它自动循环运行以进行数据挖掘。

现在我需要制作一些可以通过输入抓取单个页面的东西

问题是，我能够访问的唯一页面是 robots.txt 页面，并且我无法在网上找到任何有关 robots.txt 的信息。

有没有关于如何使用 BS 或 Requests 进行操作的教程？

python beautifulsoup scrapy web-scraping python-requests

Sla*_*ugz

lucky-day

2
推荐指数

1
解决办法

3257
查看次数

为什么我在 Python 控制台中得到 None 元组的打印，而不是单个 None 的打印？

使用 Python（通过 cmd）并在其中写入以下内容时：

>>> import random
>>> print("hello"),print("world"),print(random.randint(5,10))

Run Code Online (Sandbox Code Playgroud)

我得到的输出是：

hello
world
8
(None, None, None)

Run Code Online (Sandbox Code Playgroud)

现在我不确定为什么解释器返回的None元组，而不是单个None。

python python-3.x read-eval-print-loop nonetype

Sla*_*ugz

2022 07-05

2
推荐指数

1
解决办法

130
查看次数

码头工人更改图像名称？

我正在通过 docker compose 创建一个图像，但由于某种原因，名称被翻了一番？

一切都很好，没有问题，但图像名称看起来像“poc_tool_poc_tool” 如何更改名称？或添加版本控制？

码头工人：

c70753c4553e   poc_tool_poc_tool   "streamlit run --ser…"   17 minutes ago   Up 11 minutes   0.0.0.0:8889->8889/tcp   poc_tool_poc_tool_1

Run Code Online (Sandbox Code Playgroud)

该项目构建如下：

- poc_tool
   - app1
   - app2
   - app3
   - docker-compose.yml
   - Dockerfile

Run Code Online (Sandbox Code Playgroud)

Dockerfile：

FROM python:3.8-slim-buster AS build
COPY app3 /app
COPY app1/src /app/src
COPY app2 /app/app2
WORKDIR /app
RUN pip install -r requirements.txt
EXPOSE 8889
ENTRYPOINT ["streamlit","run","--server.port","8889"]
CMD ["app.py"]

Run Code Online (Sandbox Code Playgroud)

码头工人组成：

version: "3"
services:
  poc_tool:
    build: .
    volumes:
      ...
    ports:
      - "8889:8889"

Run Code Online (Sandbox Code Playgroud)

docker dockerfile docker-compose

Sla*_*ugz

lucky-day

1
推荐指数

1
解决办法

40
查看次数

标签统计

python ×2

beautifulsoup ×1

docker ×1

docker-compose ×1

dockerfile ×1

nonetype ×1

python-3.x ×1

python-requests ×1

read-eval-print-loop ×1

scrapy ×1

web-scraping ×1

请求/BeautifulSoup VS robots.txt

为什么我在 Python 控制台中得到 None 元组的打印，而不是单个 None 的打印？

码头工人更改图像名称？

标签 统计

小编Sla_ugz的帖子

标签统计