注意:如果您投反对票,至少请分享原因。我花了很多精力来写这个问题,首先分享了我的代码并做了我自己的研究,所以不确定我还可以添加什么。
我已经使用Scrapy成功抓取网站。我使用 CSS 选择器从网页中提取特定数据。然而,设置起来非常耗时并且容易出错。我希望能够将原始 HTML 传递给 chatGPT 并提出如下问题
“以 JSON 对象格式提供该对象的价格、照片数组、描述、主要功能、街道地址和邮政编码”
下面是所需的输出。为了便于阅读,我截断了描述、主要功能和照片。
{
"price":"$945,000",
"photos":"https://media-cloud.corcoranlabs.com/filters:format(webp)/fit-in/1500x1500/ListingFullAPI/NewTaxi/7625191/mediarouting.vestahub.com/Media/134542874?w=3840&q=75;https://media-cloud.corcoranlabs.com/filters:format(webp)/fit-in/1500x1500/ListingFullAPI/NewTaxi/7625191/mediarouting.vestahub.com/Media/134542875?w=3840&q=75;https://media-cloud.corcoranlabs.com/filters:format(webp)/fit-in/1500x1500/ListingFullAPI/NewTaxi/7625191/mediarouting.vestahub.com/Media/134542876?w=3840&q=75",
"description":"<div>This spacious 2 bedroom 1 bath home easily converts to 3 bedrooms. Featuring a BRIGHT and quiet southern exposure, the expansive great room (with 9ft ceilings) is what sets (...)",
"key features":"Center island;Central air;Dining in living room;Dishwasher",
"street address":"170 West 89th Street, 2D",
"zipcode":"NY 10024",
}
Run Code Online (Sandbox Code Playgroud)
现在我遇到的最大聊天长度为 4096 个字符。所以我决定分块发送页面。然而,即使有一个简单的问题,例如“这个物品的价格是多少?” 我预计答案是“945,000 美元”,但我只收到一大堆文字。我想知道我做错了什么。我听说 AutoGPT 提供了新的灵活性,所以我也想知道这是否可以作为一个解决方案。
我的代码:
import requests
from bs4 import BeautifulSoup, Comment
import openai
import json …Run Code Online (Sandbox Code Playgroud)