标签: duckduckgo

自动授予跟踪器“https://duckduckgo.com”的存储访问权限

我希望我没有错过什么地方,但我无法理解我正在做的事情到底发生了什么。

我正在编写一个 web 应用程序,在我的应用程序中,我以编程方式打开一个新页面来搜索duckduckgo 中的内容。我正在使用以下代码window.open("https://duckduckgo.com/?q=something"),这对我有好处。

这一切正常,但我注意到当执行此代码时,在我的控制台中,记录了以下内容:

自动授予跟踪器“ https://duckduckgo.com ”在“ http://localhost:8000 ”上的存储访问权限。

我想知道这是什么意思。
我知道这可能与duckduckgo 本身无关,也许只是因为它们足够好,可以实际记录某些内容并保持透明。

使用时与外部网站确切共享哪些信息window.open?“授予对跟踪器的访问权限”是什么意思?我的控制台中的这个日志来自哪里?外部站点实际上可以在我当前的页面中执行一些 javascript 代码吗?这对我来说似乎很奇怪,而且对隐私来说听起来是灾难性的。

javascript privacy tracker duckduckgo

6
推荐指数
1
解决办法
1713
查看次数

阻止来自搜索引擎的网站 - DuckDuckGo

我有一个开发网站https://text-domain.com.(不是真实的网站)当我访问https://duckduckgo.com并搜索text-domain.com时,它会返回结果.

到目前为止我尝试了什么:

robots.txt使用以下代码创建文件(放在我的根目录中,即在text-domain.com/robots.txt中):

User-agent: *
Disallow: /
Run Code Online (Sandbox Code Playgroud)

然后在我的模板文件中添加了这样的元标记:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Run Code Online (Sandbox Code Playgroud)

即便在这样做之后,我搜索了DuckDuckGo并得出了相同的结果.欢迎大家提出意见.

PS

嗨,等了几天后有2个发现:

  • 仍然,搜索结果被提取.
  • 但是我看到一条消息说:"我们想在这里向您展示一个描述,但该网站不允许我们."

    是否有可能完全阻止在结果中显示?

robots.txt robot web-crawler duckduckgo

4
推荐指数
2
解决办法
1万
查看次数

如何使用http url显示更多来自Duckduckgo/Bing的图像?

DuckduckGo/Bing上的默认图像搜索返回35张图像.

例如https://duckduckgo.com/?q=Temple+of+the+Golden+Pavilion&iax=1&ia=images

Bing的相同内容,请参阅http://www.bing.com/images/search?q=Temple%20of%20the%20Golden%20Pavilion

有没有办法让它使用http网址返回更多图像?

或者,如果不可能,有没有办法通过http网址转到接下来的35张图片?


我检查了他们的语法页面,但没有关于图像搜索的信息:https://duckduckgo.com/params

我也试过&count=1000但它仍然返回35张图片:https://www.bing.com/images/search?q = times + square&count = 100

url search-engine image bing duckduckgo

4
推荐指数
1
解决办法
7381
查看次数

如何用Python从DuckDuckGo的图像搜索结果中抓取图像

我正在使用 python 创建一个应用程序,它将显示从 DuckDuckGo 的图像搜索结果中抓取的图像。所以我需要根据搜索获取图像的链接列表。问题在于,构成 DuckDuckGo 图像搜索结果的 HTML 不包含任何图像标签,而是图像似乎存储在分区标签中。我如何在 python 的帮助下抓取那些该死的图像链接并将它们存储在我的程序的变量中?

我希望我的变量看起来像:

image_links = ["https://duckduckgo.com/?q=duckduckgo&atb=v166-4_p&iax=images&ia=images&iai=https%3A%2F%2Fupload.wikimedia.org%2Fwikipedia%2Fen%2Fthumb%2F8%2F88%2FDuckDuckGo_logo.svg%2F1200px-DuckDuckGo_logo.svg.png","https://duckduckgo.com/?q=duckduckgo&atb=v166-4_p&iax=images&ia=images&iai=https%3A%2F%2Fupload.wikimedia.org%2Fwikipedia%2Fen%2Fthumb%2F8%2F88%2FDuckDuckGo_logo.svg%2F1200px-DuckDuckGo_logo.svg.png"]
Run Code Online (Sandbox Code Playgroud)

DuckDuckGo 图像搜索结果中 HTML 结构的可视化

编辑:

当我通过执行以下操作从 URL 中抓取 HTML 时:

source = urllib.request.urlopen("https://duckduckgo.com/?q=duckduckgo&atb=v166-4_p&iax=images&ia=images").read()
Run Code Online (Sandbox Code Playgroud)

它根本不返回任何图像标签。

我正在通过这样做来检查:

source_tree = BeautifulSoup(source, 'html.parser')

links = [img.get('src') for img in source_tree.find_all('img', _class='tile--img__img')]

print(f"links: {links}")
print(f"img in source_tree: {'img' in str(source_tree)}")
print(f"source_tree: {source_tree}")
Run Code Online (Sandbox Code Playgroud)

输出:

links: []
img in source_tree: False
source_tree: <!DOCTYPE html>
<html class="no-js has-zcm" lang="en_US"><head><meta content="text/html; charset=utf-8" http-equiv="content-type"/><title>duckduckgo at DuckDuckGo</title><link href="/s1775.css" rel="stylesheet" type="text/css"/><link href="/r1775.css" rel="stylesheet" type="text/css"/><meta content="noindex,nofollow" name="robots"/><meta content="origin" …
Run Code Online (Sandbox Code Playgroud)

web-scraping python-3.x duckduckgo

4
推荐指数
1
解决办法
1万
查看次数

Duck Duck Go HTML版本获取下一页结果url查询参数

是否有可能使用url查询参数在html版本上获取鸭鸭搜索结果的下一页?

duckduckgo

1
推荐指数
1
解决办法
1100
查看次数