小编tim*_*ham的帖子

YouTube评论刮刀返回的结果有限

任务:

我想从给定的视频中删除所有YouTube评论.

我成功地修改了上一个问题的R代码(Scraping Youtube在R中的评论).

这是代码:

library(RCurl)
library(XML)
x <- "https://gdata.youtube.com/feeds/api/videos/4H9pTgQY_mo/comments?orderby=published"
html = getURL(x)
doc  = htmlParse(html, asText=TRUE) 
txt  = xpathSApply(doc, 
"//body//text()[not(ancestor::script)][not(ancestor::style)[not(ancestor::noscript)]",xmlValue)

Run Code Online (Sandbox Code Playgroud)

要使用它,只需将视频ID(即"4H9pTgQY_mo")替换为您需要的ID即可.

问题:

问题是它没有返回所有评论.实际上,无论视频中有多少注释,它总是返回一个包含283个元素的向量.

谁能请点亮这里出了什么问题？令人难以置信的是令人沮丧.谢谢.

r youtube-api web-scraping

tim*_*ham

2017 05-23

23
推荐指数

1
解决办法

2182
查看次数

如何使用igraph将两个节点合并为一个节点

我试图将图形(G)中的两个节点(称为"V"和"U")合并为单个节点(V).

G是779个节点(网站)的超链接网络.每条边代表一个超链接.V和U实际上是同一个网站,但不幸的是,该网站的网页已分成两个独立的节点.所以我想把它们放回一个节点.

我已经研究了contract.vertices函数,但我无法理解如何在这里进行调整.

以下是我的图表(G)的属性.

> G
IGRAPH D--- 779 3544 -- 
+ attr: Image File (v/c), Ringset (v/n), Country Code TLD (v/n), Generic TLD (v/n), Number of Pages (v/n), Categorical 1 (v/n), Categorical 2 (v/n),
  Categorical 3 (v/n), id (v/c), label (v/c), Width (e/n)

Run Code Online (Sandbox Code Playgroud)

我有两个节点要合并在一起:

> V(g)$id[8]
[1] "http://www.police.uk/"

Run Code Online (Sandbox Code Playgroud)

和

> V(g)$id[14]
[1] "http://police.uk/"

Run Code Online (Sandbox Code Playgroud)

总共有779个节点和3544个边缘.

我希望这两个节点成为图中的单个节点(即它们将具有相同的"id").来自/到其他节点的所有链接和外链现在将仅指向这个新的单个节点.

除了Number of Pages(它的值将是合并之前的两个节点的总和)之外,所有其他属性将保持不变.

r igraph

tim*_*ham

2013 09-27

10
推荐指数

1
解决办法

3358
查看次数

使用InfoMap算法进行社区检测,生成一个大型模块

我正在使用igraph包中的InfoMap算法在有向和非加权图(34943顶点,206366边)上执行社区检测.在图中,顶点表示网站,边表示网站之间存在超链接.

我在运行算法后遇到的一个问题是,大多数顶点都具有单个大型社区的成员资格(32920或94%).其余的顶点分散在数百个其他小型社区中.

我已经尝试了不同的nb.trials参数设置(即50,100,现在运行500).但是,这似乎并未改变结果.

我感到相当恼怒,因为算法的运行时间非常高,所以我每次都要等待结果(没有运气!!).

非常感谢.

r igraph sna

tim*_*ham

lucky-day

8
推荐指数

2
解决办法

5802
查看次数

如何使用 linkchecker 忽略包含图像格式的 URL

我正在使用linkchecker抓取英国政府网站，映射超链接之间的关系，并输出到 GML 文件。

我不想包含图像的 URL，例如任何包含 jpeg 或 png 文件格式引用的 URL（例如“www.gov.uk/somefile.jpeg”）。

我已经尝试使用--ignore-url命令行参数和各种正则表达式几个小时来实现此目的。这是我放弃之前的最后一次尝试：

linkchecker --ignore-url='(png|jpg|jpeg|gif|tiff|bmp|svg|js)$' -r1 --verbose --no-warnings -ogml/utf_8 --file-output=gml/utf_8/www.gov.uk_RECURSION_1_LEVEL_NO_IMAGES.gml https://www.gov.uk

Run Code Online (Sandbox Code Playgroud)

有人可以建议这是否可能吗？如果可以，请提出解决方案？

python linkchecker

tim*_*ham

lucky-day

3
推荐指数

1
解决办法

1494
查看次数