任务:
我想从给定的视频中删除所有YouTube评论.
我成功地修改了上一个问题的R代码(Scraping Youtube在R中的评论).
这是代码:
library(RCurl)
library(XML)
x <- "https://gdata.youtube.com/feeds/api/videos/4H9pTgQY_mo/comments?orderby=published"
html = getURL(x)
doc = htmlParse(html, asText=TRUE)
txt = xpathSApply(doc,
"//body//text()[not(ancestor::script)][not(ancestor::style)[not(ancestor::noscript)]",xmlValue)
Run Code Online (Sandbox Code Playgroud)
要使用它,只需将视频ID(即"4H9pTgQY_mo")替换为您需要的ID即可.
问题:
问题是它没有返回所有评论.实际上,无论视频中有多少注释,它总是返回一个包含283个元素的向量.
谁能请点亮这里出了什么问题?令人难以置信的是令人沮丧.谢谢.
我试图将图形(G)中的两个节点(称为"V"和"U")合并为单个节点(V).
G是779个节点(网站)的超链接网络.每条边代表一个超链接.V和U实际上是同一个网站,但不幸的是,该网站的网页已分成两个独立的节点.所以我想把它们放回一个节点.
我已经研究了contract.vertices函数,但我无法理解如何在这里进行调整.
以下是我的图表(G)的属性.
> G
IGRAPH D--- 779 3544 --
+ attr: Image File (v/c), Ringset (v/n), Country Code TLD (v/n), Generic TLD (v/n), Number of Pages (v/n), Categorical 1 (v/n), Categorical 2 (v/n),
Categorical 3 (v/n), id (v/c), label (v/c), Width (e/n)
Run Code Online (Sandbox Code Playgroud)
我有两个节点要合并在一起:
> V(g)$id[8]
[1] "http://www.police.uk/"
Run Code Online (Sandbox Code Playgroud)
和
> V(g)$id[14]
[1] "http://police.uk/"
Run Code Online (Sandbox Code Playgroud)
总共有779个节点和3544个边缘.
我希望这两个节点成为图中的单个节点(即它们将具有相同的"id").来自/到其他节点的所有链接和外链现在将仅指向这个新的单个节点.
除了Number of Pages(它的值将是合并之前的两个节点的总和)之外,所有其他属性将保持不变.
我正在使用igraph包中的InfoMap算法在有向和非加权图(34943顶点,206366边)上执行社区检测.在图中,顶点表示网站,边表示网站之间存在超链接.
我在运行算法后遇到的一个问题是,大多数顶点都具有单个大型社区的成员资格(32920或94%).其余的顶点分散在数百个其他小型社区中.
我已经尝试了不同的nb.trials参数设置(即50,100,现在运行500).但是,这似乎并未改变结果.
我感到相当恼怒,因为算法的运行时间非常高,所以我每次都要等待结果(没有运气!!).
非常感谢.
我正在使用linkchecker抓取英国政府网站,映射超链接之间的关系,并输出到 GML 文件。
我不想包含图像的 URL,例如任何包含 jpeg 或 png 文件格式引用的 URL(例如“www.gov.uk/somefile.jpeg”)。
我已经尝试使用--ignore-url命令行参数和各种正则表达式几个小时来实现此目的。这是我放弃之前的最后一次尝试:
linkchecker --ignore-url='(png|jpg|jpeg|gif|tiff|bmp|svg|js)$' -r1 --verbose --no-warnings -ogml/utf_8 --file-output=gml/utf_8/www.gov.uk_RECURSION_1_LEVEL_NO_IMAGES.gml https://www.gov.uk
Run Code Online (Sandbox Code Playgroud)
有人可以建议这是否可能吗?如果可以,请提出解决方案?