我听说人们一直在写这些程序,我知道他们做了什么,但他们是如何做到的呢?我正在寻找一般概念.
screen-scraping html-content-extraction pdf-scraping web-scraping console-scraping
我已经将整个网页的html保存为字符串,现在我想从链接中获取"href"值,最好能够将它们保存到不同的字符串中.最好的方法是什么?
我已经尝试将字符串保存为.xml文档并使用XPathDocument导航器解析它,但是(惊喜)它并没有很好地导航非真正的xml文档.
正则表达式是实现我想要实现的目标的最佳方式吗?
HTML内容提取方面有很多学术工作,例如Gupta&Kaiser(2005)从可访问网页中提取内容,以及一些感兴趣的迹象,例如,一,二和三,但我不是很清楚后者的实践如何反映前者的思想.什么是最佳做法?
指向良好(特别是开源)实现的指针以及对实现的良好学术调查将是我正在寻找的那种东西.
后记第一:准确地说,我所追求的那种调查将是一篇论文(已发表,未发表,无论如何),它讨论了学术文献中的两个标准,以及一些现有的实施,并分析了实施的不成功之处.从标准的角度来看.而且,真的,邮件列表的帖子对我也有用.
后记第二章要明确一点,在Peter Rowell的答案之后,我已经接受了,我们可以看到这个问题导致了两个问题:(i)解决了不符合要求的HTML的问题,其中最好推荐使用Beautiful Soup解决方案,以及(ii)未解决的问题或从肉类中分离出来的(主要是现场添加的样板和宣传材料)(认为页面可能有趣的人的内容实际上相关的内容.解决现有技术问题,新的答案需要明确地解决愚蠢的问题.
我想从一般HTML页面中提取所有文本(显示与否).
我想删除
是否有正则表达式(一个或多个)将实现这一目标?
我正在开发一个下载HTML页面的程序,然后选择一些信息并将其写入另一个文件.
我想提取段落标记之间的信息,但我只能获得段落的一行.我的代码如下;
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
Run Code Online (Sandbox Code Playgroud)
我试图添加另一个while循环,这将告诉程序继续写入文件,直到该行包含</p>标记,通过说;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
Run Code Online (Sandbox Code Playgroud)
但这不起作用.请有人帮忙.
html java screen-scraping text-extraction html-content-extraction
我想知道是否有一种简单的方法来解析vb.net中的HTML.我知道HTML不是XML的sctrict子集,但如果可以这样对待它会很好.有没有什么可以让我在VB.net中以类似XML的方式解析HTML?
我想解析一些HTML,以便找到一些属性/标签的值等.
你推荐什么HTML解析器?有什么优点和缺点?
我想读一下R中URL(eq,http://www.haaretz.com/)的内容.我想知道如何做到这一点
我正在寻找一个类似于Arc90的readability.js的Python /模块/函数等
http://lab.arc90.com/experiments/readability
http://lab.arc90.com/experiments/readability/js/readability.js
所以我可以给它一些input.html,结果是清理该html页面的" 主要文本 "的版本.我想要这个,以便我可以在服务器端使用它(不同于仅在浏览器端运行的JS版本).
有任何想法吗?
PS:我已经尝试过Rhino + env.js并且该组合有效,但性能是不可接受的,需要几分钟来清理大部分的html内容:((仍然无法找到为什么会有这么大的性能差异).
我在浏览器中加载了一个网页(即我的DOM和元素定位都可以访问),我想找到块元素(或这些元素的排序列表),它们可能包含最多内容(如连续的文本块).目标是排除菜单,页眉,页脚等内容.
html ×7
java ×2
parsing ×2
.net ×1
algorithm ×1
c# ×1
heuristics ×1
javascript ×1
pdf-scraping ×1
python ×1
r ×1
regex ×1
vb.net ×1
web-scraping ×1
webpage ×1
xml ×1