标签: html-content-extraction

屏幕刮刀如何工作?

我听说人们一直在写这些程序,我知道他们做了什么,但他们是如何做到的呢?我正在寻找一般概念.

screen-scraping html-content-extraction pdf-scraping web-scraping console-scraping

20
推荐指数
3
解决办法
2万
查看次数

C# - 解析网页的最佳方法?

我已经将整个网页的html保存为字符串,现在我想从链接中获取"href"值,最好能够将它们保存到不同的字符串中.最好的方法是什么?

我已经尝试将字符串保存为.xml文档并使用XPathDocument导航器解析它,但是(惊喜)它并没有很好地导航非真正的xml文档.

正则表达式是实现我想要实现的目标的最佳方式吗?

html c# xml html-content-extraction

19
推荐指数
3
解决办法
2万
查看次数

HTML内容提取的最新技术是什么?

HTML内容提取方面有很多学术工作,例如Gupta&Kaiser(2005)从可访问网页中提取内容,以及一些感兴趣的迹象,例如,,,但我不是很清楚后者的实践如何反映前者的思想.什么是最佳做法?

指向良好(特别是开源)实现的指针以及对实现的良好学术调查将是我正在寻找的那种东西.

后记第一:准确地说,我所追求的那种调查将是一篇论文(已发表,未发表,无论如何),它讨论了学术文献中的两个标准,以及一些现有的实施,并分析了实施的不成功之处.从标准的角度来看.而且,真的,邮件列表的帖子对我也有用.

后记第二章要明确一点,在Peter Rowell的答案之后,我已经接受了,我们可以看到这个问题导致了两个问题:(i)解决了不符合要求的HTML的问题,其中最好推荐使用Beautiful Soup解决方案,以及(ii)未解决的问题或从肉类中分离出来的(主要是现场添加的样板和宣传材料)(认为页面可能有趣的人的内容实际上相关的内容.解决现有技术问题,新的答案需要明确地解决愚蠢的问题.

html text-extraction html-content-extraction

18
推荐指数
4
解决办法
5464
查看次数

正则表达式从HTML中提取文本

我想从一般HTML页面中提取所有文本(显示与否).

我想删除

  • 任何HTML标签
  • 任何javascript
  • 任何CSS样式

是否有正则表达式(一个或多个)将实现这一目标?

html regex text-extraction html-content-extraction

17
推荐指数
3
解决办法
5万
查看次数

从HTML Java中提取文本

我正在开发一个下载HTML页面的程序,然后选择一些信息并将其写入另一个文件.

我想提取段落标记之间的信息,但我只能获得段落的一行.我的代码如下;

FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        try {
            out.write(s);
        } catch (IOException e) {
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

我试图添加另一个while循环,这将告诉程序继续写入文件,直到该行包含</p>标记,通过说;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        while(!s.contains("</p>") {
            try {
                out.write(s);
            } catch (IOException e) {
            }
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

但这不起作用.请有人帮忙.

html java screen-scraping text-extraction html-content-extraction

17
推荐指数
3
解决办法
4万
查看次数

你如何在vb.net中解析HTML

我想知道是否有一种简单的方法来解析vb.net中的HTML.我知道HTML不是XML的sctrict子集,但如果可以这样对待它会很好.有没有什么可以让我在VB.net中以类似XML的方式解析HTML?

.net html vb.net parsing html-content-extraction

16
推荐指数
3
解决办法
7万
查看次数

您在Java中推荐哪些HTML解析库

我想解析一些HTML,以便找到一些属性/标签的值等.

你推荐什么HTML解析器?有什么优点和缺点?

html java parsing html-content-extraction

12
推荐指数
2
解决办法
3522
查看次数

12
推荐指数
1
解决办法
3万
查看次数

Python有什么东西像readability.js?

我正在寻找一个类似于Arc90的readability.js的Python /模块/函数等

http://lab.arc90.com/experiments/readability

http://lab.arc90.com/experiments/readability/js/readability.js

所以我可以给它一些input.html,结果是清理该html页面的" 主要文本 "的版本.我想要这个,以便我可以在服务器端使用它(不同于仅在浏览器端运行的JS版本).

有任何想法吗?

PS:我已经尝试过Rhino + env.js并且该组合有效,但性能是不可接受的,需要几分钟来清理大部分的html内容:((仍然无法找到为什么会有这么大的性能差异).

javascript python heuristics html-content-extraction

12
推荐指数
1
解决办法
4080
查看次数

我可以使用哪些算法来识别网页上的内容

我在浏览器中加载了一个网页(即我的DOM和元素定位都可以访问),我想找到块元素(或这些元素的排序列表),它们可能包含最多内容(如连续的文本块).目标是排除菜单,页眉,页脚等内容.

algorithm webpage html-content-extraction

9
推荐指数
1
解决办法
1383
查看次数