标签: htmlcleaner

网络抓java初学者

我是Java的新手,我想在网页抓取和解析数据方面做得非常好

是否有任何与网络抓取相关的网站可以帮助我理解像htmcleaner,web-harvest,htmlparser这样的API如何工作？

我仍然不够精通Java以查看他们的Javadoc并了解他们的所有方法是如何工作的,并且无法在Web上找到可以帮助我的Java代码示例(教程).

java html-parsing web-scraping webharvest htmlcleaner

use*_*593

2011 06-23

7
推荐指数

1
解决办法

2万
查看次数

从HtmlCleaner获取文本中的清理HTML

我想看看我们从HTMLCleaner获得的清理HTML.我看到在TagNode上有一个名为serialize的方法,但是不知道如何使用它.有人有任何示例代码吗？

谢谢Nayn

html-parsing htmlcleaner

Nay*_*ayn

lucky-day

7
推荐指数

2
解决办法

6618
查看次数

使用javascript整理HTML输出

我有一大块HTML.为了使它适合某个容器,我将HTML(不仅仅是文本)裁剪为200个字符.显然,在这种情况下,一些标签将保持未闭合状态.除了自己写清洁器之外,还有什么办法可以清除这种裁剪的片段而不需要服务器吗？可以使用JS中可以使用的公共API的在线服务.

html javascript tidy htmlcleaner

spl*_*ter

lucky-day

6
推荐指数

1
解决办法

530
查看次数

使用PHP删除MS Word"HTML"

可能重复:
清理Word HTML的最佳免费方法是什么？
PHP来清理粘贴的Microsoft输入

我允许客户端在富文本编辑器中输入注释,并且最近才升级到ckEditor 3x,默认情况下会删除MS字类,样式和注释(当用户粘贴到编辑器对象中时).所以前进我已经准备好了.

我最近需要清理5年的笔记,其中一些笔记有MS word生成的HTML.我需要遍历这个文本正文并清理它.

我不需要删除所有span标记,只需要删除那些由Microsoft编写的标记.

我尝试过使用HTMLCleaner,但它并没有删除MS生成的HTML. http://word2cleanhtml.com完全符合我的要求,但开发人员目前不提供公共使用的API(截至2012年7月9日).

在过去的几周里,我一直在寻找这样一堂课,而且运气不好.你有没有找到一个你想分享的有用课程？

html php ms-word htmlcleaner

a c*_*der

2017 05-23

5
推荐指数

1
解决办法

9627
查看次数

如何在HTML中添加匹配的开始标记

我有html内容,看起来像

<body>Hello world</div><div>New day</div></body>

Run Code Online (Sandbox Code Playgroud)

我想解析这个html片段并在Hello之前添加一个起始div标签.我可以遵循什么方法？我试图使用HTMLCLeaner但它没有帮助基本上这意味着找到结束div标签而不匹配start div标签并添加它们.

html htmlcleaner

Thu*_*shy

2017 04-24

5
推荐指数

1
解决办法

479
查看次数

用于构建HTML文档的库是什么？

可以请任何人推荐能够做到与这些库相反的库吗？

HtmlCleaner,TagSoup,HtmlParser,HtmlUnit,jSoup,jTidy,nekoHtml,WebHarvest或Jericho.

我需要构建html页面,从String内容构建DOM模型.

编辑:我需要它用于测试目的.我有各种类型的输入/字符串可能在各个地方的html页面中...所以我需要动态构建它...然后我根据必须满足或不满足的各种标准处理html页面.

我会告诉你为什么我问这个问题,考虑htmlCleaner这个工作:

List<String> paragraphs = getParagraphs(entity.getFile());
List<TagNode> pNodes = new ArrayList<TagNode>();

TagNode html = cleaner.clean("<html/>");
for(String paragraph : paragraphs) {                
    TagNode p = new TagNode("p");
    pNodes.add(p);
    // CANNOT setText() ?
}
html.addChildren(pNodes);

Run Code Online (Sandbox Code Playgroud)

问题是TagNode有getText()方法,但没有setText()方法....

请添加更多关于这个问题是多么模糊的评论......你能做的最好的事情

html java dom htmlcleaner

lis*_*sak

2011 06-01

3
推荐指数

1
解决办法

2283
查看次数

如何使用 HTMLcleaner 获取元素的值

尝试获取元素“a”和“span”的值。使用 HTMLCleaner。

\n\n

<div class="info">\n  <p class="name">\n    <a href="http://www.zxdv.com/level/1/film/616/sr/1/">Tron</a> \n    <span class="year">2001</span>\n  </p>\n</div>\n

Run Code Online (Sandbox Code Playgroud)\n\n

这是代码：

\n\n

TagNode linkElements[] = rootNode.getElementsByName("div", true);\nint s=0;\nfor (int i = 0; linkElements != null && i < linkElements.length; i++)\n{\n    if (linkElements[i].getAttributes().toString().equals("{class=info}")) {\n        TagNode linkElements2[] = linkElements[i].getElementsByName("p", true);\n        for (int i2 = 0; linkElements2 != null && i2 < linkElements2.length; i2++)\n        {\n            TagNode linkElements3[] = linkElements2[i2].getElementsByName("a", true);\n            TagNode linkElements4[] = linkElements2[i2].getElementsByName("span", true);\n            for (int i3 = 0; linkElements3 != null && i3 < linkElements3.length; i3++)\n            {\n …

Run Code Online (Sandbox Code Playgroud)

java android htmlcleaner

TT_*_*_KZ

2011 10-26

3
推荐指数

1
解决办法

5101
查看次数

使用jsoup来转义不允许的标记

我正在评估jsoup的功能,它将清理(但不删除!)非白名单标签.假设只<b>允许标记,所以输入如下

foo <b>bar</b> <script onLoad='stealYourCookies();'>baz</script>

Run Code Online (Sandbox Code Playgroud)

必须产生以下结果:

foo <b>bar</b> &lt;script onLoad='stealYourCookies();'&gt;baz&lt;/script&gt;

Run Code Online (Sandbox Code Playgroud)

我用jsoup看到以下问题/问题:

document.getAllElements()总是假设<html>,<head>和<body>.是的,我可以打电话,document.body().getAllElements()但关键是我不知道我的源文件是完整的HTML文档还是仅仅是正文 - 我希望结果的形状和形式与它相同;
如何更换<script>...</script>使用<script>...</script>？我只想用转义实体替换括号,并且不想改变任何属性,等等.Node.replaceWith听起来像是一种矫枉过正.
是否可以完全关闭漂亮的打印(例如插入新线等)？

或者我应该使用另一个框架？到目前为止,我已经浏览了htmlcleaner,但是给出的示例并未建议我支持所需的功能.

html java xss jsoup htmlcleaner

min*_*das

lucky-day

1
推荐指数

1
解决办法

3068
查看次数

使用HTML :: TreeBuilder从HTML中提取文本 - Perl

我正在尝试访问.html文件并在<p>标签中提取文本.从逻辑上讲,我的代码应该可行.通过使用HTML :: TreeBuilder.我解析html然后<p>使用find_by_attribute("p")提取文本.但是我的脚本出现了空目录.我遗漏了什么吗？

#!/usr/bin/perl

use strict;
use HTML::TreeBuilder 3;
use FileHandle;

my @task = ('ar','cn','en','id','vn');

foreach my $lang (@task) {
mkdir "./extract_$lang", 0777 unless -d "./extract_$lang";
opendir (my $dir, "./$lang/") or die "$!";
my @files = grep (/\.html/,readdir ($dir));
closedir ($dir);

foreach my $file (@files) {
    open (my $fh, '<', "./$lang/$file") or die "$!";
    my $root = HTML::TreeBuilder->new;
    $root->parse_file("./$lang/$file");
    my @all_p = $root->find_by_attribute("p");
    foreach my $p (@all_p) {
        my $ptag = HTML::TreeBuilder->new_from_content ($p->as_HTML);
        my $filewrite = …

Run Code Online (Sandbox Code Playgroud)

html perl text-extraction html-content-extraction htmlcleaner

alv*_*vas

lucky-day

0
推荐指数

1
解决办法

2830
查看次数