在Ruby中解析HTML文档的方法？

就像PHP中的DOMDocument类一样,RUBY中有任何类(即核心RUBY),用于从HTML文档中解析和获取节点元素值.

ruby html-parser

Har*_*rup

lucky-day

28
推荐指数

4
解决办法

3万
查看次数

解析HTML以获取元素内的文本

我需要将两个元素中的文本转换为字符串:

source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>"""

>>> text
'Martin Elias'

Run Code Online (Sandbox Code Playgroud)

我怎么能实现这个目标？

html python python-2.x html-parser

Mar*_*iáš

2012 08-04

24
推荐指数

3
解决办法

7万
查看次数

如何将Jsoup(Java html解析器)中生成的文档转换为字符串

我有一个jsoup中的文档,看起来像这样

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();

Run Code Online (Sandbox Code Playgroud)

我如何将其doc转换为字符串.

java html-parsing html-parser jsoup

Hud*_*hes

2015 03-05

23
推荐指数

2
解决办法

2万
查看次数

使用脚本扩展HTML文件并覆盖/扩展某些节标记

我可以使用开源(客户端)来扩展HTML,例如我需要添加脚本或更改一些src值并添加其他标签等.

我找到了以下内容:https://www.npmjs.com/package/gulp-html-extend

但我不确定我是否可以在客户端使用它(我们在项目中不使用gulp)客户端我的意思是例如在jsFiddle中使用它.

输入应该是HTML内容,其中一些object/json包含新内容,输出应该是扩展HTML.

如果没有开源,我需要自己开发,那么我应该从优秀的设计方面遵循一些指导方针吗？

更新:

例如,如果我将以下HTML文档作为JS输入变量

这是我作为STRING的输入

<!DOCTYPE HTML>
<html>
    <head>
        <meta http-equiv="X-UA-Compatible" content="IE=edge" />
        <meta charset="UTF-8">

        <title>td</title>

        <script id="test-ui-bootstrap"
            src="resources/test-ui-core.js"
            data-test-ui-libs="test.m"
            data-test-ui-xx-bindingSyntax="complex"
            data-test-ui-resourceroots='{"tdrun": "./"}'>
        </script>

        <link rel="stylesheet" type="text/css" href="css/style.css">

        <script>
            test.ui.get().attachInit(function() {
            });
        </script>
    </head>

    <body class="testUiBody" id="content">
    </body>

</html>

Run Code Online (Sandbox Code Playgroud)

例如,我需要以下内容:

1.

我想在之后添加额外的脚本(例如内部警报)

<script id="test-ui-bootstrap" ....

Run Code Online (Sandbox Code Playgroud)

如果文件脚本中有id "test-ui-bootstrap"

我想在此脚本后立即添加另一个脚本,例如

script with alert inside

Run Code Online (Sandbox Code Playgroud)

2.

在最后一个脚本之后在第一个脚本(id id ="test-ui-bootstrap")中添加其他属性...

data-test-ui-libs="test.m"

Run Code Online (Sandbox Code Playgroud)

加上

data-test-ui-libs123 ="test.bbb"

Run Code Online (Sandbox Code Playgroud)

3.

如果我想修改现有属性的值,例如更改

src="resources/test-ui-core.js"

Run Code Online (Sandbox Code Playgroud)

至

src="resources/aaaa/test-ui-core.js"

Run Code Online (Sandbox Code Playgroud)

我得到的字符串使用HTML和我要与修改后的HTML创建新的字符串我,我可以这样做的权利与好方法？

更新2 …

html javascript jquery html-parsing html-parser

作者

2016 03-13

14
推荐指数

2
解决办法

2251
查看次数

在Ruby中将外部CSS转换为内联CSS的工具？

我正在搞乱GoogleDocs,它有非常非常原始的CSS支持.如果您上传MSWord .doc或HTML文件并将其导出为HTML,则所有样式都将内联应用.它们在html文件中有一个样式块,但是当您将HTML文件上传回谷歌文档时,它不会应用任何非内联样式.

所以我在想"也许这里有一个红宝石工具".有没有什么我可以使用一些CSS并将其解析为HTML节点,也许是一些nokogiri插件？

css google-docs inline-styles html-parser

Lan*_*ard

lucky-day

7
推荐指数

1
解决办法

2359
查看次数

处理htmlParse错误(无法加载HTTP资源)

我正在尝试网页抓取一页.但是,我的循环不时会起作用,因为解析器"无法加载HTTP资源".问题是页面没有加载到我的浏览器中,所以这不是代码的问题.

但是,在为每个发现错误的页面创建异常后重新启动进程非常烦人.我想知道是否有办法放置if条件.我想的是:如果发生错误,那么在下一步重启循环.

我找了htmlParse的帮助页面,发现有一个错误参数,但不知道如何使用它.我的if条件的任何想法？

以下是可重现的示例:

if(require(RCurl) == F) install.packages('RCurl')
if(require(XML) == F) install.packages('XML')
if(require(seqinr) == F) install.packages('seqinr')

for  (i in 575:585){
    currentPage <- i  # define pagina inicial da busca
# Link que ser? procurado

link <- paste("http://www.cnj.jus.br/improbidade_adm/visualizar_condenacao.php?seq_condenacao=",
             currentPage,
             sep='')

doc <- htmlParse(link, encoding = "UTF-8") #this will preserve characters
    tables <- readHTMLTable(doc, stringsAsFactors = FALSE)
    if(length(tables) != 0) {
    tabela2 <- as.data.frame(tables[10])

    tabela2[,1]  <- gsub( "\\n", " ", tabela2[,1] )
    tabela2[,2]  <- gsub( "\\n", " ", tabela2[,2] )
    tabela2[,2]  <- …

Run Code Online (Sandbox Code Playgroud)

r html-parser

Man*_*ino

lucky-day

7
推荐指数

1
解决办法

7898
查看次数

HTML Parser验证标签

我需要html解析,它能够识别生成的html中的错误,如果标签没有关闭,则关闭它并返回有效的html.

更多细节:我从数据库获取数据并打破该记录以显示我网站上的部分详细信息,点击更多按钮,然后显示完整内容.打破字符串然后验证.

我已经使用过Html Agility Pack,但我是新用的,如果这个库解决了我的问题,那么指导我如何(教程)或建议我另一个库.

html c# html-parser

Xul*_*fee

2011 01-28

5
推荐指数

0
解决办法

784
查看次数

是否有标准 Java SE HTML 解析器？如果是这样，为什么要使用非标准的呢？

我需要解析一个简单的 HTML 页面，其中包含一个简单的表单。StackOverflow 上类似问题的答案建议使用多种非标准 Java 库之一，例如 TagSoup、JSoup、HTMLParser 等。

然而，网络搜索显示，Java SE 中通过此类存在一些标准功能：http://docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/ParserDelegator.html

我的子问题是：

标准 ParserDelegator 类真的可以解析像我这样的用例吗？
标准库有哪些限制导致需要如此多的非标准库？
ParserDelegator 处于 swing 状态这一事实是否妨碍在常规 EC2 云服务器中将其用于 Web 应用程序？我是否需要克服很多困难才能解决无头方面的问题，或者只是对配置进行一个小调整？
如果不推荐标准的，我应该使用哪种非标准的，考虑到： (a) 我希望不偏离标准太远；(b) 我的简单用例；(c) 希望有成熟可靠的实施方案；(d) 没有尺寸或重量限制，因为这是一个服务器应用程序而不是嵌入式客户端。API 的优先级要低得多，因此虽然我确实欣赏 JSoup 的 CSS 选择器（如 API），但其他关注点（a）到（d）会覆盖它。

谢谢。

html java html-parsing html-parser

nec*_*cer

lucky-day

5
推荐指数

1
解决办法

3265
查看次数