标签: html-parser

在Ruby中解析HTML文档的方法?

就像PHP中的DOMDocument类一样,RUBY中有任何类(即核心RUBY),用于从HTML文档中解析和获取节点元素值.

ruby html-parser

28
推荐指数
4
解决办法
3万
查看次数

解析HTML以获取元素内的文本

我需要将两个元素中的文本转换为字符串:

source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>"""

>>> text
'Martin Elias'
Run Code Online (Sandbox Code Playgroud)

我怎么能实现这个目标?

html python python-2.x html-parser

24
推荐指数
3
解决办法
7万
查看次数

如何将Jsoup(Java html解析器)中生成的文档转换为字符串

我有一个jsoup中的文档,看起来像这样

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Run Code Online (Sandbox Code Playgroud)

我如何将其doc转换为字符串.

java html-parsing html-parser jsoup

23
推荐指数
2
解决办法
2万
查看次数

使用脚本扩展HTML文件并覆盖/扩展某些节标记

我可以使用开源(客户端)来扩展HTML,例如我需要添加脚本或更改一些src值并添加其他标签等.

我找到了以下内容:https://www.npmjs.com/package/gulp-html-extend

但我不确定我是否可以在客户端使用它(我们在项目中不使用gulp)客户端我的意思是例如在jsFiddle中使用它.

输入应该是HTML内容,其中一些object/json包含新内容,输出应该是扩展HTML.

如果没有开源,我需要自己开发,那么我应该从优秀的设计方面遵循一些指导方针吗?

更新:

例如,如果我将以下HTML文档作为JS输入变量

这是我作为STRING的输入

<!DOCTYPE HTML>
<html>
    <head>
        <meta http-equiv="X-UA-Compatible" content="IE=edge" />
        <meta charset="UTF-8">

        <title>td</title>

        <script id="test-ui-bootstrap"
            src="resources/test-ui-core.js"
            data-test-ui-libs="test.m"
            data-test-ui-xx-bindingSyntax="complex"
            data-test-ui-resourceroots='{"tdrun": "./"}'>
        </script>

        <link rel="stylesheet" type="text/css" href="css/style.css">

        <script>
            test.ui.get().attachInit(function() {
            });
        </script>
    </head>

    <body class="testUiBody" id="content">
    </body>

</html>
Run Code Online (Sandbox Code Playgroud)

例如,我需要以下内容:

1.

我想在之后添加额外的脚本(例如内部警报)

<script id="test-ui-bootstrap" ....
Run Code Online (Sandbox Code Playgroud)

如果文件脚本中有id "test-ui-bootstrap"

我想在此脚本后立即添加另一个脚本,例如

script with alert inside
Run Code Online (Sandbox Code Playgroud)

2.

在最后一个脚本之后在第一个脚本(id id ="test-ui-bootstrap")中添加其他属性...

data-test-ui-libs="test.m"
Run Code Online (Sandbox Code Playgroud)

加上

data-test-ui-libs123 ="test.bbb"
Run Code Online (Sandbox Code Playgroud)

3.

如果我想修改现有属性的值,例如更改

src="resources/test-ui-core.js"
Run Code Online (Sandbox Code Playgroud)

src="resources/aaaa/test-ui-core.js"
Run Code Online (Sandbox Code Playgroud)

我得到的字符串使用HTML和我要与修改后的HTML创建新的字符串我,我可以这样做的权利与好方法?

更新2 …

html javascript jquery html-parsing html-parser

14
推荐指数
2
解决办法
2251
查看次数

在Ruby中将外部CSS转换为内联CSS的工具?

我正在搞乱GoogleDocs,它有非常非常原始的CSS支持.如果您上传MSWord .doc或HTML文件并将其导出为HTML,则所有样式都将内联应用.它们在html文件中有一个样式块,但是当您将HTML文件上传回谷歌文档时,它不会应用任何非内联样式.

所以我在想"也许这里有一个红宝石工具".有没有什么我可以使用一些CSS并将其解析为HTML节点,也许是一些nokogiri插件?

css google-docs inline-styles html-parser

7
推荐指数
1
解决办法
2359
查看次数

处理htmlParse错误(无法加载HTTP资源)

我正在尝试网页抓取一页.但是,我的循环不时会起作用,因为解析器"无法加载HTTP资源".问题是页面没有加载到我的浏览器中,所以这不是代码的问题.

但是,在为每个发现错误的页面创建异常后重新启动进程非常烦人.我想知道是否有办法放置if条件.我想的是:如果发生错误,那么在下一步重启循环.

我找了htmlParse的帮助页面,发现有一个错误参数,但不知道如何使用它.我的if条件的任何想法?

以下是可重现的示例:

if(require(RCurl) == F) install.packages('RCurl')
if(require(XML) == F) install.packages('XML')
if(require(seqinr) == F) install.packages('seqinr')

for  (i in 575:585){
    currentPage <- i  # define pagina inicial da busca
# Link que ser? procurado

link <- paste("http://www.cnj.jus.br/improbidade_adm/visualizar_condenacao.php?seq_condenacao=",
             currentPage,
             sep='')

doc <- htmlParse(link, encoding = "UTF-8") #this will preserve characters
    tables <- readHTMLTable(doc, stringsAsFactors = FALSE)
    if(length(tables) != 0) {
    tabela2 <- as.data.frame(tables[10])

    tabela2[,1]  <- gsub( "\\n", " ", tabela2[,1] )
    tabela2[,2]  <- gsub( "\\n", " ", tabela2[,2] )
    tabela2[,2]  <- …
Run Code Online (Sandbox Code Playgroud)

r html-parser

7
推荐指数
1
解决办法
7898
查看次数

HTML Parser验证标签

我需要html解析,它能够识别生成的html中的错误,如果标签没有关闭,则关闭它并返回有效的html.

更多细节:我从数据库获取数据并打破该记录以显示我网站上的部分详细信息,点击更多按钮,然后显示完整内容.打破字符串然后验证.

我已经使用过Html Agility Pack,但我是新用的,如果这个库解决了我的问题,那么指导我如何(教程)或建议我另一个库.

html c# html-parser

5
推荐指数
0
解决办法
784
查看次数

是否有标准 Java SE HTML 解析器?如果是这样,为什么要使用非标准的呢?

我需要解析一个简单的 HTML 页面,其中包含一个简单的表单。StackOverflow 上类似问题的答案建议使用多种非标准 Java 库之一,例如 TagSoup、JSoup、HTMLParser 等。

然而,网络搜索显示,Java SE 中通过此类存在一些标准功能:http://docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/ParserDelegator.html

我的子问题是:

  1. 标准 ParserDelegator 类真的可以解析像我这样的用例吗?
  2. 标准库有哪些限制导致需要如此多的非标准库?
  3. ParserDelegator 处于 swing 状态这一事实是否妨碍在常规 EC2 云服务器中将其用于 Web 应用程序?我是否需要克服很多困难才能解决无头方面的问题,或者只是对配置进行一个小调整?
  4. 如果不推荐标准的,我应该使用哪种非标准的,考虑到: (a) 我希望不偏离标准太远;(b) 我的简单用例;(c) 希望有成熟可靠的实施方案;(d) 没有尺寸或重量限制,因为这是一个服务器应用程序而不是嵌入式客户端。API 的优先级要低得多,因此虽然我确实欣赏 JSoup 的 CSS 选择器(如 API),但其他关注点(a)到(d)会覆盖它。

谢谢。

html java html-parsing html-parser

5
推荐指数
1
解决办法
3265
查看次数

C++ Html Parser as .NET HtmlAgilityPack

我正在将我的应用程序从C#移植到C++,我需要一个可以解析HTML并读取html元素及其属性的库,这些基本上是HtmlAgility包在C#中的所有内容.

我不想在我的C++应用程序中使用HtmlAgilityPack或任何其他.NET.

那么有人可以为C++建议一个好的Html解析器吗?速度是重要因素.

c++ dom html-parsing html-parser

5
推荐指数
0
解决办法
635
查看次数

FLUTTER 中的 HTML 解析用于 android/iOS 开发

我们知道有一个 Jsoup 库供 android 开发人员解析 html 文本、代码等。由于我是 flutter 移动应用程序开发的新手,我想知道是否有像 Jsoup 这样的库来解析 html 文本、flutter 网站中的代码.

android html-parsing html-parser flutter

5
推荐指数
1
解决办法
8853
查看次数