标签: html-parsing

通过机器学习从网页中提取信息

我想从 Python中的网页中提取特定类型的信息.让我们说邮政地址.它有数千种形式,但仍然可以辨认出来.由于存在大量表单,因此编写正则表达式甚至是语法之类的东西并使用解析器生成器来解析它可能非常困难.

所以我认为应该采用的方式是机器学习.如果我理解得很好,我应该能够制作一个数据样本,在那里我将指出应该是什么结果,然后我有一些东西可以从中学习如何自己识别结果.这就是我对机器学习的全部了解.也许我可以使用一些自然语言处理,但可能并不多,因为所有的图书馆都使用英语,我需要这个用于捷克语.

问题:

我可以通过机器学习轻松解决这个问题吗？这是一个好方法吗？
有没有简单的例子可以让我开始？我是机器学习菜鸟,我需要一些实用的东西; 更接近我的问题更好; 更简单更好.
有很多用于机器学习的Python库.哪一个最适合我的问题？
很多这样的libs都不是很容易使用的文档,因为它们来自科学环境.是否有任何好的资料来源(书籍,文章,快速入门)弥合差距,即专注于对机器学习完全不了解的新手？我打开的每个文档都以我不理解的术语开头,例如网络,分类,数据集等.

更新:

正如你们所提到的,我应该展示一些我想要脱离网络的数据,这里有一个例子.我对电影放映时间很感兴趣.它们看起来像这样(其中三个):

<div class="Datum" rel="d_0">27. ?ervna – st?eda, 20.00
</div><input class="Datum_cas" id="2012-06-27" readonly=""><a href="index.php?den=0" rel="0" class="Nazev">Zahájení letního kina 
</a><div style="display: block;" class="ajax_box d-0">
<span class="ajax_box Orig_nazev">zábava • hudba • film • letní bar
</span>
<span class="Tech_info">Sv?t podle Fagi
</span>
<span class="Popis">Facebooková  komiksová Fagi v podání …

Run Code Online (Sandbox Code Playgroud)

python extract machine-learning html-parsing web-scraping

Hon*_*rek

2012 11-12

50
推荐指数

4
解决办法

3万
查看次数

如何从美丽的汤对象中获取HTML

我有以下bs4对象列表:

>>> listing
<div class="listingHeader">
<h2>
....


>>> type(listing)
<class 'bs4.element.Tag'>

Run Code Online (Sandbox Code Playgroud)

我想将原始html提取为字符串.我试过了:

>>> a = listing.contents
>>> type(a)
<type 'list'>

Run Code Online (Sandbox Code Playgroud)

所以这不起作用.我怎样才能做到这一点？

html python beautifulsoup html-parsing

use*_*629

2014 12-16

49
推荐指数

1
解决办法

4万
查看次数

HTML5:W3C与WHATWG.哪个给出了最权威的规范？

我正在通过一个html解析器中途,发现html5 明确定义了解析生成错误的html的经验法则.(而我曾经从DTD中推断它们,感叹)

我喜欢这个事实,但我知道html5还没有最终确定(我也不知道它是否会这样)并且它不是由W3C开发的,而是由WHATWG开发的.

正在寻找我需要的规格我会被提出:

8.2 W3C TR部分
http://www.w3.org/TR/html5/syntax.html#parsing

要么

11.2 WHATWG 网站应用/当前工作部分
http://www.whatwg.org/specs/web-apps/current-work/multipage/parsing.html

如果不是因为部分编号我会诱导它们是完全一样的.但不同的编号让我很奇怪.据推测,哪个版本最具权威性？

WHWWG似乎有更多的部分,并且自从W3C上传其候选推荐以来已被添加.

W3C会更新到WHATWG版本吗？
或者他们会坚持到现在的候选人,直到达到官方推荐状态？

哪些html5规格是我们可怜的恶魔应该遵循,当有疑问？

html html5 w3c html-parsing

ZJR*_*ZJR

2014 10-30

48
推荐指数

4
解决办法

9590
查看次数

什么是解析？

解析是我在开发过程中遇到的很多东西,但作为一个大三学生,我认为我会在某些时候得到它的需要.在我目前的项目中,我被告知要为某个函数找到并使用HTML解析器,我在网上找到了一对,但HTML解析器实际上做了什么？解析一个对象意味着什么？

c# parsing html-parsing

Gra*_*ace

2013 06-11

45
推荐指数

4
解决办法

8万
查看次数

网页抓取 - 如何识别网页上的主要内容

鉴于新闻文章网页(来自任何主要新闻来源,如时代或布隆伯格),我想确定该页面上的主要文章内容,并抛弃其他misc元素,如广告,菜单,侧边栏,用户评论.

什么是这样做的通用方法,适用于大多数主要新闻网站？

什么是数据挖掘的好工具或库？(最好是基于python)

python webpage html-parsing web-scraping

kef*_*hou

2015 08-13

44
推荐指数

9
解决办法

2万
查看次数

TagSoup与Jsoup vs. HTML Parser vs. HotSax vs.

丰富的HTML解析器可供选择(并坚持使用)令人难以置信:

http://java-source.net/open-source/html-parsers

如何选择最符合以下要求的产品:

成熟(比其他人更少的错误)
生活和呼吸(即维持)
快速且资源效率高(旨在在Android上运行)

根据您的经验,您会推荐哪种HTML解析器(满足上述要求)以及原因？

java android html-parsing

Reg*_*kie

lucky-day

40
推荐指数

1
解决办法

2万
查看次数

BeautifulSoup findAll()给出了多个类？

我想从网站上删除一个项目列表,并保留它们的显示顺序.这些项目按表格组织,但它们可以是两个不同类别之一(按随机顺序).

有没有办法提供多个类,并让BeautifulSoup4找到任何给定类中的所有项目？

我需要实现此代码的功能,除了保留源代码中的项目顺序:

items = soup.findAll(True,{'class':'class1'})
items += soup.findAll(True,{'class':'class2'})

Run Code Online (Sandbox Code Playgroud)

html python beautifulsoup html-parsing

seb*_*ebo

2016 06-17

40
推荐指数

5
解决办法

5万
查看次数

使用angularJS在ng-bind中解析html

我遇到了angularJs的问题.我的应用程序从服务器请求一些数据,并且从服务器返回的数据中的一个值是一串html.我在这个角度模板中绑定它

<div>{{{item.location_icons}}</div>

Run Code Online (Sandbox Code Playgroud)

但正如你可能期望的那样,我看到的不是图标图像,而是标记基本上是div中的东西

 "<i class='my-icon-class'/>"

Run Code Online (Sandbox Code Playgroud)

这不是我想要的.

任何人都知道我可以做什么来解析翻译中的HTML

javascript html-parsing angularjs

Edg*_*nez

2015 08-26

38
推荐指数

3
解决办法

7万
查看次数

如何使用python HTMLParser库从特定div标签中提取数据？

我试图使用python HTMLParser库从HTML页面中获取值.我想要掌握的值是在这个html元素中:

...
<div id="remository">20</div>
...

Run Code Online (Sandbox Code Playgroud)

到目前为止,这是我的HTMLParser类:

class LinksParser(HTMLParser.HTMLParser):
  def __init__(self):
    HTMLParser.HTMLParser.__init__(self)
    self.seen = {}

  def handle_starttag(self, tag, attributes):
    if tag != 'div': return
    for name, value in attributes:
    if name == 'id' and value == 'remository':
      #print value
      return

  def handle_data(self, data):
    print data


p = LinksParser()
f = urllib.urlopen("http://domain.com/somepage.html")
html = f.read()
p.feed(html)
p.close()

Run Code Online (Sandbox Code Playgroud)

有人能指出我正确的方向吗？我希望类功能获得值20.

html python parsing html-parsing

Mar*_*tin

2010 07-19

37
推荐指数

3
解决办法

12万
查看次数

带有标签的HTML文本,用于Excel单元格中的格式化文本

有没有办法获取HTML并将其导入Excel,以便将其格式化为富文本格式(最好使用VBA)？基本上,当我粘贴到Excel单元格时,我希望将其转为:

<html><p>This is a test. Will this text be <b>bold</b> or <i>italic</i></p></html>

Run Code Online (Sandbox Code Playgroud)

进入这个:

这是一个测试.这个文本是粗体还是斜体

excel vba excel-vba html-parsing

Kev*_*ern

2018 06-27

37
推荐指数

6
解决办法

17万
查看次数

标签统计

html-parsing ×10

python ×5

html ×4

beautifulsoup ×2

parsing ×2

web-scraping ×2

android ×1

angularjs ×1

c# ×1

excel ×1

excel-vba ×1

extract ×1

html5 ×1

java ×1

javascript ×1

machine-learning ×1

vba ×1

w3c ×1

webpage ×1

标签 统计

标签统计