我想从 Python中的网页中提取特定类型的信息.让我们说邮政地址.它有数千种形式,但仍然可以辨认出来.由于存在大量表单,因此编写正则表达式甚至是语法之类的东西并使用解析器生成器来解析它可能非常困难.
所以我认为应该采用的方式是机器学习.如果我理解得很好,我应该能够制作一个数据样本,在那里我将指出应该是什么结果,然后我有一些东西可以从中学习如何自己识别结果.这就是我对机器学习的全部了解.也许我可以使用一些自然语言处理,但可能并不多,因为所有的图书馆都使用英语,我需要这个用于捷克语.
问题:
更新:
正如你们所提到的,我应该展示一些我想要脱离网络的数据,这里有一个例子.我对电影放映时间很感兴趣.它们看起来像这样(其中三个):
<div class="Datum" rel="d_0">27. ?ervna – st?eda, 20.00
</div><input class="Datum_cas" id="2012-06-27" readonly=""><a href="index.php?den=0" rel="0" class="Nazev">Zahájení letního kina
</a><div style="display: block;" class="ajax_box d-0">
<span class="ajax_box Orig_nazev">zábava • hudba • film • letní bar
</span>
<span class="Tech_info">Sv?t podle Fagi
</span>
<span class="Popis">Facebooková komiksová Fagi v podání …Run Code Online (Sandbox Code Playgroud) 我有以下bs4对象列表:
>>> listing
<div class="listingHeader">
<h2>
....
>>> type(listing)
<class 'bs4.element.Tag'>
Run Code Online (Sandbox Code Playgroud)
我想将原始html提取为字符串.我试过了:
>>> a = listing.contents
>>> type(a)
<type 'list'>
Run Code Online (Sandbox Code Playgroud)
所以这不起作用.我怎样才能做到这一点?
我正在通过一个html解析器中途,发现html5 明确定义了解析生成错误的html的经验法则.(而我曾经从DTD中推断它们,感叹)
我喜欢这个事实,但我知道html5还没有最终确定(我也不知道它是否会这样)并且它不是由W3C开发的,而是由WHATWG开发的.
正在寻找我需要的规格我会被提出:
要么
如果不是因为部分编号我会诱导它们是完全一样的.但不同的编号让我很奇怪.据推测,哪个版本最具权威性?
WHWWG似乎有更多的部分,并且自从W3C上传其候选推荐以来已被添加.
W3C会更新到WHATWG版本吗?
或者他们会坚持到现在的候选人,直到达到官方推荐状态?
哪些html5规格是我们可怜的恶魔应该遵循,当有疑问?
解析是我在开发过程中遇到的很多东西,但作为一个大三学生,我认为我会在某些时候得到它的需要.在我目前的项目中,我被告知要为某个函数找到并使用HTML解析器,我在网上找到了一对,但HTML解析器实际上做了什么?解析一个对象意味着什么?
鉴于新闻文章网页(来自任何主要新闻来源,如时代或布隆伯格),我想确定该页面上的主要文章内容,并抛弃其他misc元素,如广告,菜单,侧边栏,用户评论.
什么是这样做的通用方法,适用于大多数主要新闻网站?
什么是数据挖掘的好工具或库?(最好是基于python)
丰富的HTML解析器可供选择(并坚持使用)令人难以置信:
http://java-source.net/open-source/html-parsers
如何选择最符合以下要求的产品:
根据您的经验,您会推荐哪种HTML解析器(满足上述要求)以及原因?
我想从网站上删除一个项目列表,并保留它们的显示顺序.这些项目按表格组织,但它们可以是两个不同类别之一(按随机顺序).
有没有办法提供多个类,并让BeautifulSoup4找到任何给定类中的所有项目?
我需要实现此代码的功能,除了保留源代码中的项目顺序:
items = soup.findAll(True,{'class':'class1'})
items += soup.findAll(True,{'class':'class2'})
Run Code Online (Sandbox Code Playgroud) 我遇到了angularJs的问题.我的应用程序从服务器请求一些数据,并且从服务器返回的数据中的一个值是一串html.我在这个角度模板中绑定它
<div>{{{item.location_icons}}</div>
Run Code Online (Sandbox Code Playgroud)
但正如你可能期望的那样,我看到的不是图标图像,而是标记基本上是div中的东西
"<i class='my-icon-class'/>"
Run Code Online (Sandbox Code Playgroud)
这不是我想要的.
任何人都知道我可以做什么来解析翻译中的HTML
我试图使用python HTMLParser库从HTML页面中获取值.我想要掌握的值是在这个html元素中:
...
<div id="remository">20</div>
...
Run Code Online (Sandbox Code Playgroud)
到目前为止,这是我的HTMLParser类:
class LinksParser(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.seen = {}
def handle_starttag(self, tag, attributes):
if tag != 'div': return
for name, value in attributes:
if name == 'id' and value == 'remository':
#print value
return
def handle_data(self, data):
print data
p = LinksParser()
f = urllib.urlopen("http://domain.com/somepage.html")
html = f.read()
p.feed(html)
p.close()
Run Code Online (Sandbox Code Playgroud)
有人能指出我正确的方向吗?我希望类功能获得值20.
有没有办法获取HTML并将其导入Excel,以便将其格式化为富文本格式(最好使用VBA)?基本上,当我粘贴到Excel单元格时,我希望将其转为:
<html><p>This is a test. Will this text be <b>bold</b> or <i>italic</i></p></html>
Run Code Online (Sandbox Code Playgroud)
进入这个:
这是一个测试.这个文本是粗体还是斜体