标签: html-content-extraction

401
推荐指数
21
解决办法
18万
查看次数

使用Python从HTML文件中提取文本

我想使用Python从HTML文件中提取文本.如果我从浏览器复制文本并将其粘贴到记事本中,我想要的输出基本相同.

我想要比使用可能在格式不正确的HTML上失败的正则表达式更强大的东西.我见过很多人推荐Beautiful Soup,但是我使用它时遇到了一些问题.首先,它选择了不需要的文本,例如JavaScript源代码.此外,它没有解释HTML实体.例如,我希望' 在HTML源代码中转换为文本中的撇号,就像我将浏览器内容粘贴到记事本中一样.

更新 html2text看起来很有希 它正确处理HTML实体并忽略JavaScript.但是,它并不完全产生纯文本; 它会产生降价,然后必须将其转换为纯文本.它没有示例或文档,但代码看起来很干净.


相关问题:

html python text html-content-extraction

222
推荐指数
12
解决办法
32万
查看次数

如何使用PHP从html中提取img src,title和alt?

我想创建一个页面,其中所有驻留在我网站上的图像都列有标题和替代表示.

我已经给我写了一个程序来查找和加载所有HTML文件,但现在我被困在如何提取src,titlealt从这个HTML:

<img src="/image/fluffybunny.jpg" title="Harvey the bunny" alt="a cute little fluffy bunny" />
Run Code Online (Sandbox Code Playgroud)

我想这应该用一些正则表达式完成,但由于标签的顺序可能会有所不同,而且我需要所有这些,我真的不知道如何以优雅的方式解析它(我可以通过char方式,但这很痛苦).

html php regex html-parsing html-content-extraction

143
推荐指数
7
解决办法
31万
查看次数

BeautifulSoup抓住可见的网页文本

基本上,我想使用BeautifulSoup严格抓取网页上的可见文字.例如,这个网页是我的测试用例.而且我主要想在这里和那里获得正文(文章)甚至几个标签名称.我在这个SO问题中尝试过这个建议,它返回了许多<script>我不想要的标签和HTML注释.我无法找出函数所需的参数findAll(),以便在网页上获取可见文本.

那么,我应该如何找到除脚本,评论,CSS等之外的所有可见文本?

python text beautifulsoup html-content-extraction

115
推荐指数
5
解决办法
10万
查看次数

提取正则表达式匹配的一部分

我想要一个正则表达式从HTML页面中提取标题.目前我有这个:

title = re.search('<title>.*</title>', html, re.IGNORECASE).group()
if title:
    title = title.replace('<title>', '').replace('</title>', '') 
Run Code Online (Sandbox Code Playgroud)

是否有正则表达式只提取<title>的内容,所以我不必删除标签?

html python regex html-content-extraction

104
推荐指数
6
解决办法
13万
查看次数

解析iPhone上的HTML

任何人都可以推荐用于HTML解析的C或Objective-C库吗?它需要处理不完全验证的凌乱的HTML代码.

这样的库是否存在,或者我最好只是尝试使用正则表达式?

html iphone parsing html-content-extraction

69
推荐指数
6
解决办法
7万
查看次数

在C#中解析html的最佳方法是什么?

我正在寻找一个库/方法来解析一个html文件,该文件具有比通用xml解析库更多的html特定功能.

.net html c# parsing html-content-extraction

66
推荐指数
7
解决办法
43万
查看次数

使用BeautifulSoup查找包含特定文本的HTML标记

我正在尝试获取包含以下文本模式的HTML文档中的元素:#\ S {11}

<h2> this is cool #12345678901 </h2>
Run Code Online (Sandbox Code Playgroud)

所以,之前的匹配将使用:

soup('h2',text=re.compile(r' #\S{11}'))
Run Code Online (Sandbox Code Playgroud)

结果将是这样的:

[u'blahblah #223409823523', u'thisisinteresting #293845023984']
Run Code Online (Sandbox Code Playgroud)

我能够得到匹配的所有文本(见上面的行).但我希望文本的父元素匹配,因此我可以将其用作遍历文档树的起点.在这种情况下,我希望返回所有h2元素,而不是文本匹配.

想法?

python regex beautifulsoup html-content-extraction

61
推荐指数
3
解决办法
7万
查看次数

解析和使用网站数据的"智能"方式?

如何智能地解析搜索结果在页面上返回的数据?

例如,假设我想通过解析许多图书提供商网站的搜索结果来创建一个搜索在线图书的网络服务.我可以获取页面的原始HTML数据,并做一些正则表达式使数据适用于我的Web服务,但如果任何网站更改了页面的格式,我的代码就会中断!

RSS确实是一个了不起的选择,但许多站点没有基于XML/JSON的搜索.

是否有任何工具包可以帮助自动在页面上传播信息?一个疯狂的想法是让模糊的AI模块识别搜索结果页面上的模式,并相应地解析结果......

html parsing webpage web-services html-content-extraction

31
推荐指数
1
解决办法
3万
查看次数

创建伟大的解析器 - 从HTML /博客中提取相关文本

我正在尝试创建一个在Blog Posts上运行良好的通用HTML解析器.我想将我的解析器指向特定的entrie的URL并获取帖子本身的干净文本.我的基本方法(来自python)一直使用BeautifulSoup/Urllib2的组合,这没关系,但它假设你知道博客条目的正确标签.有没有人有更好的想法?

以下是一些可能有人可以扩展的想法,我没有足够的知识/技术诀窍尚未实现.

  1. unix程序'lynx'似乎特别好地解析了博客文章 - 他们使用了什么解析器,或者如何利用它?

  2. 是否有任何服务/解析器可以自动删除垃圾广告等?

  3. 在这种情况下,我有一个模糊的概念,即博客帖子通常包含在某个带有class ="entry"或类似内容的定义标签中,这可能是一个好的假设.因此,有可能创建一个算法,找到它们之间最干净的文本的封闭标签 - 对此有何想法?

谢谢!

html parsing text-parsing html-content-extraction

22
推荐指数
1
解决办法
5663
查看次数