我正在尝试<p>使用BeautifulSoup 从网页中的元素中删除所有内部html .有内部标签,但我不在乎,我只想获得内部文本.
例如,对于:
<p>Red</p>
<p><i>Blue</i></p>
<p>Yellow</p>
<p>Light <b>green</b></p>
Run Code Online (Sandbox Code Playgroud)
我怎样才能提取:
Red
Blue
Yellow
Light green
Run Code Online (Sandbox Code Playgroud)
我既不需.string也不.contents[0]需要.也不是.extract(),因为我不想提前指定内部标签 - 我想处理任何可能发生的事情.
BeautifulSoup中是否有'just get the visible HTML'类型的方法?
---- ------ UPDATE
在建议上,尝试:
soup = BeautifulSoup(open("test.html"))
p_tags = soup.findAll('p',text=True)
for i, p_tag in enumerate(p_tags):
print str(i) + p_tag
Run Code Online (Sandbox Code Playgroud)
但这没有帮助 - 它打印出来:
0Red
1
2Blue
3
4Yellow
5
6Light
7green
8
Run Code Online (Sandbox Code Playgroud) 默认情况下,Sphinx文档会输出格式化为双面打印的PDF.因此,标题页和TOC之间有一个空白页,TOC和介绍,介绍和第一部分等.
我的用户总是会在线查看PDF.所以我想删除这些空白页面.
这似乎是Sphinx中一个棘手的问题.查看此电子邮件主题.
这个用户提出了两个解决方案,但对我来说都不起作用 奇怪的是,第一个解决方案:
latex_elements = {
'classoptions': ',oneside',
}
Run Code Online (Sandbox Code Playgroud)
给我
! Package babel Error: You haven't specified a language option.
第二种选择:
latex_font_size = '10pt,oneside'
Run Code Online (Sandbox Code Playgroud)
运行,但生成的PDF只包含我的文档的奇数页.唉.
有没有人知道如何在没有这些空白页的情况下制作PDF?
我试图从Android Uri到字节数组.
我有以下代码,但它一直告诉我字节数组长61个字节,即使文件非常大 - 所以我认为它可能将Uri 字符串转换为字节数组,而不是文件:(
Log.d(LOG_TAG, "fileUriString = " + fileUriString);
Uri tempuri = Uri.parse(fileUriString);
InputStream is = cR.openInputStream(tempuri);
String str=is.toString();
byte[] b3=str.getBytes();
Log.d(LOG_TAG, "len of data is " + imageByteArray.length
+ " bytes");
Run Code Online (Sandbox Code Playgroud)
请有人帮我弄清楚该怎么办?
输出为"fileUriString = content:// media/external/video/media/53","len of data为61字节".
谢谢!
我在Django项目中有这些模型:
class Area(models.Model):
name = models.CharField(max_length=100, primary_key=True)
def __unicode__(self):
return self.name
class Place(models.Model):
id = models.IntegerField(primary_key=True)
name = models.CharField(max_length=100, primary_key=True)
area = models.ManyToManyField(Area,related_name='area')
Run Code Online (Sandbox Code Playgroud)
如何在模板中显示地方的地区名称?目前我有:
{% for place in places %}
Name: {{ place.name }}, Area: {{ place.area}}
{% endfor %}
Run Code Online (Sandbox Code Playgroud)
这使:
Area: <django.db.models.fields.related.ManyRelatedManager object at 0x10435a3d0>
Run Code Online (Sandbox Code Playgroud)
而且{{ place.area}}只是空白.有人可以帮忙吗?
这是一个基本问题,我实际上在文档中找不到它: - /
在下面的:
img = house_tree.xpath('//img[@id="mainphoto"]')[0]
Run Code Online (Sandbox Code Playgroud)
如何获取<img/>标签的HTML ?
我试过添加html_content()但是得到了AttributeError: 'lxml.etree._Element' object has no attribute 'html_content'.
此外,它是一个内部有一些内容的标签(例如<p>text</p>)我如何获得内容(例如text)?
非常感谢!
我正在为postgres手动构建DELETE CASCADE语句.
我有一个'交易'和'切片'表,相关如下:
Table "public.slice"
Column | Type | Modifiers
----------+------+-----------
id | text | not null
name | text |
Referenced by:
TABLE "transaction" CONSTRAINT "transaction_slice_id_fkey" FOREIGN KEY (slice_id) REFERENCES slice(id)
Table "public.transaction"
Column | Type | Modifiers
----------+------+-----------
id | text | not null
slice_id | text |
Referenced by:
TABLE "classification_item" CONSTRAINT "classification_item_transaction_id_fkey" FOREIGN KEY (transaction_id) REFERENCES transaction(id)
Table "public.classification_item"
Column | Type | Modifiers
----------------+------+-----------
id | text | not null
transaction_id | text |
Foreign-key …Run Code Online (Sandbox Code Playgroud) 在Python中,如何list.index使用模糊匹配获得列表中项目的位置(使用)?
例如,如何获取*berry以下列表中表单中所有水果的索引?
fruit_list = ['raspberry', 'apple', 'strawberry']
# Is it possible to do something like the following?
berry_fruit_at_positions = fruit_list.index('*berry')
Run Code Online (Sandbox Code Playgroud)
有人有主意吗?
我想在Mongo中创建一个新的数据库.但是,我无法连接:
:~$ mongo
MongoDB shell version: 1.6.5
connecting to: test
Tue Dec 21 18:16:25 Error: couldn't connect to server 127.0.0.1 (anon):1154
exception: connect failed
Run Code Online (Sandbox Code Playgroud)
如何连接到mongo以创建新数据库?或者,我可以从命令行创建新数据库吗?
稍微令人惊讶的是,Mongo文档似乎没有涵盖如何创建数据库.
谢谢.
由于与Hpricot有关的繁琐工作,我需要编写一个传递URL的函数,并将页面的全部内容作为单个字符串返回.
快到了.我知道我需要使用OpenURI,它应该看起来像这样:
require 'open-uri'
open(url) {
# do something mysterious here to get page_string
}
puts page_string
Run Code Online (Sandbox Code Playgroud)
任何人都可以建议我需要添加什么?
我在Python中使用psycopg2将一些值传递给postgres字符字段.一些字符串值包含句点,斜杠,引号等.
使用MySQL我只是逃避字符串
MySQLdb.escape_string(my_string)
Run Code Online (Sandbox Code Playgroud)
是否有psycopg2的等价物?