相关疑难解决方法(0)

如何在python中将HTML表转换为数组

我有一个html文档,我想从本文档中拉出表格并将它们作为数组返回.我正在想象2个函数,一个用于查找文档中的所有html表,另一个用于将html表转换为二维数组.

像这样的东西:

htmltables = get_tables(htmldocument)
for table in htmltables:
    array=make_array(table)
Run Code Online (Sandbox Code Playgroud)

有2个捕获:1.数字表每天都有所不同.这些表有各种奇怪的额外格式,如粗体和闪烁标签,随机抛出.

谢谢!

html python

13
推荐指数
2
解决办法
2万
查看次数

使用BeautifulSoup解析表并在文本文件中写入

我需要以这种格式从文本文件(output.txt)中的表中获取数据:data1; data2; data3; data4; .....

Celkova podlahova plocha bytu; 33m; Vytah; Ano; Nadzemne podlazie; Prizemne podlazie; .....; Forma vlastnictva; Osobne

全部在" 一行 "中,分隔符为" ; "(稍后在csv文件中导出).

我是初学者..帮助,谢谢.

from BeautifulSoup import BeautifulSoup
import urllib2
import codecs

response = urllib2.urlopen('http://www.reality.sk/zakazka/0747-003578/predaj/1-izb-byt/kosice-mestska-cast-sever-sladkovicova-kosice-sever/art-real-1-izb-byt-sladkovicova-ul-kosice-sever')
html = response.read()
soup = BeautifulSoup(html)

tabulka = soup.find("table", {"class" : "detail-char"})

for row in tabulka.findAll('tr'):
    col = row.findAll('td')
    prvy = col[0].string.strip()
    druhy = col[1].string.strip()
    record = ([prvy], [druhy])

fl = codecs.open('output.txt', 'wb', 'utf8')
for rec in record:
    line = ''
    for val …
Run Code Online (Sandbox Code Playgroud)

python beautifulsoup

8
推荐指数
1
解决办法
3万
查看次数

标签 统计

python ×2

beautifulsoup ×1

html ×1