我目前正在使用MySQL和Python从网上抓取数据.具体来说,我正在抓取表数据并将其插入我的数据库.我当前的解决方案是有效的,但我觉得这是非常低效的,如果我不重写代码,很可能会锁定我的数据库.这是我目前使用的(部分代码):
itemBank = []
for row in rows:
itemBank.append((tempRow2,tempRow1,tempRow3,tempRow4)) #append data
#itemBank List of dictionaries representing data from each
row of the table. i.e.
('Item_Name':"Tomatoes",'Item_Price':"10",'Item_In_Stock':"10",'Item_Max':"30")
for item in itemBank:
tempDict1 = item[0]
tempDict2 = item[1]
tempDict3 = item[2]
tempDict4 = item[3]
q = """ INSERT IGNORE INTO
TABLE1
(
Item_Name,
Item_Price,
Item_In_Stock,
Item_Max,
Observation_Date
) VALUES (
"{0}",
"{1}",
"{2}",
"{3}",
"{4}"
)
""".format(tempDict1['Item_Name'],tempDict2['Item_Price'],tempDict3['Item_In_Stock'],
tempDict4['Item_Max'],getTimeExtra)
try:
x.execute(q)
conn.commit()
except:
conn.rollback()
Run Code Online (Sandbox Code Playgroud)
执行表的每一行都很麻烦.我尝试过使用executemany,但我似乎无法弄清楚如何正确访问字典的值.那么,executemany在给定数据结构的情况下,如何使用此处插入数据库?
问题:我试图从中收集数据的网站使用Javascript来生成图表.我希望能够提取图中使用的数据,但我不知道从哪里开始.例如,数据可能如下:
var line1=
[["Wed, 12 Jun 2013 01:00:00 +0000",22.4916114807,"2 sold"],
["Fri, 14 Jun 2013 01:00:00 +0000",27.4950008392,"2 sold"],
["Sun, 16 Jun 2013 01:00:00 +0000",19.5499992371,"1 sold"],
["Tue, 18 Jun 2013 01:00:00 +0000",17.25,"1 sold"],
["Sun, 23 Jun 2013 01:00:00 +0000",15.5420341492,"2 sold"],
["Thu, 27 Jun 2013 01:00:00 +0000",8.79045295715,"3 sold"],
["Fri, 28 Jun 2013 01:00:00 +0000",10,"1 sold"]];
Run Code Online (Sandbox Code Playgroud)
这是定价数据(日期,价格,数量).我在这里找到了另一个问题 - 使用python从js标签中解析变量数据 - 这表明我使用JSON和BeautifulSoup,但我不确定如何将它应用于这个特定问题,因为格式略有不同.事实上,在这个问题中,代码看起来更像是python而不是任何类型的JSON字典格式.
我想我可以用字符串读取它,然后使用XPATH和一些时髦的字符串编辑来转换它,但这对于已经格式化为Javascript变量的东西来说似乎太多了.
那么,在使用python时,我可以在这里从这个变量中提取这种有组织的数据?(我最熟悉python和BS4)
我目前正在使用Python和BeautifulSoup来抓取一些网站数据.我正在尝试从表格中拉出单元格,格式如下:
<tr><td>1<td><td>20<td>5%</td></td></td></td></tr>
Run Code Online (Sandbox Code Playgroud)
上述HTML的问题在于BeautifulSoup将其作为一个标记读取.我需要从第一个<td>和第三个中提取值<td>,分别为1和20.
不幸的是,我不知道如何解决这个问题.如何让BeautifulSoup读取<td>表格每行的第1和第3个标签?
更新:
我解决了这个问题.我正在使用html.parser而不是BeautifulSoup的默认值.一旦我切换到默认值,问题就消失了.我也使用了答案中列出的方法.
我还发现不同的解析器非常具有破坏代码的气质.例如,默认解析器拒绝阅读过去排192,但html5lib得到了这份工作done.So尝试使用lxml,html以及还html5lib如果您有分析整个表的问题.
python ×3
html ×1
html-parsing ×1
html-table ×1
javascript ×1
mysql ×1
mysql-python ×1
web-scraping ×1