小编edy*_*y13的帖子

使用硒从Highcharts中刮取数据

我试图从高清图中抓取数据.我看了类似的问题,但不明白script_execute如何工作或如何使用我的浏览器检测js.这是我目前的代码:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

# Core settings
chrome_path = r"C:\Users\X\Y\chromedriver_win32\chromedriver.exe"
driver = webdriver.Chrome(chrome_path)
driver.implicitly_wait(15)

stats_url = 'https://addons.mozilla.org/en-US/firefox/addon/adblock-plus/statistics/'

driver.get(stats_url)
driver.find_element_by_link_text('by Source').click()
driver.find_element_by_id('custom-date-range').click()
year = driver.find_element_by_id('date-range-start')
year.click()
for i in range(5): # goes back 5 years
    year.send_keys(Keys.ARROW_DOWN)
driver.find_element_by_id('date-range-submit').click()

Run Code Online (Sandbox Code Playgroud)

我想从图表中删除"下载"数据,(不仅仅是针对许多页面的此页面).当我使用自定义搜索选项时,网站自动生成的csv文件不会更新.所以唯一的方法是从图表中删除数据.我怎么能这样做？

python selenium highcharts

edy*_*y13

2017 10-21

8
推荐指数

2
解决办法

1229
查看次数

Pandas 拆分并选择第二个元素

我有一个这样的数据框：

item_id
26--_-23
24--_-65
12
24--_-54
24
66
23

Run Code Online (Sandbox Code Playgroud)

当我说

df['item_id'] = df['item_id'].map(lambda x: x.split('--_-')[0])

Run Code Online (Sandbox Code Playgroud)

我得到：

item_id
26
24
12
24
24
66
23

Run Code Online (Sandbox Code Playgroud)

没关系。但是当我说：

df['par_id'] = df['item_id'].map(lambda x: x.split('--_-')[1])

Run Code Online (Sandbox Code Playgroud)

我收到以下错误：

df2['item_id'] = df2['item_id'].map(lambda x: x.split('--_-')[1])
IndexError: list index out of range

Run Code Online (Sandbox Code Playgroud)

然后我决定尝试：

def split(x):
    try: z = x.split('--_-')[1]
    except:  z = None
df2['par_id'] = df2['item_id'].apply(split)

Run Code Online (Sandbox Code Playgroud)

但在这种情况下，我得到一个空的 par_id 列，我知道，这可能是一个非常微不足道的问题，但这里的问题是什么？

python pandas

edy*_*y13

lucky-day

7
推荐指数

1
解决办法

9190
查看次数

Pandas 对单元格中的字符串进行排序

我有这样的数据框：

individual  states
1           Alaska, Hawaii 
2           Hawaii, Alaska
3           Kansas, Iowa, Maryland
4           New Jersey, Newada
5           Newada, New Jersey

Run Code Online (Sandbox Code Playgroud)

我想对单元格内的字符串进行排序，并希望获得以下数据框

individual  states
1           Alaska, Hawaii 
2           Alaska, Hawaii
3           Iowa, Kansas, Maryland
4           New Jersey, Newada
5           New Jersey, Newada

Run Code Online (Sandbox Code Playgroud)

我怎样才能做到呢？

python pandas

edy*_*y13

2019 04-21

5
推荐指数

1
解决办法

1453
查看次数

在python中使用带有大小写不敏感的endswith

我有一个文件扩展名列表,我必须写条件.就像是

ext = (".dae", ".xml", ".blend", ".bvh", ".3ds", ".ase",
           ".obj", ".ply", ".dxf", ".ifc", ".nff", ".smd",
           ".vta", ".mdl", ".md2", ".md3"
           ".pk3", ".mdc", ".x"
           ".q3o", ".q3s", ".raw"
           ".ac", ".dxf", ".irrmesh"
           ".irr", ".off", ".ter"
           ".mdl", ".hmp", ".mesh.xml"
           ".skeleton.xml", ".material", ".ms3dv"
           ".lwo", ".lws", ".lxo"
           ".csm", ".cob", ".scn"
           ".xgl", ".zgl")
for folder, subfolders, filename in os.walk(directory):
    if any([filename.endswith(tuple(ext)) for filename in filenames]):

Run Code Online (Sandbox Code Playgroud)

我意识到endwith是区分大小写的.例如,我可以将".xml"和".XML"视为相同的扩展名吗？

python regex os.walk

edy*_*y13

lucky-day

4
推荐指数

1
解决办法

3976
查看次数

如何选择不仅包含NaN值和0的行

这是我的数据帧:

cols = ['Country', 'Year', 'Orange', 'Apple', 'Plump']

data = [['US', 2008, 17, 29, 19],
        ['US', 2009, 11, 12, 16],
        ['US', 2010, 14, 16, 38],
        ['Spain', 2008, 11, None, 33],
        ['Spain', 2009, 12, 19, 17],
        ['France', 2008, 17, 19, 21],
        ['France', 2009, 19, 22, 13],
        ['France', 2010, 12, 11, 0],
        ['France', 2010, 0, 0, 0],
        ['Italy', 2009, None, None, None],
        ['Italy', 2010, 15, 16, 17],
        ['Italy', 2010, 0, None, None],
        ['Italy', 2011, 42, None, None]]

Run Code Online (Sandbox Code Playgroud)

我想选择橙色苹果和丰满不仅仅由"无"组成的行,只有0或混合它们.所以结果输出应该是:

   Country  Year  Orange  Apple …

Run Code Online (Sandbox Code Playgroud)

python pandas

edy*_*y13

2017 04-28

3
推荐指数

1
解决办法

66
查看次数

在 Python 中使用 pyassimp 库

那里有太多信息，我尝试了其中的大部分。但是，我无法让 assimp 在 Python 中工作。这是我得到的错误：

  File "C:\Users\X\AppData\Local\Programs\Python\Python35\lib\site-packages\pyassimp\helper.py", line 234, in search_library
    raise AssimpError("assimp library not found")
pyassimp.errors.AssimpError: assimp library not found

Run Code Online (Sandbox Code Playgroud)

我知道我必须在当前工作目录中包含 dll 文件。我在互联网上找到了一个 Assimp64.dll 文件并将其复制到我的工作目录中。但这没有用。还尝试了这个建议： https://github.com/assimp/assimp/issues/1438 不过，它不起作用..我还尝试使用 cmake 编译 assimp.dll，但我无法做到这一点。我该如何解决我的问题？有任何想法吗？

python assimp trimesh

edy*_*y13

lucky-day

3
推荐指数

1
解决办法

6673
查看次数

用pandas读取rpt文件

我使用以下方法将 rpt 数据读取到熊猫：

import pandas as pd
df = pd.read_fwf("2014-1.rpt", skiprows=[1], nrows=150)

Run Code Online (Sandbox Code Playgroud)

我实际上按照这里的 anwser 但是，对于某些列，分隔不准确。这是我得到的样本：

Country   Order Date Device   Category
UK        2014-01-03 Desktop  Shoes
IT        2014-01-03 Desktop  Shoes
FR        2014-01-04 Desktop  Dress
FR        2014-01-04 Tablet   Dress
US        2014-01-05 Desktop  Bags
US        2014-01-06 Desktop  Bags
UK        2014-01-07 Tablet   Dress

Run Code Online (Sandbox Code Playgroud)

例如，它将 Order Date 和 Device 列读取为单个列。其实这只是一个例子，有很多这样的专栏。如何解决？你有什么主意吗？实际上这些有问题的列可能有固定的宽度

python pandas

edy*_*y13

lucky-day

2
推荐指数

1
解决办法

8214
查看次数