我试图从高清图中抓取数据.我看了类似的问题,但不明白script_execute如何工作或如何使用我的浏览器检测js.这是我目前的代码:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
# Core settings
chrome_path = r"C:\Users\X\Y\chromedriver_win32\chromedriver.exe"
driver = webdriver.Chrome(chrome_path)
driver.implicitly_wait(15)
stats_url = 'https://addons.mozilla.org/en-US/firefox/addon/adblock-plus/statistics/'
driver.get(stats_url)
driver.find_element_by_link_text('by Source').click()
driver.find_element_by_id('custom-date-range').click()
year = driver.find_element_by_id('date-range-start')
year.click()
for i in range(5): # goes back 5 years
year.send_keys(Keys.ARROW_DOWN)
driver.find_element_by_id('date-range-submit').click()
Run Code Online (Sandbox Code Playgroud)
我想从图表中删除"下载"数据,(不仅仅是针对许多页面的此页面).当我使用自定义搜索选项时,网站自动生成的csv文件不会更新.所以唯一的方法是从图表中删除数据.我怎么能这样做?
我有一个这样的数据框:
item_id
26--_-23
24--_-65
12
24--_-54
24
66
23
Run Code Online (Sandbox Code Playgroud)
当我说
df['item_id'] = df['item_id'].map(lambda x: x.split('--_-')[0])
Run Code Online (Sandbox Code Playgroud)
我得到:
item_id
26
24
12
24
24
66
23
Run Code Online (Sandbox Code Playgroud)
没关系。但是当我说:
df['par_id'] = df['item_id'].map(lambda x: x.split('--_-')[1])
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
df2['item_id'] = df2['item_id'].map(lambda x: x.split('--_-')[1])
IndexError: list index out of range
Run Code Online (Sandbox Code Playgroud)
然后我决定尝试:
def split(x):
try: z = x.split('--_-')[1]
except: z = None
df2['par_id'] = df2['item_id'].apply(split)
Run Code Online (Sandbox Code Playgroud)
但在这种情况下,我得到一个空的 par_id 列,我知道,这可能是一个非常微不足道的问题,但这里的问题是什么?
我有这样的数据框:
individual states
1 Alaska, Hawaii
2 Hawaii, Alaska
3 Kansas, Iowa, Maryland
4 New Jersey, Newada
5 Newada, New Jersey
Run Code Online (Sandbox Code Playgroud)
我想对单元格内的字符串进行排序,并希望获得以下数据框
individual states
1 Alaska, Hawaii
2 Alaska, Hawaii
3 Iowa, Kansas, Maryland
4 New Jersey, Newada
5 New Jersey, Newada
Run Code Online (Sandbox Code Playgroud)
我怎样才能做到呢?
我有一个文件扩展名列表,我必须写条件.就像是
ext = (".dae", ".xml", ".blend", ".bvh", ".3ds", ".ase",
".obj", ".ply", ".dxf", ".ifc", ".nff", ".smd",
".vta", ".mdl", ".md2", ".md3"
".pk3", ".mdc", ".x"
".q3o", ".q3s", ".raw"
".ac", ".dxf", ".irrmesh"
".irr", ".off", ".ter"
".mdl", ".hmp", ".mesh.xml"
".skeleton.xml", ".material", ".ms3dv"
".lwo", ".lws", ".lxo"
".csm", ".cob", ".scn"
".xgl", ".zgl")
for folder, subfolders, filename in os.walk(directory):
if any([filename.endswith(tuple(ext)) for filename in filenames]):
Run Code Online (Sandbox Code Playgroud)
我意识到endwith是区分大小写的.例如,我可以将".xml"和".XML"视为相同的扩展名吗?
这是我的数据帧:
cols = ['Country', 'Year', 'Orange', 'Apple', 'Plump']
data = [['US', 2008, 17, 29, 19],
['US', 2009, 11, 12, 16],
['US', 2010, 14, 16, 38],
['Spain', 2008, 11, None, 33],
['Spain', 2009, 12, 19, 17],
['France', 2008, 17, 19, 21],
['France', 2009, 19, 22, 13],
['France', 2010, 12, 11, 0],
['France', 2010, 0, 0, 0],
['Italy', 2009, None, None, None],
['Italy', 2010, 15, 16, 17],
['Italy', 2010, 0, None, None],
['Italy', 2011, 42, None, None]]
Run Code Online (Sandbox Code Playgroud)
我想选择橙色苹果和丰满不仅仅由"无"组成的行,只有0或混合它们.所以结果输出应该是:
Country Year Orange Apple …Run Code Online (Sandbox Code Playgroud) 那里有太多信息,我尝试了其中的大部分。但是,我无法让 assimp 在 Python 中工作。这是我得到的错误:
File "C:\Users\X\AppData\Local\Programs\Python\Python35\lib\site-packages\pyassimp\helper.py", line 234, in search_library
raise AssimpError("assimp library not found")
pyassimp.errors.AssimpError: assimp library not found
Run Code Online (Sandbox Code Playgroud)
我知道我必须在当前工作目录中包含 dll 文件。我在互联网上找到了一个 Assimp64.dll 文件并将其复制到我的工作目录中。但这没有用。还尝试了这个建议: https://github.com/assimp/assimp/issues/1438 不过,它不起作用..我还尝试使用 cmake 编译 assimp.dll,但我无法做到这一点。我该如何解决我的问题?有任何想法吗?
我使用以下方法将 rpt 数据读取到熊猫:
import pandas as pd
df = pd.read_fwf("2014-1.rpt", skiprows=[1], nrows=150)
Run Code Online (Sandbox Code Playgroud)
我实际上按照这里的 anwser 但是,对于某些列,分隔不准确。这是我得到的样本:
Country Order Date Device Category
UK 2014-01-03 Desktop Shoes
IT 2014-01-03 Desktop Shoes
FR 2014-01-04 Desktop Dress
FR 2014-01-04 Tablet Dress
US 2014-01-05 Desktop Bags
US 2014-01-06 Desktop Bags
UK 2014-01-07 Tablet Dress
Run Code Online (Sandbox Code Playgroud)
例如,它将 Order Date 和 Device 列读取为单个列。其实这只是一个例子,有很多这样的专栏。如何解决?你有什么主意吗?实际上这些有问题的列可能有固定的宽度