小编Ale*_*ont的帖子

iPython笔记本没有加载:输出太多

我有一个没有加载的iPython笔记本文件,大概是因为文件中有太多的输出(打印了数千行结果,旧计算机).

我可以使用记事本编辑文件而不会出现问题,但是复制然后逐个单元地清理代码非常耗时.

有没有办法以不同方式恢复代码,或者要求iPython笔记本只加载代码而不打开文件时打印所有过去的输出？

ipython ipython-notebook

Ale*_*ont

lucky-day

5
推荐指数

1
解决办法

1357
查看次数

在 mac 上使用 python 和 selenium 使用默认用户配置文件打开 chrome

我试图让 Selenium 打开 Chrome，就像我自己打开它一样，即我应该像 Facebook 一样登录我的帐户。

我有以下代码：

def startChrome():
    options = webdriver.ChromeOptions() 
    options.add_argument("user-data-dir=/Users/alexiseggermont/Library/Application Support/Google/Chrome/Default/")
    driver = webdriver.Chrome(chrome_options=options)
    driver.set_page_load_timeout(60)
    return driver

driver = startChrome()
url = 'https://www.facebook.com'
driver.get(url)

Run Code Online (Sandbox Code Playgroud)

然而，这让我在没有登录的情况下进入 Facebook。我已经检查过chrome://version并且个人资料 URL 实际上是正确的。我究竟做错了什么？

使用 Python 3，Chrome 版本 63.0.3239.84，MacOS High Sierra

python selenium google-chrome headless-browser google-chrome-headless

Ale*_*ont

2017 12-24

5
推荐指数

1
解决办法

6246
查看次数

Group By大数据集的操作

是否有一个简单的方法/模块在python中进行分组操作,数据集太大而无法放入内存中？

我通常会使用pandas,但它会因大型数据集而崩溃.

python pandas pandas-groupby

Ale*_*ont

2017 05-19

4
推荐指数

1
解决办法

819
查看次数

在没有安装Hadoop的情况下在Spark上提交.py脚本

我有以下简单的wordcount Python脚本.

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

from operator import add
f=sc.textFile("C:/Spark/spark-1.2.0/README.md")
wc=f.flatMap(lambda x: x.split(" ")).map(lambda x: (x,1)).reduceByKey(add)
print wc
wc.saveAsTextFile("wc_out.txt")

Run Code Online (Sandbox Code Playgroud)

我正在使用此命令行启动此脚本:

spark-submit "C:/Users/Alexis/Desktop/SparkTest.py"

Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

Picked up _JAVA_OPTIONS: -Djava.net.preferIPv4Stack=true
15/04/20 18:58:01 WARN Utils: Your hostname, AE-LenovoUltra resolves to a loopba
ck address: 127.0.1.2; using 192.168.1.63 instead (on interface net0)
15/04/20 18:58:01 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another
address
15/04/20 18:58:10 WARN NativeCodeLoader: Unable to load native-hadoop …

Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark

Ale*_*ont

lucky-day

4
推荐指数

1
解决办法

3280
查看次数

熊猫按最接近的时间合并数据帧

我有两个数据框（logs和failures），我想将其合并，以便添加logs一列，其值是在“故障”中找到的最接近日期的值。

生成logs，failures和所需代码的代码output如下：

import pandas as pd
logs=pd.DataFrame({'date-time':pd.Series(['23/10/2015 10:20:54','22/10/2015 09:51:32','21/10/2015 06:51:32','28/10/2015 16:59:32','25/10/2015 04:41:32','24/10/2015 11:50:11']),'var1':pd.Series([0,1,3,1,2,4])})
logs['date-time']=pd.to_datetime(logs['date-time'])
failures=pd.DataFrame({'date':pd.Series(['23/10/2015 00:00:00','22/10/2015 00:00:00','21/10/2015 00:00:00']),'failure':pd.Series([1,1,1])})
failures['date']=pd.to_datetime(failures['date'])
output=pd.DataFrame({'date-time':pd.Series(['23/10/2015 10:20:54','22/10/2015 09:51:32','21/10/2015 06:51:32','28/10/2015 16:59:32','25/10/2015 04:41:32','24/10/2015 11:50:11']),'var1':pd.Series([0,1,3,1,2,4]),'closest_failure':pd.Series(['23/10/2015 00:00:00','22/10/2015 00:00:00','21/10/2015 00:00:00','23/10/2015 00:00:00','23/10/2015 00:00:00','23/10/2015 00:00:00'])})
output['date-time']=pd.to_datetime(output['date-time'])

Run Code Online (Sandbox Code Playgroud)

有任何想法吗？实际数据集非常大，因此效率也是一个问题。

pandas

Ale*_*ont

2015 10-22

4
推荐指数

2
解决办法

2866
查看次数

pip 不会安装包

我正在尝试使用 pip安装此软件包：https : //github.com/gka/pyshppeocode。

我收到错误消息：

Cannot unpack file c:\users\alexis\appdata\local\temp\pip-xljjwr-unpack\pyshpgeocode.git (downloaded from c:\users\alexis\appdata\local\temp\pip-jtyh7r-build, content-type: text/html; charset=utf-8); cannot detect archive format
Cannot determine archive format of c:\users\alexis\appdata\local\temp\pip-jtyh7r-build

Run Code Online (Sandbox Code Playgroud)

这是什么问题，我还能如何安装这个包？

python packages pip

Ale*_*ont

lucky-day

4
推荐指数

2
解决办法

8409
查看次数

VLOOKUP等效函数在pandas DataFrame中查找值

我有一个pandas数据帧,具有以下结构:

DF_Cell, DF_Site
C1,A
C2,A
C3,B
C4,B
C5,B

Run Code Online (Sandbox Code Playgroud)

我有一个很长的循环(1亿次迭代),其中我逐个处理对应于DataFrame中"DF_Cell"列的字符串(第一次循环迭代创建C1,第二次迭代创建C2等等).

我想在数据帧中查找与循环中处理的单元格(DF_Cell)对应的DF_Site.

我能想到的一种方法是将处理过的单元格放在一个单元格的DataFrame中然后对其进行左合并,但这对于这样的大数据来说效率太低了.

有没有更好的办法？

lookup pandas

Ale*_*ont

2014 01-10

3
推荐指数

1
解决办法

7728
查看次数

Pandas：找到每行的最大（和第二个最大值）值的列名和值

我输入了一些看起来像 DF1 的东西（下面要生成的代码），并希望输出一些看起来像 DF2 的东西。

这个想法是为每一行找到该行中具有最高值的列名，相应的值，以及该行中具有第二大值的列名，以及它的对应值。

有没有简单的方法可以用熊猫做到这一点？

import pandas as pd
DF1 = pd.DataFrame({'User' : pd.Series(["Line1","Line2","Line3", "Line4"], index=['1', '2','3','4']), 'Var1' : pd.Series([9,12,3,21], index=['1', '2','3','4']),'Var2' : pd.Series([8,16,3,2], index=['1', '2','3','4']),'Var3' : pd.Series([7,5,6,9], index=['1', '2','3','4']),'Var4' : pd.Series([10,13,20,20], index=['1', '2','3','4']),'Var5' : pd.Series([8,2,13,1], index=['1', '2','3','4']),'Var6' : pd.Series([4,4,7,11], index=['1', '2','3','4']),'Var7' : pd.Series([15,13,4,7], index=['1', '2','3','4'])})
DF1

DF2 = pd.DataFrame({'User' : pd.Series(["Line1","Line2","Line3", "Line4"], index=['1', '2','3','4']), 'Max1Name' : pd.Series(["Var7","Var2","Var4","Var1"], index=['1', '2','3','4']),'Max1Value' : pd.Series([15,16,20,21], index=['1', '2','3','4']),'Max2Name' : pd.Series(["Var4","Var4","Var5","Var4"], index=['1', '2','3','4']),'Max2Value' : pd.Series([10,13,13,20], index=['1', '2','3','4'])})
DF2

Run Code Online (Sandbox Code Playgroud)

python pandas

Ale*_*ont

lucky-day

3
推荐指数

1
解决办法

1735
查看次数

将大熊猫分为两部分

还有其他类似的问题,但不同之处在于我的数据框架已经有很多列,其中只有一列需要拆分.

我有一个大型数据帧(数百列,数百万行).当在字符串中找到字符("|")时,我想拆分其中一列.

所有值只有一个"|".

对于固定长度,我会这样做:df ['StateInitial'] = df ['state'].str [:2]

我希望我可以用string.index("|")替换2,但是如何调用字符串呢？

python dataframe pandas

Ale*_*ont

lucky-day

3
推荐指数

1
解决办法

7613
查看次数

使用 ipywidgets 更新图表：

我在 jupyter 笔记本上使用 seaborn，并且想要一个滑块来更新图表。我的代码如下：

from ipywidgets import interact, interactive, fixed, interact_manual
import numpy as np
import seaborn as sns
from IPython.display import clear_output

def f(var):
    print(var)
    clear_output(wait=True)
    sns.distplot(list(np.random.normal(1,var,1000)))

interact(f, var=10);

Run Code Online (Sandbox Code Playgroud)

问题：每次移动滑块时，图表都会重复。我该如何更新图表？

seaborn jupyter-notebook ipywidgets

Ale*_*ont

lucky-day

3
推荐指数

1
解决办法

4933
查看次数