小编Han*_*art的帖子

如何在Pandas中找到数字列?

让我们说df是一个熊猫DataFrame.我想找到所有数字类型的列.就像是:

isNumeric = is_numeric(df)
Run Code Online (Sandbox Code Playgroud)

python types pandas

96
推荐指数
8
解决办法
8万
查看次数

如何使用Python中的spyder高效调试?

我喜欢Python,我喜欢Spyder,但我发现Spyder的调试非常糟糕!

  • 每次我设置一个断点,我需要按两个按钮:首先是调试然后是继续按钮(它会自动在第一行暂停),这很烦人.
  • 而且,不是让标准的iPython控制台具有自动完成功能等,而是一个糟糕的ipdb >>控制台,这只是垃圾.
  • 最糟糕的是,这个控制台非常频繁地冻结,即使我写了打印或简单的评估,试图弄清楚是什么错误.这比matlab差很多.
  • 最后但并非最不重要的,如果我从ipdb >> console中调用一个函数,并在其中放置一个断点,它将不会停在那里.在我开始调试(ctrl + F5)之前,我似乎必须将断点放在那里.

你有解决方案或者你能告诉我你如何调试python脚本和函数吗?

我在Windows 8.1 64位上使用全新安装的Anaconda.

python debugging spyder

65
推荐指数
2
解决办法
7万
查看次数

pyspark collect_set或collect_list with groupby

我怎样才能在之后使用collect_setcollect_list使用数据帧groupby.例如:df.groupby('key').collect_set('values').我收到一个错误:AttributeError: 'GroupedData' object has no attribute 'collect_set'

group-by list set collect pyspark

40
推荐指数
1
解决办法
5万
查看次数

没有正规化的sklearn LogisticRegression

sklearn中的逻辑回归类带有L1和L2正则化.如何关闭正则化以获得"原始"逻辑拟合,例如在Matlab中的glmfit?我想我可以设置C =大数,但我不认为这是明智的.

有关详细信息,请参阅 http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

python regression scikit-learn

19
推荐指数
2
解决办法
9334
查看次数

如何在PySpark mllib中滚动自定义估算器

我想Estimator在PySpark MLlib中构建一个简单的自定义.我在这里可以编写一个自定义的Transformer,但我不知道如何在一个Estimator.我也不明白是什么@keyword_only以及为什么我需要这么多的二传手和吸气剂.Scikit-learn似乎有一个适用于自定义模型的文档(请参阅此处,但PySpark没有.

示例模型的伪代码:

class NormalDeviation():
    def __init__(self, threshold = 3):
    def fit(x, y=None):
       self.model = {'mean': x.mean(), 'std': x.std()]
    def predict(x):
       return ((x-self.model['mean']) > self.threshold * self.model['std'])
    def decision_function(x): # does ml-lib support this?
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark apache-spark-ml apache-spark-mllib

13
推荐指数
1
解决办法
4313
查看次数

如何使argsort结果在相等值之间随机?

假设你有一个numpy向量[0,3,1,1,1],你运行argsort 你会得到[0,2,3,4,1]但所有的都是一样的!我想要的是一种有效的方法来改变相同值的索引.有没有想法如何在没有带有两个索引的while循环的情况下做到这一点?

numpy.array([0,3,1,1,1]).argsort()
Run Code Online (Sandbox Code Playgroud)

python sorting random numpy

11
推荐指数
2
解决办法
1516
查看次数

Bokeh:DataTable - 如何设置选定的行

我想以编程方式更改DataTable对象行选择(没有JS,只是python).我试图使用selected底层ColumnsSource 的属性,但没有成功.如何才能做到这一点?

python datatable bokeh

10
推荐指数
1
解决办法
2167
查看次数

python:numpy:命名数组的连接

考虑以下简单示例:

x = numpy.array([(1,2),(3,4)],dtype=[('a','<f4'),('b','<f4')])
y = numpy.array([(1,2),(3,4)],dtype=[('c','<f4'),('d','<f4')])
numpy.hstack((x,y))
Run Code Online (Sandbox Code Playgroud)

一个将收到以下错误:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Python33\lib\site-packages\numpy\core\shape_base.py", line 226, in vstack
    return _nx.concatenate(list(map(atleast_2d,tup)),0)
TypeError: invalid type promotion
Run Code Online (Sandbox Code Playgroud)

如果数组没有标题它可以工作

x = numpy.array([(1,2),(3,4)],dtype='<f4')
y = numpy.array([(1,2),(3,4)],dtype='<f4')
numpy.hstack((x,y))
Run Code Online (Sandbox Code Playgroud)

如果我从x和y中删除名称,它也可以.

问题:如何连接,标题为numpy数组的vstack或hstack?注意:numpy.lib.recfunctions.stack_arrays也不能正常工作

python numpy

9
推荐指数
1
解决办法
6755
查看次数

如何隐藏"py4j.java_gateway:在对象id p0上收到命令c"?

在INFO级别启动日志记录后,我会不断收集py4j.java_gateway:Received command c on object id p0日志.我怎么能隐藏它?

python py4j pyspark

8
推荐指数
2
解决办法
1890
查看次数

使用PyCharm调试Bokeh服务应用程序

Bokeh服务允许使用绘图和小部件编写快速Web应用程序.我如何在使用时调试python代码bokeh serve --show code.py

python bokeh

8
推荐指数
3
解决办法
2862
查看次数