标签: data-science

将具有各种长度向量的列表转换为R中的data.frame的最简单方法

这里我有一个不同长度向量的列表.我想要一个data.frame.我在SO中看过很多关于它的帖子(参见参考资料),但是没有一个像我预期的那样简单,因为这实际上是数据预处理中的常见任务.谢谢.

这里最简单的意思as.data.frame(aa)是它是否有效.所以R的基础包中的一个函数会很棒.sapply(aa, "length<-", max(lengths(aa)))实际上有四个功能.

一个例子如下所示.

输入:

aa <- list(A=c(1, 3, 4), B=c(3,5,7,7,8))

Run Code Online (Sandbox Code Playgroud)

输出:

A B
1 3
3 5
4 7
NA 7
NA 8

Run Code Online (Sandbox Code Playgroud)

A和B是data.frame的colnames.

答案是sapply(aa, '[', seq(max(sapply(aa, length)))),但它也很复杂.

参考:

r list dataframe data-science

Zhi*_*Jia

2017 05-23

2
推荐指数

1
解决办法

893
查看次数

Elixir for Data Science

我最近开始玩Elixir,一些模式让我想起了Python,它广泛用于数据科学项目.例如列表推导或匿名函数.

考虑到Elixir的高性能以及运行多个进程和处理异步任务的能力,我认为它非常适合数据科学项目.

我错过了一点吗？有人有经验吗？

python elixir data-science

Ole*_*ann

lucky-day

2
推荐指数

1
解决办法

2455
查看次数

如何使用 WKT 在 qgis 中绘制多边形？

我有一个包含数据的 csv 文件，其中包含如下数据

POLYGON（（79.87749999947846 6.997500000409782，79.88249999947845 6.997500000409782，79.88249999947845 7.002500000409782，79.87749999947846 7.002500000409782，79.87749999947846 6.997500000409782））

我想通过在 qgis 中使用这个数据字段来绘制一个多边形。我怎样才能做到这一点？

gis qgis data-science

Gih*_*nDB

lucky-day

2
推荐指数

1
解决办法

6731
查看次数

按列表过滤熊猫数据框

我有一个数据框，其中有一行名为“Hybridization REF”。我想进行过滤，以便只获取与列表中的项目之一具有相同标签的项目的数据。

基本上，我想做以下事情：

dataframe[dataframe["Hybridization REF'].apply(lambda: x in list)]

Run Code Online (Sandbox Code Playgroud)

但该语法不正确。

python numpy pandas data-science

Cal*_*arJ

2017 07-12

2
推荐指数

3
解决办法

1万
查看次数

列列表 X 整个数据框之间的熊猫相关性

我正在寻找有关 Pandas .corr() 方法的帮助。

照原样，我可以使用 .corr() 方法来计算每个可能的列组合的热图：

corr = data.corr()
sns.heatmap(corr)

Run Code Online (Sandbox Code Playgroud)

其中，在我的 23,000 列数据框中，可能会在宇宙热死附近终止。

我还可以在值的子集之间进行更合理的相关

data2 = data[list_of_column_names]
corr = data2.corr(method="pearson")
sns.heatmap(corr)

Run Code Online (Sandbox Code Playgroud)

这给了我一些我可以使用的东西——这是一个看起来像的例子：

我想做的是将 20 列的列表与整个数据集进行比较。正常的 .corr() 函数可以给我一个 20x20 或 23,000x23,000 的热图，但基本上我想要一个 20x23,000 的热图。

如何为我的相关性添加更多特异性？

谢谢您的帮助！

python data-visualization pandas data-science

Cal*_*arJ

2017 08-03

2
推荐指数

1
解决办法

2万
查看次数

给定速度计算加速度

对不起，如果这看起来像一个愚蠢的问题，我有一个看起来像这样的数据集

type    time    latitude    longitude   altitude (m)    speed (km/h)    name    desc    currentdistance timeelapsed
T   2017-10-07 10:44:48 28.750766667    77.088805000    783.5   0.0 2017-10-07_10-44-48     0.0 00:00:00
T   2017-10-07 10:44:58 28.752345000    77.087840000    853.5   7.8         198.70532   00:00:10
T   2017-10-07 10:45:00 28.752501667    77.087705000    854.5   7.7         220.53915   00:00:12

Run Code Online (Sandbox Code Playgroud)

我不确定如何解决这个问题，计算加速度需要考虑速度和时间的差异，对我可以尝试的方法有什么建议吗？

提前致谢

python datetime physics pandas data-science

Rya*_*an

2019 07-10

2
推荐指数

1
解决办法

3115
查看次数

通过分隔符熊猫将列拆分为未知的列数

我试图根据逗号/空格分隔将列拆分为多个列.

我的数据框目前看起来像

    Item                                          Colors
0   ID-1                                          Red, Blue, Green
1   ID-2                                          Red, Blue
2   ID-3                                          Blue, Green
3   ID-4                                          Blue
4   ID-5                                          Red

Run Code Online (Sandbox Code Playgroud)

我想将"颜色"列转换为红色,蓝色和绿色,如下所示:

    Item                                           Red  Blue  Green
0   ID-1                                           1    1     1
1   ID-2                                           1    1     0
2   ID-3                                           0    1     1
3   ID-4                                           0    1     0
4   ID-5                                           1    0     1

Run Code Online (Sandbox Code Playgroud)

我真的不知道该怎么做.任何帮助将不胜感激.

python dataframe pandas data-science

chr*_*868

lucky-day

2
推荐指数

1
解决办法

714
查看次数

如何删除数量超过x个Null值的行？

我试图删除数据框中超过7个空值的行.请提出一些有效的方法来实现这一目标.

python-3.x pandas data-science

tia*_*tia

2018 12-06

2
推荐指数

2
解决办法

760
查看次数

TypeError：call （）缺少1个必需的位置参数：“ inputs”

我试图根据“ input_data”中存在的功能预测收盘价（1或0）。但是，当我尝试运行代码时，出现以下错误，我不确定如何解决此问题。任何帮助都非常感谢，谢谢

Traceback (most recent call last):
  File "F:/Machine Learning/SK_Learn/SVM_Stock.py", line 71, in <module>
    estimator.fit(x,y)
  File "C:\Python35\lib\site-packages\keras\wrappers\scikit_learn.py", line 210, in fit
    return super(KerasClassifier, self).fit(x, y, **kwargs)
  File "C:\Python35\lib\site-packages\keras\wrappers\scikit_learn.py", line 139, in fit
    **self.filter_sk_params(self.build_fn.__call__))
TypeError: __call__() missing 1 required positional argument: 'inputs'

Run Code Online (Sandbox Code Playgroud)

这是代码：

class SVM_Stock:

    def __init__(self):
        pass

    def create_model(self):

        model = Sequential()
        model.add(Dense(14, input_dim=16, kernel_initializer='normal', activation='relu'))
        model.add(Dense(7, kernel_initializer='normal', activation='relu'))
        model.add(Dense(1, kernel_initializer='normal', activation='sigmoid'))
        model.compile(loss='binary_crossentropy',optimizer='rmsprop', metrics=['accuracy'])
        return model


if __name__ == "__main__":

    desired_width = 450
    pd.set_option('display.width', desired_width)
    pd.set_option('display.max_columns', 17)

    ds = pd.read_csv('F:\\Machine …

Run Code Online (Sandbox Code Playgroud)

python machine-learning deep-learning keras data-science

Sat*_*mar

2019 02-01

2
推荐指数

1
解决办法

5288
查看次数

如何在Google Colab上安装和使用底图？

我将google Colab笔记本用于需要我在地图上绘制GPS坐标的项目。我想为此使用底图。我尝试通过使用将其导入Colab笔记本中，
from mpl_tools.basemap import Basemap 并显示以下错误：

ModuleNotFoundError                       Traceback (most recent call last)
<ipython-input-24-2cb85a2f9bb7> in <module>()
----> 1 from mpl_tools.basemap import Basemap

ModuleNotFoundError: No module named 'mpl_tools'

Run Code Online (Sandbox Code Playgroud)

我需要安装底图模块才能使用它。我尝试!pip install basemap并尝试在Colab上运行它，但这没有用。

python matplotlib data-analysis data-science google-colaboratory

Sur*_*ain

2019 04-08

2
推荐指数

1
解决办法

1399
查看次数