标签: data-science

将具有各种长度向量的列表转换为R中的data.frame的最简单方法

这里我有一个不同长度向量的列表.我想要一个data.frame.我在SO中看过很多关于它的帖子(参见参考资料),但是没有一个像我预期的那样简单,因为这实际上是数据预处理中的常见任务.谢谢.

这里最简单的意思as.data.frame(aa)是它是否有效.所以R的基础包中的一个函数会很棒.sapply(aa, "length<-", max(lengths(aa)))实际上有四个功能.

一个例子如下所示.

输入:

aa <- list(A=c(1, 3, 4), B=c(3,5,7,7,8))
Run Code Online (Sandbox Code Playgroud)

输出:

A B
1 3
3 5
4 7
NA 7
NA 8
Run Code Online (Sandbox Code Playgroud)

A和B是data.frame的colnames.

答案是sapply(aa, '[', seq(max(sapply(aa, length)))),但它也很复杂.

参考:

  1. 如何将包含不同长度矢量的列表转换为R中的可用数据帧?

  2. 组合不同长度的(cbind)向量

r list dataframe data-science

2
推荐指数
1
解决办法
893
查看次数

Elixir for Data Science

我最近开始玩Elixir,一些模式让我想起了Python,它广泛用于数据科学项目.例如列表推导或匿名函数.

考虑到Elixir的高性能以及运行多个进程和处理异步任务的能力,我认为它非常适合数据科学项目.

我错过了一点吗?有人有经验吗?

python elixir data-science

2
推荐指数
1
解决办法
2455
查看次数

如何使用 WKT 在 qgis 中绘制多边形?

我有一个包含数据的 csv 文件,其中包含如下数据

POLYGON((79.87749999947846 6.997500000409782,79.88249999947845 6.997500000409782,79.88249999947845 7.002500000409782,79.87749999947846 7.002500000409782,79.87749999947846 6.997500000409782))

我想通过在 qgis 中使用这个数据字段来绘制一个多边形。我怎样才能做到这一点?

gis qgis data-science

2
推荐指数
1
解决办法
6731
查看次数

按列表过滤熊猫数据框

我有一个数据框,其中有一行名为“Hybridization REF”。我想进行过滤,以便只获取与列表中的项目之一具有相同标签的项目的数据。

基本上,我想做以下事情:

dataframe[dataframe["Hybridization REF'].apply(lambda: x in list)] 
Run Code Online (Sandbox Code Playgroud)

但该语法不正确。

python numpy pandas data-science

2
推荐指数
3
解决办法
1万
查看次数

列列表 X 整个数据框之间的熊猫相关性

我正在寻找有关 Pandas .corr() 方法的帮助。

照原样,我可以使用 .corr() 方法来计算每个可能的列组合的热图:

corr = data.corr()
sns.heatmap(corr)
Run Code Online (Sandbox Code Playgroud)

其中,在我的 23,000 列数据框中,可能会在宇宙热死附近终止。

我还可以在值的子集之间进行更合理的相关

data2 = data[list_of_column_names]
corr = data2.corr(method="pearson")
sns.heatmap(corr)
Run Code Online (Sandbox Code Playgroud)

这给了我一些我可以使用的东西——这是一个看起来像的例子: 示例热图

我想做的是将 20 列的列表与整个数据集进行比较。正常的 .corr() 函数可以给我一个 20x20 或 23,000x23,000 的热图,但基本上我想要一个 20x23,000 的热图。

如何为我的相关性添加更多特异性?

谢谢您的帮助!

python data-visualization pandas data-science

2
推荐指数
1
解决办法
2万
查看次数

给定速度计算加速度

对不起,如果这看起来像一个愚蠢的问题,我有一个看起来像这样的数据集

type    time    latitude    longitude   altitude (m)    speed (km/h)    name    desc    currentdistance timeelapsed
T   2017-10-07 10:44:48 28.750766667    77.088805000    783.5   0.0 2017-10-07_10-44-48     0.0 00:00:00
T   2017-10-07 10:44:58 28.752345000    77.087840000    853.5   7.8         198.70532   00:00:10
T   2017-10-07 10:45:00 28.752501667    77.087705000    854.5   7.7         220.53915   00:00:12
Run Code Online (Sandbox Code Playgroud)

我不确定如何解决这个问题,计算加速度需要考虑速度和时间的差异,对我可以尝试的方法有什么建议吗?

提前致谢

python datetime physics pandas data-science

2
推荐指数
1
解决办法
3115
查看次数

通过分隔符熊猫将列拆分为未知的列数

我试图根据逗号/空格分隔将列拆分为多个列.

我的数据框目前看起来像

    Item                                          Colors
0   ID-1                                          Red, Blue, Green
1   ID-2                                          Red, Blue
2   ID-3                                          Blue, Green
3   ID-4                                          Blue
4   ID-5                                          Red
Run Code Online (Sandbox Code Playgroud)

我想将"颜色"列转换为红色,蓝色和绿色,如下所示:

    Item                                           Red  Blue  Green
0   ID-1                                           1    1     1
1   ID-2                                           1    1     0
2   ID-3                                           0    1     1
3   ID-4                                           0    1     0
4   ID-5                                           1    0     1
Run Code Online (Sandbox Code Playgroud)

我真的不知道该怎么做.任何帮助将不胜感激.

python dataframe pandas data-science

2
推荐指数
1
解决办法
714
查看次数

如何删除数量超过x个Null值的行?

我试图删除数据框中超过7个空值的行.请提出一些有效的方法来实现这一目标.

python-3.x pandas data-science

2
推荐指数
2
解决办法
760
查看次数

TypeError:__call __()缺少1个必需的位置参数:“ inputs”

我试图根据“ input_data”中存在的功能预测收盘价(1或0)。但是,当我尝试运行代码时,出现以下错误,我不确定如何解决此问题。任何帮助都非常感谢,谢谢

Traceback (most recent call last):
  File "F:/Machine Learning/SK_Learn/SVM_Stock.py", line 71, in <module>
    estimator.fit(x,y)
  File "C:\Python35\lib\site-packages\keras\wrappers\scikit_learn.py", line 210, in fit
    return super(KerasClassifier, self).fit(x, y, **kwargs)
  File "C:\Python35\lib\site-packages\keras\wrappers\scikit_learn.py", line 139, in fit
    **self.filter_sk_params(self.build_fn.__call__))
TypeError: __call__() missing 1 required positional argument: 'inputs'
Run Code Online (Sandbox Code Playgroud)

这是代码:

class SVM_Stock:

    def __init__(self):
        pass

    def create_model(self):

        model = Sequential()
        model.add(Dense(14, input_dim=16, kernel_initializer='normal', activation='relu'))
        model.add(Dense(7, kernel_initializer='normal', activation='relu'))
        model.add(Dense(1, kernel_initializer='normal', activation='sigmoid'))
        model.compile(loss='binary_crossentropy',optimizer='rmsprop', metrics=['accuracy'])
        return model


if __name__ == "__main__":

    desired_width = 450
    pd.set_option('display.width', desired_width)
    pd.set_option('display.max_columns', 17)

    ds = pd.read_csv('F:\\Machine …
Run Code Online (Sandbox Code Playgroud)

python machine-learning deep-learning keras data-science

2
推荐指数
1
解决办法
5288
查看次数

如何在Google Colab上安装和使用底图?

我将google Colab笔记本用于需要我在地图上绘制GPS坐标的项目。我想为此使用底图。我尝试通过使用将其导入Colab笔记本中,
from mpl_tools.basemap import Basemap 并显示以下错误:

ModuleNotFoundError                       Traceback (most recent call last)
<ipython-input-24-2cb85a2f9bb7> in <module>()
----> 1 from mpl_tools.basemap import Basemap

ModuleNotFoundError: No module named 'mpl_tools'
Run Code Online (Sandbox Code Playgroud)

我需要安装底图模块才能使用它。我尝试!pip install basemap并尝试在Colab上运行它,但这没有用。

python matplotlib data-analysis data-science google-colaboratory

2
推荐指数
1
解决办法
1399
查看次数