标签: data-analysis

在点云中查找线条

我有一系列积分.我知道这些点在我的页面中代表了很多行.

我怎么才能找到它们?我是否需要找到点云之间的间距?

谢谢乔纳森

math data-analysis

4
推荐指数
1
解决办法
4051
查看次数

寻找估算方法(数据分析)

由于我现在不知道我在做什么,我的措辞可能听起来很有趣.但说真的,我需要学习.

我现在面临的问题是要拿出一个方法(模型)估算的软件程序是如何工作的:即运行时间和最大内存使用情况.我已经拥有的是大量数据.该数据集概述了程序在不同条件下的工作方式,例如

<code>
RUN     Criterion_A  Criterion_B  Criterion_C  Criterion_D  Criterion_E <br>
------------------------------------------------------------------------
R0001           12         2           3556            27           9 <br>      
R0002            2         5           2154            22           8 <br>
R0003           19        12           5556            37           9 <br>
R0004           10         3           1556             7           9 <br>
R0005           5          1            556            17           8 <br>
</code>
Run Code Online (Sandbox Code Playgroud)

我有数千行这样的数据.现在我需要知道如果我事先知道所有标准,我如何估计(预测)运行时间和最大内存使用量.我需要的是一个给出提示(上限或范围)的近似值.

我觉得这是一个典型的??? 我不知道的问题.你们能给我一些提示或给我一些想法(理论,解释,网页)或任何可能有用的东西.谢谢!

statistics data-analysis approximation forecasting

4
推荐指数
1
解决办法
456
查看次数

Pandas根据项值返回索引和列名

我试图根据项值返回列名和索引.我有这样的事情:

在此输入图像描述

所以,让我今天尝试返回值> 0.75的所有值的索引和列名称.

for date, row in df.iterrows():
    for item in row:
        if item > .75:
            print index, row
Run Code Online (Sandbox Code Playgroud)

我希望这可以归还"交通和抢劫".但是,这会返回所有值.我没有在文档,在线或这里找到答案.先感谢您.

python data-analysis pandas

4
推荐指数
1
解决办法
2553
查看次数

t-SNE高维数据可视化

我有一个twitter语料库,我用它来构建情绪分析应用程序.语料库有5k个推文,手写标记为 - 否定,中立或正面

为了表示文本 - 我正在使用gensim word2vec预训练向量.每个单词都映射到300个维度.对于推文,我添加所有单词向量以获得单个300暗淡向量.因此,每条推文都映射到300维的单个向量.

我使用t-SNE(tsne python包)可视化我的数据.参见附图1 - 红点=负推文,蓝点=中性推文和绿点=正推文

使用word2vec表示的推文

问题: 在图中,数据点之间没有明确的分离(边界).我可以假设300尺寸中的原始点也是如此吗?

即如果点在t-SNE图中重叠,那么它们在原始空间中也会重叠,反之亦然?

python nlp machine-learning data-analysis scikit-learn

4
推荐指数
1
解决办法
1012
查看次数

Pandas将每一行与数据框中的所有行进行比较,并将结果保存在每行的列表中

我试图通过fuzzywuzzy.fuzzy.partial_ratio()> = 85,在大熊猫DF所有行比较每行写在结果列表的每一行.

in: df = pd.DataFrame( {'id':[1, 2, 3, 4, 5, 6], 'name':['dog', 'cat', 'mad cat', 'good dog', 'bad dog', 'chicken']})
Run Code Online (Sandbox Code Playgroud)

使用pandas函数与fuzzywuzzy库得到结果:

out: 
    id  name     match_id_list
    1   dog      [4, 5]
    2   cat      [3, ]
    3   mad cat  [2, ]
    4   good dog [1, 5]
    5   bad dog  [1, 4]
    6   chicken  []
Run Code Online (Sandbox Code Playgroud)

但我不明白怎么弄这个.

python data-analysis pandas fuzzywuzzy

4
推荐指数
1
解决办法
3949
查看次数

Python Pandas-如何通过一个值过滤多列

我正在做熊猫分析。
我的表有700万行* 30列。单元格值的范围从-1到3随机。现在,我想根据列的值过滤掉行。

我了解如何根据多个条件进行选择,写下条件并通过“&”“ |”组合。
但是我有30列要过滤,并按相同的值过滤。例如,需要选择最后12列的值等于-1

df.iloc[:,-12:]==-1
Run Code Online (Sandbox Code Playgroud)

上面的代码给了我一个布尔值。我需要实际的数据框。
这里的逻辑是“或”,表示如果任何列的值为-1,则需要选择该行。另外,很高兴知道我是否需要“和”,所有列的值都为-1?
非常感谢

python data-analysis pandas

4
推荐指数
1
解决办法
1900
查看次数

在plt.cm.get_cmap中可以使用什么名称?

我有这个代码:

plt.scatter(data_projected[:,0],data_projected[:,1],c=digits.target
        ,edgecolors='none',alpha=0.5,cmap=plt.cm.get_cmap('nipy_spectral',10));    
Run Code Online (Sandbox Code Playgroud)

我的困惑来自plt.cm.get_cmap('nipy_spectral',10)。有时会有plt.cm.get_cmap('RdYlBu')代替。

就是'RdYlBu''nipy_spectral'一个颜色的名称?还有其他名称可以代替吗?

是否有所有可用颜色的清单?

我已经阅读了该文档,但是它似乎无济于事,或者我听不懂。

python matplotlib data-analysis python-3.x matplotlib-basemap

4
推荐指数
2
解决办法
1万
查看次数

如何将列名放入pandas中具有特定条件的数据框单元格中

我有这样的数据帧:

         ADR     WD      EF    INF    SSI   DI
0        1.0    NaN     NaN    NaN    NaN  NaN
1        NaN    NaN     1      1      NaN  NaN
2        NaN    NaN     NaN    NaN    1    NaN
3        NaN    1       1      1      NaN  NaN
4        NaN    1.0     NaN    NaN    NaN  NaN
Run Code Online (Sandbox Code Playgroud)

我希望结果是这样的:

[["ADR"],["EF","INF"],["SSI"],["WD","EF","INF"],["WD"]]
Run Code Online (Sandbox Code Playgroud)

如您所见,如果列中有列的名称已被替换1.所有都被放在另一个阵列中.

我看过这个帖子链接,但它没有帮助我,因为名称已经静态改变.

谢谢:)

python data-analysis dataframe pandas

4
推荐指数
2
解决办法
53
查看次数

使用R中的any()实现检测数字是否为素数的函数

正在探索避免for循环的方法,而是使用any()函数来实现一个函数,当传递的参数为prime和false时,它给出true.

这是我有的:

prime2 <- function(n) {
  rangeOfNumbers <- range(2:(n-1))
  if(any(n%%rangeOfNumbers == 0)){
    return(FALSE)
  }
  else return(TRUE)
}
Run Code Online (Sandbox Code Playgroud)

看起来很直接,但prime(55)给出TRUE而不是假.

我究竟做错了什么?

primes r data-analysis any

4
推荐指数
1
解决办法
481
查看次数

case_when从R到Python的函数

我如何在python代码中实现R的case_when函数?

这是R的case_when函数:

https://www.rdocumentation.org/packages/dplyr/versions/0.7.8/topics/case_when

作为最小工作示例,假设我们有以下数据帧(后面是python代码):

import pandas as pd
import numpy as np

data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'age': [42, 52, 36, 24, 73], 
        'preTestScore': [4, 24, 31, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70]}
df = pd.DataFrame(data, columns = ['name', 'age', 'preTestScore', 'postTestScore'])
df
Run Code Online (Sandbox Code Playgroud)

假设我们要创建一个名为"老年人"的新列,该列查看"年龄"列并执行以下操作:

if age < 10 then baby
 if age >= 10 and age < 20 then kid 
if age >=20 and age < 30 then young 
if age >= 30 and age …
Run Code Online (Sandbox Code Playgroud)

python data-analysis dataframe pandas

4
推荐指数
2
解决办法
476
查看次数