标签: data-analysis

在 R 中使用 for 循环绘制许多直方图

我有一个 .csv 文件,其中包含如下数据:

         RI    Na   Mg   Al    Si    K    Ca   Ba   Fe Type
1   1.51793 12.79 3.50 1.12 73.03 0.64  8.77 0.00 0.00  BWF
2   1.51643 12.16 3.52 1.35 72.89 0.57  8.53 0.00 0.00  VWF
3   1.51793 13.21 3.48 1.41 72.64 0.59  8.43 0.00 0.00  BWF
4   1.51299 14.40 1.74 1.54 74.55 0.00  7.59 0.00 0.00  TBL
5   1.53393 12.30 0.00 1.00 70.16 0.12 16.19 0.00 0.24 BWNF
6   1.51655 12.75 2.85 1.44 73.27 0.57  8.79 0.11 0.22 BWNF
Run Code Online (Sandbox Code Playgroud)

我想为每一列的分布创建直方图。我试过这个: …

statistics r histogram data-analysis

4
推荐指数
1
解决办法
2万
查看次数

AWK比较两个单独文件中的两列

我想比较两个文件,并做这样的事情:如果第一个文件中的第5列等于第二个文件中的第5列,我想打印第一个文件中的整行.那可能吗?我搜索了这个问题,但无法找到解决方案:(

文件由制表符分隔,我试过这样的事情:

zcat file1.txt.gz file2.txt.gz | awk -F'\t' 'NR==FNR{a[$5];next}$5 in a {print $0}'
Run Code Online (Sandbox Code Playgroud)

有没有人试图做类似的事情?:)

在此先感谢您的帮助!

linux bash comparison awk data-analysis

4
推荐指数
1
解决办法
257
查看次数

线性模型的系数太大/太低

在对词袋实现线性回归模型期间,python 返回了非常大/非常低的值。train_data_features包含训练数据中的所有单词。训练数据包含大约 400 条评论,每条评论少于 500 个字符,排名在 0 到 5 之间。之后,我为每个文档创建了一个词袋。在尝试对所有词袋的矩阵进行线性回归时,

from sklearn import linear_model 
clf = linear_model.LinearRegression()
clf.fit(train_data_features, train['dim_hate'])

coef = clf.coef_
words = vectorizer.get_feature_names()

for i in range(len(words)):
    print(str(words[i]) + " " + str(coef[i]))
Run Code Online (Sandbox Code Playgroud)

结果似乎很奇怪(只是 4000 中的 3 个示例)。它显示了为单词创建的回归函数的因素。

btw -0.297473967075
land 54662731702.0
landesrekord -483965045.253
Run Code Online (Sandbox Code Playgroud)

我很困惑,因为目标变量在 0 到 5 之间,但因子是如此不同。他们中的大多数都有非常高/低的数字,我只期待像btw.

你有什么想法,为什么结果是这样的?

python numpy data-analysis python-3.x scikit-learn

4
推荐指数
2
解决办法
5996
查看次数

如何使用dplyr按id过滤数据框组中列的前10个百分点

我有以下数据框:

id   total_transfered_amount day
1       1000                 2
1       2000                 3
1       3000                 4
1       1000                 1
1       10000                4
2       5000                 3
2       6000                 4
2       40000                2
2       4000                 3
2       4000                 3
3       1000                 1
3       2000                 2
3       3000                 3
3       30000                3
3       3000                 3
Run Code Online (Sandbox Code Playgroud)

需要使用 dplyr 包preferabely分别为每个id过滤掉'total_transfered_amount'列中超过90个百分点的行,例如我需要过滤掉以下行:

2       40000                2
3       30000                3
Run Code Online (Sandbox Code Playgroud)

r data-analysis percentile dataframe dplyr

4
推荐指数
2
解决办法
6390
查看次数

如何在r中分隔年,月和日中的日期

我在数据框中有一个日期变量,日期为“YYYY-MM-DD”格式。

我在tidyr包中使用了单独的函数(下面),但它没有在表中添加列。

separate(<table name>, "<date variable>", c("Year", "Month", "Day"), sep = "-")
Run Code Online (Sandbox Code Playgroud)

如何将“年”、“月”和“日”变量添加到表的末尾?

r date data-analysis data-science

4
推荐指数
1
解决办法
1万
查看次数

Python / Pandas - 合并基于非索引列的两个数据帧

我想加入两个数据框。已经尝试过 concat、merge 和 join,但我应该做错了什么。

df 1:

index    cnpj   country   state
1        7468        34      23   
4        3421        23      12
7        2314        12      45


df 2:

index    cnpj    street  number
2        7468        32      34   
5        3421        18      89
546      2314        92      73
Run Code Online (Sandbox Code Playgroud)

我希望使用“cnpj”作为“连接键”合并它们并保留 df1 的索引。它应该是这样的:

df 1:

index    cnpj   country   state    street  number
1        7468        34      23        32      34      
4        3421        23      12        18      89
7        2314        12      45        92      73
Run Code Online (Sandbox Code Playgroud)

关于如何做到这一点的任何建议?

python data-analysis dataframe pandas

4
推荐指数
1
解决办法
2353
查看次数

熊猫数据框分配不更新数据框

我制作了Iris 数据集的Pandas 数据框,我想在其中添加 4 个额外的列。列的内容必须是 SepalRatio、PetalRatio、SepalMultiplied、PetalMultiplied。我使用 DataFrame 的 assign() 函数来添加这四列,但 DataFrame 保持不变。

我添加列的代码是:

iris.assign(SepalRatio = iris['SepalLengthCm'] / `iris['SepalWidthCm']).assign(PetalRatio = iris['PetalLengthCm'] / iris['PetalWidthCm']).assign(SepalMultiplied = iris['SepalLengthCm'] * iris['SepalWidthCm']).assign(PetalMultiplied = iris['PetalLengthCm'] * iris['PetalWidthCm'])`
Run Code Online (Sandbox Code Playgroud)

在 Jupyter notebook 中执行时,会显示正确的表,但如果我使用打印语句,则不会添加四列。

Jupyter 笔记本中的输出:

    Id  SepalLengthCm   SepalWidthCm    PetalLengthCm   PetalWidthCm    Species SepalRatio  PetalRatio  SepalMultiplied PetalMultiplied
0   1   5.1 3.5 1.4 0.2 Iris-setosa 1.457143    7.000000    17.85   0.28
1   2   4.9 3.0 1.4 0.2 Iris-setosa 1.633333    7.000000    14.70   0.28
2   3   4.7 3.2 1.3 0.2 Iris-setosa 1.468750    6.500000    15.04 …
Run Code Online (Sandbox Code Playgroud)

python data-analysis pandas jupyter

4
推荐指数
1
解决办法
2322
查看次数

根据条件删除 dask dataFrame 中的行

我试图在我的 dask 数据框中删除一些行:

df.drop(df[(df.A <= 3) | (df.A > 1000)].index)
Run Code Online (Sandbox Code Playgroud)

但是这个不起作用并返回 NotImplementedError: Drop currently only works for axis=1

我真的需要帮助

data-analysis dataframe python-3.x dask

4
推荐指数
1
解决办法
3942
查看次数

将 Pandas 数据框列名传输到字典

我正在尝试将 Pandas 数据框列名转换为字典。不太担心数据框中的实际数据。

假设我有一个这样的示例数据框,我现在不太担心索引:

Col1 Col2 Col3 Col4
--------------------
 a    b    c    a
 b    d    e    c
Run Code Online (Sandbox Code Playgroud)

我想得到一个字典的输出,如:

{'Col1': 0, 'Col2': 1, 'Col3': 2, 'Col4': 3}
Run Code Online (Sandbox Code Playgroud)

不用太担心它们打印出来的顺序,只要字典中指定的键保持每个列名顺序的顺序即可。

python dictionary data-analysis dataframe pandas

4
推荐指数
1
解决办法
1703
查看次数

如何将具有“结束”和“开始”行的事件数据帧转换为按事件数据帧重新组合的数据帧?

我有一个按时间顺序排序的事件数据集。我使用熊猫数据框。这是数据框的样子:

Time                         Event   Location    ID
2020-05-22 21:22:04.784622   start   UK          50
2020-05-22 21:43:07.060629   end     UK          50
2020-05-25 23:22:04.784622   start   UK          50
2020-05-25 23:43:07.060629   end     UK          50
2020-05-25 23:44:15.000566   start   US          30
2020-05-25 23:48:23.416348   start   Italy       70
2020-05-26 00:48:06.820164   end     US          30
2020-05-26 01:33:42.454450   end     Italy       70
2020-05-27 20:48:23.416348   start   Italy       30
2020-05-27 00:33:42.454450   end     Italy       30
etc
Run Code Online (Sandbox Code Playgroud)

这就是我想要的:

Start_Time                   End_Time                    Location    ID
2020-05-22 21:22:04.784622   2020-05-22 21:43:07.060629  UK          50
2020-05-25 23:22:04.784622   2020-05-25 23:43:07.060629  UK          50
2020-05-25 23:44:15.000566   2020-05-26 00:48:06.820164  US          30
2020-05-25 …
Run Code Online (Sandbox Code Playgroud)

python datetime data-analysis pandas data-science

4
推荐指数
1
解决办法
79
查看次数