标签: data-science

matplotlib - 绘制多条线时出现奇怪的 y 轴

为什么这段代码会产生如此奇怪的输出?

我希望图重叠,以便我可以看到重叠的数据点。

这些情节似乎是相互堆叠的。

def read_csv(name):
    file = open(folder+name,newline='')
    reader = csv.reader(file,delimiter=";")
    data = []
    for row in reader:
        data.append(np.array(row[5:]))
    file.close()
    return data


def setup_plotting():
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.xaxis.set_major_locator(plt.MaxNLocator(10))
    ax.yaxis.set_major_locator(plt.MaxNLocator(10))
    return ax


acc_x = read_csv("acc_x.csv")

ax=setup_plotting()

for entry in acc_x:
    ax.plot(entry)
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

请帮我 :)

python plot matplotlib data-science

1
推荐指数
1
解决办法
1117
查看次数

如何提高分类机器学习模型的真阳性率?

我是机器学习新手,我有一个数据集,该数据集具有高度不平衡的类(以负类为主),并且包含超过 2K 的数字特征,目标是 [0,1]。我训练了一个逻辑回归,虽然我得到了 89% 的准确率,但从混淆矩阵来看,发现模型的 True Positive 非常低。以下是我的模型的分数

Accuracy Score : 0.8965989500114129

Precision Score : 0.3333333333333333

Recall Score : 0.029545454545454545

F1 Score : 0.05427974947807933

如何提高我的真实积极率?我应该使用不同的分类模型吗?

我尝试过 PCA 并将我的数据表示为 2 个组件,它将模型准确率提高到 90%(大约),但真实阳性率再次下降

python statistics machine-learning data-science

1
推荐指数
1
解决办法
6361
查看次数

将 scala 映射值与列表进行比较,并返回列表中不存在的键的默认值

我试图将 Scala HashMap 的键与值列表进行比较,如果列表中不存在该键,我需要将 Map 的值更新为默认值 -1。

例如:考虑以下情况:

列表:

val pos = List("100","110")
Run Code Online (Sandbox Code Playgroud)

地图:

scala> idSizeMap
res2: scala.collection.immutable.Map[String,Long] = Map(100 -> 4240070722, 110 -> 611884363, 120 -> 1825405636, 130 -> 2194234, 72 -> 3685020648)
Run Code Online (Sandbox Code Playgroud)

使用filterKeys我可以做类似交集的操作

scala> val result = idSizeMap.filterKeys(pos.contains)
result: scala.collection.immutable.Map[String,Long] = Map(100 -> 4240070722, 110 -> 611884363)
Run Code Online (Sandbox Code Playgroud)

但我也希望旧地图中的键具有默认值 -1。预期输出:

Map(100 -> 4240070722, 110 -> 611884363, 120 -> -1, 130, -1, 72 -> -1)
Run Code Online (Sandbox Code Playgroud)

我还尝试了以下操作,它执行与 filterKeys 相同的操作:

var similarItems = Map[String, Long]()
similarItems: scala.collection.immutable.Map[String,Long] = Map()

scala> for (eachpos …
Run Code Online (Sandbox Code Playgroud)

dictionary hadoop scala data-science

1
推荐指数
1
解决办法
324
查看次数

OneHotEncoder:__init__() 得到了一个意外的关键字参数“categorical_features”

我在使用 onehotencoder 时遇到此错误,其中缺少 thecategorical_features 属性,我正在使用 google colab。

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
le = LabelEncoder()
X = star.iloc[:,:6].values
y = star.iloc[:,-1].values
X[:,5] = le.fit_transform(X[:,5])
y[:] = le.fit_transform(y[:])

ohe = OneHotEncoder(categorical_features= [5])
X = ohe.fit_transform(X).toarray()


TypeError                                 Traceback (most recent call last)
<ipython-input-47-93f73a1a04ad> in <module>()
----> 1 ohe = OneHotEncoder(categorical_features= [5])
      2 X = ohe.fit_transform(X).toarray()

TypeError: __init__() got an unexpected keyword argument 'categorical_features'
Run Code Online (Sandbox Code Playgroud)

python machine-learning data-science one-hot-encoding

1
推荐指数
1
解决办法
4038
查看次数

有没有办法将 csv 文件从 github 自动导入我的 jupyter notebook

我是一个初学者,我正在开发一个代码来可视化冠状病毒在全球的传播,我想从GitHub 存储库(csse_covid_19_data中提取 .csv 文件,其中每 2 天上传一个新的 .csv 文件。是否可以将最新的 csv 文件自动导入笔记本,而不是手动下载文件?

我试过抓取数据,但没有帮助

import requests

url = 'https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/03-08-2020.csv'
response = requests.get(url)
print(response.text)
Run Code Online (Sandbox Code Playgroud)

python web-scraping data-science

1
推荐指数
1
解决办法
2877
查看次数

如何检查a是否是2的幂

我想知道是否有一种有效的方法可以知道我的数据框中列的哪些值是 2 的幂。我的数据是一个有 6 列的数据框,其中一列的值是我想要检查的数字是否为 2 的幂。

class(df$doubling_times) > numeric

validation r filter dataframe data-science

1
推荐指数
1
解决办法
61
查看次数

如何替换数据框中的所有各种空值,使它们都是 NaN,而不是“-”或其他

正如标题所说,我有一个包含空值的数据集。问题是其中一些由 a 表示'-',一些由NaN.

将它们全部更改为NaN或 更好'-'吗?

python dataframe pandas data-science

1
推荐指数
1
解决办法
61
查看次数

从列表字典更新我的数据框

我有一个带有特定 ID 的数据框,我还有一个列表字典。从数据帧的 ID 中,如果该 ID 存在于字典中,我需要更新该 ID,但在字典中它由两个 ID 更新,以下是示例:Dataframe

ID 姓名
1 彼得 史密斯
2 约翰 艾伦
7 雷内 沃森
8 迪兰 促进

字典

Dict = {1: [3, 4], 2: [5, 6], 7: [11], 8:[8]}

期望输出:

ID 姓名
3 彼得 史密斯
4 彼得 史密斯
5 约翰 艾伦
6 约翰 艾伦
11 雷内 沃森
8 迪兰 促进

提前致谢!

python dictionary dataframe pandas data-science

1
推荐指数
1
解决办法
43
查看次数

如何将嵌套的字典转换为数据框

假设我有一个 API 响应:

{
    "fact": {
        "UP": [{
            "SCODE": "CNB",
            "SNAME": "Kanpur Central"
        }, {
            "SCODE": "JHS",
            "SNAME": "Jhansi Junction"
        }],
        "MP": [{
            "SCODE": "BPL",
            "SNAME": "Bhopal Junction"
        }, {
            "SCODE": "JBP",
            "SNAME": "Jabalpur Junction"
        }]
    }
}
Run Code Online (Sandbox Code Playgroud)

我必须将其转换为如下所示的数据帧(预期输出):

fact    SCODE   SNAME
UP      CNB     Kanpur Central
UP      JHS     Jhansi Junction
MP      BPL     Bhopal Junction
MP      JBP     Jabalpur Junction
Run Code Online (Sandbox Code Playgroud)

我的努力:我尝试使用 json_normalize() 但没有达到预期的输出:

{
    "fact": {
        "UP": [{
            "SCODE": "CNB",
            "SNAME": "Kanpur Central"
        }, {
            "SCODE": "JHS",
            "SNAME": "Jhansi Junction"
        }],
        "MP": …
Run Code Online (Sandbox Code Playgroud)

python json dictionary pandas data-science

1
推荐指数
1
解决办法
84
查看次数

如何在 Pandas 的一行中收集重复的数据行?

我有一个数据集,其中包含 NBA 球员每场比赛的平均统计数据。一些球员的统计数据是重复的,因为他们本赛季曾在不同的球队。例如:

      Player       Pos  Age Tm    G     GS   MP      FG
8   Jarrett Allen   C   22  TOT  28     10  26.2     4.4
9   Jarrett Allen   C   22  BRK  12     5   26.7     3.7
10  Jarrett Allen   C   22  CLE  16     5   25.9     4.9
Run Code Online (Sandbox Code Playgroud)

我想平均 Jarrett Allen 的统计数据并将它们放在一行中。我怎样才能做到这一点?提前致谢。

python dataframe pandas data-science

1
推荐指数
3
解决办法
82
查看次数