为什么这段代码会产生如此奇怪的输出?
我希望图重叠,以便我可以看到重叠的数据点。
这些情节似乎是相互堆叠的。
def read_csv(name):
file = open(folder+name,newline='')
reader = csv.reader(file,delimiter=";")
data = []
for row in reader:
data.append(np.array(row[5:]))
file.close()
return data
def setup_plotting():
fig = plt.figure()
ax = fig.add_subplot(111)
ax.xaxis.set_major_locator(plt.MaxNLocator(10))
ax.yaxis.set_major_locator(plt.MaxNLocator(10))
return ax
acc_x = read_csv("acc_x.csv")
ax=setup_plotting()
for entry in acc_x:
ax.plot(entry)
Run Code Online (Sandbox Code Playgroud)
请帮我 :)
我是机器学习新手,我有一个数据集,该数据集具有高度不平衡的类(以负类为主),并且包含超过 2K 的数字特征,目标是 [0,1]。我训练了一个逻辑回归,虽然我得到了 89% 的准确率,但从混淆矩阵来看,发现模型的 True Positive 非常低。以下是我的模型的分数
Accuracy Score : 0.8965989500114129
Precision Score : 0.3333333333333333
Recall Score : 0.029545454545454545
F1 Score : 0.05427974947807933
如何提高我的真实积极率?我应该使用不同的分类模型吗?
我尝试过 PCA 并将我的数据表示为 2 个组件,它将模型准确率提高到 90%(大约),但真实阳性率再次下降
我试图将 Scala HashMap 的键与值列表进行比较,如果列表中不存在该键,我需要将 Map 的值更新为默认值 -1。
例如:考虑以下情况:
列表:
val pos = List("100","110")
Run Code Online (Sandbox Code Playgroud)
地图:
scala> idSizeMap
res2: scala.collection.immutable.Map[String,Long] = Map(100 -> 4240070722, 110 -> 611884363, 120 -> 1825405636, 130 -> 2194234, 72 -> 3685020648)
Run Code Online (Sandbox Code Playgroud)
使用filterKeys我可以做类似交集的操作
scala> val result = idSizeMap.filterKeys(pos.contains)
result: scala.collection.immutable.Map[String,Long] = Map(100 -> 4240070722, 110 -> 611884363)
Run Code Online (Sandbox Code Playgroud)
但我也希望旧地图中的键具有默认值 -1。预期输出:
Map(100 -> 4240070722, 110 -> 611884363, 120 -> -1, 130, -1, 72 -> -1)
Run Code Online (Sandbox Code Playgroud)
我还尝试了以下操作,它执行与 filterKeys 相同的操作:
var similarItems = Map[String, Long]()
similarItems: scala.collection.immutable.Map[String,Long] = Map()
scala> for (eachpos …Run Code Online (Sandbox Code Playgroud) 我在使用 onehotencoder 时遇到此错误,其中缺少 thecategorical_features 属性,我正在使用 google colab。
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
le = LabelEncoder()
X = star.iloc[:,:6].values
y = star.iloc[:,-1].values
X[:,5] = le.fit_transform(X[:,5])
y[:] = le.fit_transform(y[:])
ohe = OneHotEncoder(categorical_features= [5])
X = ohe.fit_transform(X).toarray()
TypeError Traceback (most recent call last)
<ipython-input-47-93f73a1a04ad> in <module>()
----> 1 ohe = OneHotEncoder(categorical_features= [5])
2 X = ohe.fit_transform(X).toarray()
TypeError: __init__() got an unexpected keyword argument 'categorical_features'
Run Code Online (Sandbox Code Playgroud) 我是一个初学者,我正在开发一个代码来可视化冠状病毒在全球的传播,我想从GitHub 存储库(csse_covid_19_data)中提取 .csv 文件,其中每 2 天上传一个新的 .csv 文件。是否可以将最新的 csv 文件自动导入笔记本,而不是手动下载文件?
我试过抓取数据,但没有帮助
import requests
url = 'https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_daily_reports/03-08-2020.csv'
response = requests.get(url)
print(response.text)
Run Code Online (Sandbox Code Playgroud) 我想知道是否有一种有效的方法可以知道我的数据框中列的哪些值是 2 的幂。我的数据是一个有 6 列的数据框,其中一列的值是我想要检查的数字是否为 2 的幂。
class(df$doubling_times) > numeric
正如标题所说,我有一个包含空值的数据集。问题是其中一些由 a 表示'-',一些由NaN.
将它们全部更改为NaN或 更好'-'吗?
我有一个带有特定 ID 的数据框,我还有一个列表字典。从数据帧的 ID 中,如果该 ID 存在于字典中,我需要更新该 ID,但在字典中它由两个 ID 更新,以下是示例:Dataframe
| ID | 姓名 | 姓 |
|---|---|---|
| 1 | 彼得 | 史密斯 |
| 2 | 约翰 | 艾伦 |
| 7 | 雷内 | 沃森 |
| 8 | 迪兰 | 促进 |
字典
Dict = {1: [3, 4], 2: [5, 6], 7: [11], 8:[8]}
期望输出:
| ID | 姓名 | 姓 |
|---|---|---|
| 3 | 彼得 | 史密斯 |
| 4 | 彼得 | 史密斯 |
| 5 | 约翰 | 艾伦 |
| 6 | 约翰 | 艾伦 |
| 11 | 雷内 | 沃森 |
| 8 | 迪兰 | 促进 |
提前致谢!
假设我有一个 API 响应:
{
"fact": {
"UP": [{
"SCODE": "CNB",
"SNAME": "Kanpur Central"
}, {
"SCODE": "JHS",
"SNAME": "Jhansi Junction"
}],
"MP": [{
"SCODE": "BPL",
"SNAME": "Bhopal Junction"
}, {
"SCODE": "JBP",
"SNAME": "Jabalpur Junction"
}]
}
}
Run Code Online (Sandbox Code Playgroud)
我必须将其转换为如下所示的数据帧(预期输出):
fact SCODE SNAME
UP CNB Kanpur Central
UP JHS Jhansi Junction
MP BPL Bhopal Junction
MP JBP Jabalpur Junction
Run Code Online (Sandbox Code Playgroud)
我的努力:我尝试使用 json_normalize() 但没有达到预期的输出:
{
"fact": {
"UP": [{
"SCODE": "CNB",
"SNAME": "Kanpur Central"
}, {
"SCODE": "JHS",
"SNAME": "Jhansi Junction"
}],
"MP": …Run Code Online (Sandbox Code Playgroud) 我有一个数据集,其中包含 NBA 球员每场比赛的平均统计数据。一些球员的统计数据是重复的,因为他们本赛季曾在不同的球队。例如:
Player Pos Age Tm G GS MP FG
8 Jarrett Allen C 22 TOT 28 10 26.2 4.4
9 Jarrett Allen C 22 BRK 12 5 26.7 3.7
10 Jarrett Allen C 22 CLE 16 5 25.9 4.9
Run Code Online (Sandbox Code Playgroud)
我想平均 Jarrett Allen 的统计数据并将它们放在一行中。我怎样才能做到这一点?提前致谢。
data-science ×10
python ×8
dataframe ×4
pandas ×4
dictionary ×3
filter ×1
hadoop ×1
json ×1
matplotlib ×1
plot ×1
r ×1
scala ×1
statistics ×1
validation ×1
web-scraping ×1