如何将 numpy 数组转换为数据框列。假设我创建了一个空数据框df,然后我循环遍历代码以创建 5 个 numpy 数组。我的 for 循环的每次迭代,我想将我在该迭代中创建的 numpy 数组转换为我的数据帧中的一列。只是为了澄清,我不想在循环的每次迭代中都创建一个新的数据框,我只想向现有的一列添加一列。我下面的代码是粗略的并且在语法上不正确,但说明了我的观点。
df = pd.dataframe()
for i in range(5):
arr = create_numpy_arr(blah) # creates a numpy array
df[i] = # convert arr to df column
Run Code Online (Sandbox Code Playgroud) 我想在熊猫中使用seaborn绘制箱形图,因为它是一种更好的可视化数据的方法,但我对它并不太熟悉.我有三个不同指标的数据框,我想比较不同的指标.我将遍历文件路径来访问它们.
for path in paths:
df = pd.read_csv(path)
Run Code Online (Sandbox Code Playgroud)
每个度量标准的dfs是分开的,看起来像这样(其中....表示填充数据值).1,2,3,4,5是列名,表示不同的试验:
1 2 3 4 5
0 ..............
1 ..............
2 ..............
3 ..............
4 ..............
Run Code Online (Sandbox Code Playgroud)
我希望得到所有试验1,2,3,4,5以及3个指标中的每一个的图,其中三个指标的所有第一个试验图都在左边,然后是所有第二个试验图将是对的权利,依此类推.
我怎么能在海边做这个呢?我知道我可以通过循环遍历路径并使用像这样的boxplot函数为每个度量单独创建一个绘图:
sns.boxplot(data=df)
Run Code Online (Sandbox Code Playgroud)
但是,我如何能够在同一个情节中并排放置其他指标的图表?
我已经为我的数据拟合了逻辑回归模型。想象一下,我有四个特征:1)参与者收到的条件,2)参与者是否对所测试的现象有任何先验知识/背景(实验后问卷中的二元反应),3)在实验任务上花费的时间,以及4) 参与者年龄。我试图预测参与者最终是选择选项 A 还是选项 B。我的逻辑回归输出以下特征系数 clf.coef_:
[[-0.68120795 -0.19073737 -2.50511774 0.14956844]]
Run Code Online (Sandbox Code Playgroud)
如果选项 A 是我的正类,这个输出是否意味着特征 3 是二元分类中最重要的特征,并且与选择选项 A 的参与者有负相关(注意:我没有标准化/重新缩放我的数据)?我想确保我对系数的理解以及我可以从中提取的信息是正确的,因此我不会在我的分析中做出任何概括或错误假设。
谢谢你的帮助!
python feature-selection scikit-learn logistic-regression coefficients
我不确定如何在 Plotly 散点图中自定义散点图标记样式。
具体来说,我有一列predictions是 0 或 1(1 表示意外值),即使我使用symbolpx.scatter_3d 中的参数通过不同的点形状(菱形为 1,圆形为 0)来指示意外值,但差异非常微妙,我希望它更具戏剧性。我正在设想类似下面的东西(不需要完全是这个),但是沿着菱形点的线的东西有不同的轮廓颜色或它周围的附加形状/气泡。我该怎么做?
此外,我有一set列可以采用两个值之一,设置 A 或设置 B。我在里面使用了颜色参数px.scatter_3d并将set其设置为等于,以便根据它来自哪个设置对点进行着色。当它按照我的要求做时,我不希望颜色是蓝色和红色,而是我指定的任何两种颜色。我怎么能做到这一点(假设我希望颜色为蓝色和橙色)?非常感谢!
这是我使用的代码:
fig = px.scatter_3d(X_combined, x='x', y='y', z='z',
color='set', symbol='predictions', opacity=0.7)
fig.update_traces(marker=dict(size=12,
line=dict(width=5,
color='Black')),
selector=dict(mode='markers'))
Run Code Online (Sandbox Code Playgroud) 我正在尝试执行树的顺序遍历.代码本身感觉正确,除非它不能正常工作.我有一种感觉,它必须与if条件,如何附加在python中工作,或者可能与返回.如果我使用print而不是return,这可以正常工作,我想,但我希望能够使用return并仍然得到正确的答案.例如,对于树[1,None,2,3],我的代码返回[1],这显然是不正确的.
另外,使用列表理解可以解决这个问题吗?如果是这样,我们将非常感谢任何示例代码.
这是我的代码:
class Solution(object):
def inorderTraversal(self, root):
res = []
if root:
self.inorderTraversal(root.left)
res.append(root.val)
self.inorderTraversal(root.right)
return res
Run Code Online (Sandbox Code Playgroud)
在将此标记为重复之前,我知道在Stackoverflow上已经有人询问遍历(很多次),但是没有一个能帮助我理解为什么我的理解是错误的.如果有人帮助我学习如何纠正我的方法而不是简单地发布另一个没有解释的链接,我将非常感激.非常感谢!
我想获取 pandas 数据框列的最大值并在另一列中找到相应的值?假设最大值中没有重复项,因此您始终只返回一个值。例如,
GPA ID
2.3 Tina1
3.4 Bob1
3.6 Lia1
2.9 Tina2
4.0 Blake1
4.5 Conor2
Run Code Online (Sandbox Code Playgroud)
这里最大 GPA 是 4.5,但我想返回最大 GPA 对应的 id,所以我会返回 Conor2。我不确定如何做到这一点,所以我们将不胜感激:) 谢谢!
我正在尝试使用来拟合R中的逻辑回归模型caret package。我已经完成以下工作:
model <- train(dec_var ~., data=vars, method="glm", family="binomial",
trControl = ctrl, tuneGrid=expand.grid(C=c(0.001, 0.01, 0.1, 1,10,100, 1000)))
Run Code Online (Sandbox Code Playgroud)
但是,我不确定该模型的调整参数应该是什么,并且我很难找到它。我假设它是C,因为C是中使用的参数sklearn。目前,我收到以下错误-
错误:调整参数网格应具有列参数
您对如何解决此问题有任何建议吗?
我创建了一个 pdf 文件,保存了使用 Matplotlib 创建的几张图。
我执行了以下操作来创建 pdf
from matplotlib.backends.backend_pdf import PdfPages
report = PdfPages('report.pdf')
Run Code Online (Sandbox Code Playgroud)
report.savefig()创建情节后,我每次都会这样做。但是,我也想将生成的数据帧输出到 Pdf 中。本质上,我想要一份包含绘图和查询数据框的报告,所有这些都在一个地方。是否可以使用 PdfPages 创建的数据框向 Pdf 添加数据框,如果可以,我该怎么做?如果没有,是否有另一种方法可以允许绘图和数据框位于同一个位置(无需保存各个组件并将它们拼凑在一起)?希望有任何建议和例子。谢谢!
我正在用我生成的数据在 Keras 中训练一个简单的自动编码器。我目前正在 Google Colab 笔记本中运行代码(以防万一可能相关)。为了获得可重复的结果,我目前正在设置如下所示的随机种子,但它似乎并不完全有效:
# Choose random seed value
seed_value = 0
# Set numpy pseudo-random generator at a fixed value
np.random.seed(seed_value)
# Set tensorflow pseudo-random generator at a fixed value
import tensorflow as tf
tf.random.set_seed(seed_value)
Run Code Online (Sandbox Code Playgroud)
每次初始化模型时,随机种子代码似乎有助于获得相同的初始权重。我可以model.get_weights()在创建模型后看到它的使用(即使我重新启动笔记本并重新运行代码也是如此)。但是,我无法在模型性能方面获得可重复的结果,因为每次训练后模型权重都不同。我假设上面的随机种子代码确保数据在训练期间每次以相同的方式拆分和混洗,即使我没有事先拆分训练/验证数据(我使用validation_split=0.2)或指定shuffle=False在拟合模型时,但也许我做出这个假设是不正确的?此外,我是否需要包含任何其他随机种子以确保可重复的结果?这是我用来构建和训练模型的代码:
def construct_autoencoder(input_dim, encoded_dim):
# Add input
input = Input(shape=(input_dim,))
# Add encoder layer
encoder = Dense(encoded_dim, activation='relu')(input)
# Add decoder layer
# Input contains binary values, hence the sigmoid activation
decoder = Dense(input_dim, activation='sigmoid')(encoder)
model …Run Code Online (Sandbox Code Playgroud) 我正在gensim.models.ldamodel.LdaModel执行LDA,但是我不了解某些参数,因此无法在文档中找到解释。如果有人有使用此功能的经验,我希望进一步了解这些参数所代表的含义。具体来说,我不明白:
random_stateupdate_everychunksizepassesalphaper_word_topics我正在处理500个文档的语料库,每个文档大约大约3-5页(由于机密性原因,我无法共享数据快照)。目前我已经设定
num_topics = 10random_state = 100update_every = 1chunksize = 50passes = 10alpha = 'auto'per_word_topics = True但这完全是基于我看到的示例,我不确定这对我的数据有多普遍。
python ×9
pandas ×4
dataframe ×2
binary-tree ×1
boxplot ×1
coefficients ×1
gensim ×1
inorder ×1
keras ×1
lda ×1
list ×1
markers ×1
matplotlib ×1
max ×1
numpy ×1
parameters ×1
pdf ×1
plot ×1
plotly ×1
r ×1
r-caret ×1
random-seed ×1
scikit-learn ×1
seaborn ×1
tensorflow ×1