我有一系列积分.我知道这些点在我的页面中代表了很多行.
我怎么才能找到它们?我是否需要找到点云之间的间距?
谢谢乔纳森
由于我现在不知道我在做什么,我的措辞可能听起来很有趣.但说真的,我需要学习.
我现在面临的问题是要拿出一个方法(模型)估算的软件程序是如何工作的:即运行时间和最大内存使用情况.我已经拥有的是大量数据.该数据集概述了程序在不同条件下的工作方式,例如
<code>
RUN Criterion_A Criterion_B Criterion_C Criterion_D Criterion_E <br>
------------------------------------------------------------------------
R0001 12 2 3556 27 9 <br>
R0002 2 5 2154 22 8 <br>
R0003 19 12 5556 37 9 <br>
R0004 10 3 1556 7 9 <br>
R0005 5 1 556 17 8 <br>
</code>
Run Code Online (Sandbox Code Playgroud)
我有数千行这样的数据.现在我需要知道如果我事先知道所有标准,我如何估计(预测)运行时间和最大内存使用量.我需要的是一个给出提示(上限或范围)的近似值.
我觉得这是一个典型的??? 我不知道的问题.你们能给我一些提示或给我一些想法(理论,解释,网页)或任何可能有用的东西.谢谢!
我试图根据项值返回列名和索引.我有这样的事情:

所以,让我今天尝试返回值> 0.75的所有值的索引和列名称.
for date, row in df.iterrows():
for item in row:
if item > .75:
print index, row
Run Code Online (Sandbox Code Playgroud)
我希望这可以归还"交通和抢劫".但是,这会返回所有值.我没有在文档,在线或这里找到答案.先感谢您.
我有一个twitter语料库,我用它来构建情绪分析应用程序.语料库有5k个推文,手写标记为 - 否定,中立或正面
为了表示文本 - 我正在使用gensim word2vec预训练向量.每个单词都映射到300个维度.对于推文,我添加所有单词向量以获得单个300暗淡向量.因此,每条推文都映射到300维的单个向量.
我使用t-SNE(tsne python包)可视化我的数据.参见附图1 - 红点=负推文,蓝点=中性推文和绿点=正推文
问题: 在图中,数据点之间没有明确的分离(边界).我可以假设300尺寸中的原始点也是如此吗?
即如果点在t-SNE图中重叠,那么它们在原始空间中也会重叠,反之亦然?
我试图通过fuzzywuzzy.fuzzy.partial_ratio()> = 85,在大熊猫DF所有行比较每行写在结果列表的每一行.
in: df = pd.DataFrame( {'id':[1, 2, 3, 4, 5, 6], 'name':['dog', 'cat', 'mad cat', 'good dog', 'bad dog', 'chicken']})
Run Code Online (Sandbox Code Playgroud)
使用pandas函数与fuzzywuzzy库得到结果:
out:
id name match_id_list
1 dog [4, 5]
2 cat [3, ]
3 mad cat [2, ]
4 good dog [1, 5]
5 bad dog [1, 4]
6 chicken []
Run Code Online (Sandbox Code Playgroud)
但我不明白怎么弄这个.
我正在做熊猫分析。
我的表有700万行* 30列。单元格值的范围从-1到3随机。现在,我想根据列的值过滤掉行。
我了解如何根据多个条件进行选择,写下条件并通过“&”“ |”组合。
但是我有30列要过滤,并按相同的值过滤。例如,需要选择最后12列的值等于-1
df.iloc[:,-12:]==-1
Run Code Online (Sandbox Code Playgroud)
上面的代码给了我一个布尔值。我需要实际的数据框。
这里的逻辑是“或”,表示如果任何列的值为-1,则需要选择该行。另外,很高兴知道我是否需要“和”,所有列的值都为-1?
非常感谢
我有这个代码:
plt.scatter(data_projected[:,0],data_projected[:,1],c=digits.target
,edgecolors='none',alpha=0.5,cmap=plt.cm.get_cmap('nipy_spectral',10));
Run Code Online (Sandbox Code Playgroud)
我的困惑来自plt.cm.get_cmap('nipy_spectral',10)。有时会有plt.cm.get_cmap('RdYlBu')代替。
就是'RdYlBu','nipy_spectral'一个颜色的名称?还有其他名称可以代替吗?
是否有所有可用颜色的清单?
我已经阅读了该文档,但是它似乎无济于事,或者我听不懂。
python matplotlib data-analysis python-3.x matplotlib-basemap
我有这样的数据帧:
ADR WD EF INF SSI DI
0 1.0 NaN NaN NaN NaN NaN
1 NaN NaN 1 1 NaN NaN
2 NaN NaN NaN NaN 1 NaN
3 NaN 1 1 1 NaN NaN
4 NaN 1.0 NaN NaN NaN NaN
Run Code Online (Sandbox Code Playgroud)
我希望结果是这样的:
[["ADR"],["EF","INF"],["SSI"],["WD","EF","INF"],["WD"]]
Run Code Online (Sandbox Code Playgroud)
如您所见,如果列中有列的名称已被替换1.所有都被放在另一个阵列中.
我看过这个帖子链接,但它没有帮助我,因为名称已经静态改变.
谢谢:)
正在探索避免for循环的方法,而是使用any()函数来实现一个函数,当传递的参数为prime和false时,它给出true.
这是我有的:
prime2 <- function(n) {
rangeOfNumbers <- range(2:(n-1))
if(any(n%%rangeOfNumbers == 0)){
return(FALSE)
}
else return(TRUE)
}
Run Code Online (Sandbox Code Playgroud)
看起来很直接,但prime(55)给出TRUE而不是假.
我究竟做错了什么?
我如何在python代码中实现R的case_when函数?
这是R的case_when函数:
https://www.rdocumentation.org/packages/dplyr/versions/0.7.8/topics/case_when
作为最小工作示例,假设我们有以下数据帧(后面是python代码):
import pandas as pd
import numpy as np
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
'age': [42, 52, 36, 24, 73],
'preTestScore': [4, 24, 31, 2, 3],
'postTestScore': [25, 94, 57, 62, 70]}
df = pd.DataFrame(data, columns = ['name', 'age', 'preTestScore', 'postTestScore'])
df
Run Code Online (Sandbox Code Playgroud)
假设我们要创建一个名为"老年人"的新列,该列查看"年龄"列并执行以下操作:
if age < 10 then baby
if age >= 10 and age < 20 then kid
if age >=20 and age < 30 then young
if age >= 30 and age …Run Code Online (Sandbox Code Playgroud) data-analysis ×10
python ×7
pandas ×5
dataframe ×2
any ×1
forecasting ×1
fuzzywuzzy ×1
math ×1
matplotlib ×1
nlp ×1
primes ×1
python-3.x ×1
r ×1
scikit-learn ×1
statistics ×1