我试图用超过一百万行进行KMeans聚类,有4个观察值,都是数字.我使用以下代码:
kmeansdf<-as.data.frame(rbind(train$V3,train$V5,train$V8,train$length))
km<-kmeans(kmeansdf,2)
Run Code Online (Sandbox Code Playgroud)
可以看出,我想将我的数据分成两个集群.该对象km正在填充,但我无法绘制结果.这是我用来绘制的代码:
plot(kmeansdf,col=km$cluster)
Run Code Online (Sandbox Code Playgroud)
这段代码给了我以下错误:
Error in plot.new() : figure margins too large
Run Code Online (Sandbox Code Playgroud)
我尝试在线研究,但找不到解决方案,我尝试在命令行上工作,但仍然得到相同的错误(我现在正在使用RStudio)
任何有助于解决错误的帮助都将受到高度赞赏.TIA.
我有一个叫做'ticket_diary_comment'列的表叫做'comment_text'.此列填充了文本数据.我想得到整个专栏中出现的所有单词的频率.例如:
Comment_Text
I am a good guy
I am a bad guy
I am not a guy
Run Code Online (Sandbox Code Playgroud)
我想要的是:
Word Frequency
I 3
good 1
bad 1
not 1
guy 3
Run Code Online (Sandbox Code Playgroud)
请注意,我还删除了输出中的停用词.我知道计算一个特定单词的频率并不困难,但我正在寻找能够计算一列中出现停用词的所有单词的东西.
我很感激在这个问题上提供任何帮助.我还想提一下,我必须在大数据集(大约1 TB)上应用此查询,因此性能是一个问题.
我不确定这是否可能,但我正在寻找类似于在R脚本中定义区域的东西.我想从另一个R脚本执行一组预先指定的行.我知道我可以运行整个文件source(filename)但不是运行整个文件,我只想在文件中运行几行.
我可以regions在文件中定义或类似,然后从另一个文件执行它吗?
任何帮助将非常感激.
我有一个Pandas DataFrame看起来像这样:
MemberID A B C D
1 0.3 0.5 0.1 0
2 0 0.2 0.9 0.3
3 0.4 0.2 0.5 0.3
4 0.1 0 0 0.7
Run Code Online (Sandbox Code Playgroud)
我想有另一个矩阵,它给出了每个列的交集的非零元素的数量,除了MemberID.
例如,列的交点A和B将是2(因为MemberID1和3具有非零值A和B),相交A和C将是2,以及(因为MemberID1和3具有非零值A和C).
最终矩阵看起来像这样:
A B C D
A 3 2 2 2
B 2 3 3 2
C 2 3 3 2
D 2 2 2 3
Run Code Online (Sandbox Code Playgroud)
我们可以看到,它应该是一个对称矩阵,类似于相关矩阵,但不是相关矩阵.
任意2列的交点=两列中 …
我正在Amazon Redshift使用以下命令创建一个表:
CREATE TABLE asmt.incorrect_question_pairs_unique
AS
SELECT question1,
question2,
occurrences,
occurrences / (SUM(occurrences)::FLOAT) OVER () AS prob_q1_q2
FROM (SELECT question1,
question2,
SUM(occurrences) AS occurrences
FROM asmt.incorrect_question_pairs
GROUP BY question1,
question2
HAVING SUM(occurrences) >= 50)
Run Code Online (Sandbox Code Playgroud)
我也尝试过替代方案:
CREATE TABLE asmt.incorrect_question_pairs_unique
AS
SELECT question1,
question2,
occurrences,
occurrences::float / SUM(occurrences) OVER () AS prob_q1_q2
FROM (SELECT question1,
question2,
SUM(occurrences) AS occurrences
FROM asmt.incorrect_question_pairs
GROUP BY question1,
question2
HAVING SUM(occurrences) >= 50)
Run Code Online (Sandbox Code Playgroud)
我希望列prob_q1_q2成为一float列,这就是我将分母/分子转换为的原因float.但是在结果表中,我在该列中得到全部为零.
我想指出,SUM(occurrences)它将达到约10 …
我刚装了几个库Deep Learning一样keras,theano等安装了罚款,但是当我写代码Jupyter notebook,并按tab为自动完成的内核jupyter notebook似乎太长了用于自动完成。有时需要花费几分钟才能显示自动完成的选项。我最初以为内核已挂起,因此每次都必须重新启动它。
我在另一篇Stack Overflow文章中读到,安装pyreadline可能会有所帮助。我安装了它,但是仍然有同样的问题。
还有其他人遇到过这个问题吗?我该如何解决这个问题?
任何指针将不胜感激。
我试图tabPanel在tabsetPanelin中使用多个控件Shiny.让我们说我使用以下代码只从一个选项卡开始:
mainPanel(
tabsetPanel(
tabPanel("Plot",plotOutput("distPlot"))
)
Run Code Online (Sandbox Code Playgroud)
代码运行正常并在选项卡中显示绘图.
但是,当我引入另一个标签只是为了测试标签时,两个标签都会停止显示任何图表.我使用以下代码:
mainPanel(
tabsetPanel(
tabPanel("Plot",plotOutput("distPlot")),
tabPanel("Plot",plotOutput("distPlot"))
)
Run Code Online (Sandbox Code Playgroud)
请注意,我试图在两个标签中显示相同的图表,以测试标签是否有效.我得到的是两个空白标签(如果我只使用一个标签,则图表显示正确).
请有人帮我解决这个问题吗?
我正在使用以下代码:
x_breaks <- seq(as.Date("2010/1/1"), as.Date("2015/4/1"), "months")
x_labels <- as.character(x_breaks, format="%b%y")
thousand_formatter<-function(x){
return(as.integer(x))
}
vLines <- data.frame('Date'=as.Date('2014/1/1'))
vLines <- rbind(vLines,vLines)
vLines$Date[1] <- as.Date('2013/3/4')
vLines$Date[2] <- as.Date('2014/6/2')
vLines$grp <- c('Complex Cases (except CD cases)','CD cases')
p <- ggplot(toPlot[1:261,], aes( Date, value)) + theme_bw() +ylab('Transactions') + xlab('') +
scale_x_date(breaks=x_breaks, labels=x_labels)
p <- p + geom_line(aes(colour = variable, fill= variable),size=1.5) +
theme(axis.text.y=element_text(hjust=0, angle=0),
axis.text.x = element_text(hjust=1, angle=45),
panel.grid.minor.x = element_blank(),
panel.grid.minor.y = element_blank(),
panel.grid.major.x=element_line(color='grey90',linetype='dashed'),
panel.grid.major.y=element_line(color='grey90',linetype='dashed'),
plot.title=element_text(size=20),
axis.text=element_text(size=10),
legend.key=element_blank(),
legend.title=element_blank()) +
scale_y_continuous(label=thousand_formatter) +
ggtitle('Some Title')+ …Run Code Online (Sandbox Code Playgroud) 我有一个Dataframe看起来像这样:
OwnerID Value
1 A
1 B
1 C
1 D
Run Code Online (Sandbox Code Playgroud)
这是缩短版本,我有数千个值OwnerID.我想为Value列创建对,其中每个对彼此Value配对Value,并将结果作为对列表.
例如,对于OwnerID1,结果集应该是以下列表:
[A,B]
[A,C]
[A,D]
[B,C]
[B,D]
[C,D]
Run Code Online (Sandbox Code Playgroud)
我可以编写2个for循环来实现这一点,但这不会非常有效或pythonic.有人知道更好的方法来实现这一目标吗?
任何帮助将非常感激.
这是一个有点菜鸟的问题。
我想训练一个Random Forest使用RandomForestClassifierfrom sklearn。我有几个变量,但在这些变量中,我希望算法SourceID在它训练的每一棵树中确定一个变量(我们称之为)。
我怎么做?在这种情况下,我在分类器中看不到任何有帮助的参数。
任何帮助,将不胜感激!TIA。
编辑
所以这是我的场景..
如果老师在 上布置作业Concept A,我必须预测下一个可能的作业概念。下一个分配的概念将在很大程度上取决于Concept A已经分配的概念。例如 - 在分配“牛顿第一运动定律”之后,很有可能会分配“牛顿第二运动定律”。很多时候,例如,在 之后分配的概念的选择Concept A是有限的。Concept A鉴于过去的数据,我想预测分配后的最佳可能选项。
如果我让random forest随机选择变量的工作完成它的工作,那么将会有一些树没有变量 for Concept A,在这种情况下,预测可能没有多大意义,这就是为什么我想强制这样做变量进入选择。更好的是,如果将此变量选为每棵树中要拆分的第一个变量,那就太好了。
这能说明问题吗?是random forest不是为这个职位的候选人?
python ×4
r ×4
pandas ×2
plot ×2
sql ×2
dataframe ×1
facet-wrap ×1
ggplot2 ×1
jupyter ×1
k-means ×1
matrix ×1
rstudio ×1
scikit-learn ×1
shiny ×1
sql-server ×1
tabs ×1
word-count ×1