小编Pat*_*bug的帖子

在R-trouble绘图集群中观察了一百万个观测值

我试图用超过一百万行进行KMeans聚类,有4个观察值,都是数字.我使用以下代码:

kmeansdf<-as.data.frame(rbind(train$V3,train$V5,train$V8,train$length))
km<-kmeans(kmeansdf,2)

Run Code Online (Sandbox Code Playgroud)

可以看出,我想将我的数据分成两个集群.该对象km正在填充,但我无法绘制结果.这是我用来绘制的代码:

plot(kmeansdf,col=km$cluster)

Run Code Online (Sandbox Code Playgroud)

这段代码给了我以下错误:

Error in plot.new() : figure margins too large

Run Code Online (Sandbox Code Playgroud)

我尝试在线研究,但找不到解决方案,我尝试在命令行上工作,但仍然得到相同的错误(我现在正在使用RStudio)

任何有助于解决错误的帮助都将受到高度赞赏.TIA.

plot r machine-learning k-means rstudio

Pat*_*bug

lucky-day

5
推荐指数

1
解决办法

1486
查看次数

SQL Server 2008中列中出现的所有单词的字数

我有一个叫做'ticket_diary_comment'列的表叫做'comment_text'.此列填充了文本数据.我想得到整个专栏中出现的所有单词的频率.例如:

Comment_Text
I am a good guy
I am a bad guy
I am not a guy

Run Code Online (Sandbox Code Playgroud)

我想要的是:

Word    Frequency
I       3
good    1
bad     1
not     1
guy     3

Run Code Online (Sandbox Code Playgroud)

请注意,我还删除了输出中的停用词.我知道计算一个特定单词的频率并不困难,但我正在寻找能够计算一列中出现停用词的所有单词的东西.

我很感激在这个问题上提供任何帮助.我还想提一下,我必须在大数据集(大约1 TB)上应用此查询,因此性能是一个问题.

sql sql-server word-count word-frequency

Pat*_*bug

2014 02-22

5
推荐指数

1
解决办法

1万
查看次数

从另一个R文件执行一组行

我不确定这是否可能,但我正在寻找类似于在R脚本中定义区域的东西.我想从另一个R脚本执行一组预先指定的行.我知道我可以运行整个文件source(filename)但不是运行整个文件,我只想在文件中运行几行.

我可以regions在文件中定义或类似,然后从另一个文件执行它吗？

任何帮助将非常感激.

Pat*_*bug

lucky-day

5
推荐指数

1
解决办法

1555
查看次数

DataFrame列之间的公共元素

我有一个Pandas DataFrame看起来像这样:

MemberID    A    B    C    D
1           0.3  0.5 0.1   0
2           0    0.2 0.9   0.3
3           0.4  0.2 0.5   0.3
4           0.1  0   0     0.7

Run Code Online (Sandbox Code Playgroud)

我想有另一个矩阵,它给出了每个列的交集的非零元素的数量,除了MemberID.

例如,列的交点A和B将是2(因为MemberID1和3具有非零值A和B),相交A和C将是2,以及(因为MemberID1和3具有非零值A和C).

最终矩阵看起来像这样:

    A    B    C    D
A   3    2    2    2
B   2    3    3    2
C   2    3    3    2
D   2    2    2    3

Run Code Online (Sandbox Code Playgroud)

我们可以看到,它应该是一个对称矩阵,类似于相关矩阵,但不是相关矩阵.

任意2列的交点=两列中 …

python matrix dataframe pandas

Pat*_*bug

2019 09-17

5
推荐指数

1
解决办法

242
查看次数

在Amazon Redshift中存储极小的值

我正在Amazon Redshift使用以下命令创建一个表:

CREATE TABLE asmt.incorrect_question_pairs_unique 
AS
SELECT question1,
       question2,
       occurrences,
       occurrences / (SUM(occurrences)::FLOAT) OVER () AS prob_q1_q2
FROM (SELECT question1,
             question2,
             SUM(occurrences) AS occurrences
      FROM asmt.incorrect_question_pairs
      GROUP BY question1,
               question2
      HAVING SUM(occurrences) >= 50)

Run Code Online (Sandbox Code Playgroud)

我也尝试过替代方案:

CREATE TABLE asmt.incorrect_question_pairs_unique 
    AS
    SELECT question1,
           question2,
           occurrences,
           occurrences::float / SUM(occurrences) OVER () AS prob_q1_q2
    FROM (SELECT question1,
                 question2,
                 SUM(occurrences) AS occurrences
          FROM asmt.incorrect_question_pairs
          GROUP BY question1,
                   question2
          HAVING SUM(occurrences) >= 50)

Run Code Online (Sandbox Code Playgroud)

我希望列prob_q1_q2成为一float列,这就是我将分母/分子转换为的原因float.但是在结果表中,我在该列中得到全部为零.

我想指出,SUM(occurrences)它将达到约10 …

sql amazon-redshift

Pat*_*bug

2017 03-14

5
推荐指数

1
解决办法

1253
查看次数

Jupyter笔记本中的内核需要太长时间才能自动完成（制表符）

我刚装了几个库Deep Learning一样keras，theano等安装了罚款，但是当我写代码Jupyter notebook，并按tab为自动完成的内核jupyter notebook似乎太长了用于自动完成。有时需要花费几分钟才能显示自动完成的选项。我最初以为内核已挂起，因此每次都必须重新启动它。

我在另一篇Stack Overflow文章中读到，安装pyreadline可能会有所帮助。我安装了它，但是仍然有同样的问题。

还有其他人遇到过这个问题吗？我该如何解决这个问题？

任何指针将不胜感激。

python jupyter jupyter-notebook

Pat*_*bug

2017 05-26

5
推荐指数

1
解决办法

1700
查看次数

Shiny的tabsetPanel不在多个选项卡中显示绘图

我试图tabPanel在tabsetPanelin中使用多个控件Shiny.让我们说我使用以下代码只从一个选项卡开始:

mainPanel(
    tabsetPanel(
    tabPanel("Plot",plotOutput("distPlot"))
    )

Run Code Online (Sandbox Code Playgroud)

代码运行正常并在选项卡中显示绘图.

但是,当我引入另一个标签只是为了测试标签时,两个标签都会停止显示任何图表.我使用以下代码:

mainPanel(
    tabsetPanel(
    tabPanel("Plot",plotOutput("distPlot")),
    tabPanel("Plot",plotOutput("distPlot"))
    )

Run Code Online (Sandbox Code Playgroud)

请注意,我试图在两个标签中显示相同的图表,以测试标签是否有效.我得到的是两个空白标签(如果我只使用一个标签,则图表显示正确).

请有人帮我解决这个问题吗？

plot tabs r shiny

Pat*_*bug

lucky-day

4
推荐指数

1
解决办法

4199
查看次数

使用ggplot和facet_wrap将Y轴设置为0

我正在使用以下代码:

x_breaks <- seq(as.Date("2010/1/1"), as.Date("2015/4/1"), "months")
x_labels <- as.character(x_breaks, format="%b%y")

thousand_formatter<-function(x){
  return(as.integer(x))
}

vLines <- data.frame('Date'=as.Date('2014/1/1'))
vLines <- rbind(vLines,vLines)
vLines$Date[1] <- as.Date('2013/3/4')
vLines$Date[2] <- as.Date('2014/6/2')

vLines$grp <- c('Complex Cases (except CD cases)','CD cases')

p <- ggplot(toPlot[1:261,], aes( Date, value)) + theme_bw() +ylab('Transactions') + xlab('') +
  scale_x_date(breaks=x_breaks, labels=x_labels)
p <- p + geom_line(aes(colour = variable, fill= variable),size=1.5) +
  theme(axis.text.y=element_text(hjust=0, angle=0), 
        axis.text.x = element_text(hjust=1, angle=45),
        panel.grid.minor.x = element_blank(),
        panel.grid.minor.y = element_blank(),
        panel.grid.major.x=element_line(color='grey90',linetype='dashed'),
        panel.grid.major.y=element_line(color='grey90',linetype='dashed'),
        plot.title=element_text(size=20),
        axis.text=element_text(size=10),
        legend.key=element_blank(),
        legend.title=element_blank()) +
  scale_y_continuous(label=thousand_formatter) +
  ggtitle('Some Title')+ …

Run Code Online (Sandbox Code Playgroud)

r ggplot2 facet-wrap

Pat*_*bug

2017 05-23

4
推荐指数

1
解决办法

4754
查看次数

Pythonic在数据框中的列中创建值对的方法

我有一个Dataframe看起来像这样:

OwnerID    Value
1            A
1            B
1            C
1            D

Run Code Online (Sandbox Code Playgroud)

这是缩短版本,我有数千个值OwnerID.我想为Value列创建对,其中每个对彼此Value配对Value,并将结果作为对列表.

例如,对于OwnerID1,结果集应该是以下列表:

[A,B]

[A,C]

[A,D]

[B,C]

[B,D]

[C,D]

Run Code Online (Sandbox Code Playgroud)

我可以编写2个for循环来实现这一点,但这不会非常有效或pythonic.有人知道更好的方法来实现这一目标吗？

任何帮助将非常感激.

python pandas

Pat*_*bug

lucky-day

3
推荐指数

1
解决办法

671
查看次数

让 RandomForestClassifier 在训练期间确定选择一个变量

这是一个有点菜鸟的问题。

我想训练一个Random Forest使用RandomForestClassifierfrom sklearn。我有几个变量，但在这些变量中，我希望算法SourceID在它训练的每一棵树中确定一个变量（我们称之为）。

我怎么做？在这种情况下，我在分类器中看不到任何有帮助的参数。

任何帮助，将不胜感激！TIA。

编辑

所以这是我的场景..

如果老师在上布置作业Concept A，我必须预测下一个可能的作业概念。下一个分配的概念将在很大程度上取决于Concept A已经分配的概念。例如 - 在分配“牛顿第一运动定律”之后，很有可能会分配“牛顿第二运动定律”。很多时候，例如，在之后分配的概念的选择Concept A是有限的。Concept A鉴于过去的数据，我想预测分配后的最佳可能选项。

如果我让random forest随机选择变量的工作完成它的工作，那么将会有一些树没有变量 for Concept A，在这种情况下，预测可能没有多大意义，这就是为什么我想强制这样做变量进入选择。更好的是，如果将此变量选为每棵树中要拆分的第一个变量，那就太好了。

这能说明问题吗？是random forest不是为这个职位的候选人？

python random-forest scikit-learn

Pat*_*bug

2017 02-25

3
推荐指数

1
解决办法

1063
查看次数