小编Ken*_*ams的帖子

查看R字符串的确切字节序列?

如何获取特定UTF-8字符串的字节序列?我看到的是正则表达式引擎中的一些错误,它只是在某些边缘情况下触发,我想知道它正在处理哪些数据.

string unicode r

6
推荐指数
1
解决办法
731
查看次数

ipython笔记本的TOC扩展会发生什么?

我试图在新计算机上安装伟大的目录扩展.但我再也找不到了.我找到的唯一页面没有解释如何在Windows上安装扩展.

那么..我怎么能安装它,为什么它不是官方Ipython笔记本的一部分?我简直无法理解没有它的人是如何相处的.

ipython jupyter-notebook

6
推荐指数
2
解决办法
3914
查看次数

dplyr:在group_by组中添加行

是否有更好的方法在group_by()组内添加行而不是使用bind_rows()?这是一个有点笨重的例子:

df <- data.frame(a=c(1,1,1,2,2), b=1:5)

df %>%
  group_by(a) %>%
  do(bind_rows(data.frame(a=.$a[1], b=0), ., data.frame(a=.$a[1], b=10)))
Run Code Online (Sandbox Code Playgroud)

我们的想法是,我们已经分组的列可以从组中推断出来.

我想知道这样的事情是否可以起作用:

df %>%
  group_by(a) %>%
  insert(b=0, .at=0) %>%
  insert(b=10)
Run Code Online (Sandbox Code Playgroud)

比如append(),它可以默认插入所有现有元素之后,并且可以足够聪明地为未指定的任何列使用组值.也许NA用于未指定的非分组列.

是否存在我错过的现有方便语法,或者这会有用吗?

grouping r dplyr

6
推荐指数
1
解决办法
882
查看次数

从 OS 系列中选择 maven 配置文件

我想根据操作系统类型设置一些属性,所以我在我的 pom.xml

<project ...>
    <profiles>
        <profile>
            <id>KenMacbook</id>
            <activation>
                <os><family>mac</family></os>
            </activation>
            <properties>
                <test.r.version>3.3</test.r.version>
            </properties>
        </profile>
        <profile>
            <id>LinuxBox</id>
            <activation>
                <os><family>unix</family></os>
            </activation>
            <properties>
                <test.r.version>3.2</test.r.version>
            </properties>
        </profile>
    </profiles>
    ...
</project>
Run Code Online (Sandbox Code Playgroud)

在我的 Mac 上,我检查哪些配置文件处于活动状态:

% mvn help:active-profiles | grep -v INFO
Active Profiles for Project 'com.foo:bar:jar:2.0.3-SNAPSHOT': 

The following profiles are active:

 - nexus (source: external)
 - KenMacbook (source: com.foo:bar:2.0.3-SNAPSHOT)
 - LinuxBox (source: com.foo:bar:2.0.3-SNAPSHOT)
Run Code Online (Sandbox Code Playgroud)

所以它看起来像 <activation>LinuxBox轮廓没有成功排除在Mac上该配置文件。我对配置文件选择的工作方式有误解吗?

马文详情:

% mvn --version
Apache Maven 3.3.9 (bb52d8502b132ec0a5a3f4c09453c07478323dc5; 2015-11-10T10:41:47-06:00)
Maven home: /usr/local/Cellar/maven/3.3.9/libexec
Java version: 1.7.0_75, vendor: …
Run Code Online (Sandbox Code Playgroud)

operating-system pom.xml maven maven-profiles

6
推荐指数
1
解决办法
8002
查看次数

线性SVM模型的权重(在R中)?

使用kernlab我训练了一个模型,其代码如下:

my.model <- ksvm(result ~ f1+f2+f3, data=gold, kernel="vanilladot")
Run Code Online (Sandbox Code Playgroud)

由于它是一个线性模型,我更喜欢在运行时将得分计算为特征值的简单加权和,而不是使用完整的SVM机制.如何将模型转换为类似的东西(这里有一些组成的权重):

> c(.bias=-2.7, f1=0.35, f2=-0.24, f3=2.31)
.bias    f1    f2    f3 
-2.70  0.35 -0.24  2.31 
Run Code Online (Sandbox Code Playgroud)

.bias偏差项在哪里,其余是特征权重?

编辑:

这是一些示例数据.

gold <- structure(list(result = c(-1, -1, -1, -1, -1, -1, -1, -1, -1, 
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1), f1 = c(0, 0, 0, 0, 
0, 0, …
Run Code Online (Sandbox Code Playgroud)

r svm

5
推荐指数
2
解决办法
4855
查看次数

输出中的Sweave语法高亮显示

有没有人设法在Sweave文档的输出中使用颜色语法突出显示?我已经能够通过在Sweave.sty文件中添加框等来自定义输出样式,如下所示:

\DefineVerbatimEnvironment{Sinput}{Verbatim}{fontseries=bc,frame=single}
\DefineVerbatimEnvironment{Soutput}{Verbatim}{frame=leftline}
\DefineVerbatimEnvironment{Scode}{Verbatim}{fontseries=bc}
Run Code Online (Sandbox Code Playgroud)

我可以让minted包在我的文档中对逐字代码块进行语法高亮,如下所示:

\begin{minted}{perl}
use Foo::Bar;
...
\end{minted}
Run Code Online (Sandbox Code Playgroud)

但我不知道如何将两者结合起来用于R输入部分.我尝试了以下方法:

\DefineVerbatimEnvironment{Sinput}{minted}{r}
\DefineVerbatimEnvironment{Scode}{minted}{r}
Run Code Online (Sandbox Code Playgroud)

有什么建议?

r syntax-highlighting sweave

5
推荐指数
3
解决办法
2559
查看次数

plyr中'ave'的类比?

R的ave()功能比它的名字更有用 - 它基本上是一个版本,tapply()它允许你返回一个与输入长度相同的向量,并将这些值重新插入与输入相同的顺序.

> x <- 1:10
> ave(x, x %% 2, FUN=function(d) d-mean(d))
 [1] -4 -4 -2 -2  0  0  2  2  4  4
Run Code Online (Sandbox Code Playgroud)

您可以实现类似的效果ddply(),但它需要几个额外的数据副本,以及几个辅助变量:

> x <- 1:10
> val <- ddply(data.frame(x=x, id=1:10), .(x %% 2), 
     function(d) {d$y <- d$x-mean(d$x); d})
> val[order(val$id),]$y
 [1] -4 -4 -2 -2  0  0  2  2  4  4
Run Code Online (Sandbox Code Playgroud)

是否有其他plyr技术与我可以获得的轻量级方法相匹配ave()

grouping r plyr

5
推荐指数
2
解决办法
276
查看次数

在通过 networkx 生成的图上使用 scikit learn 进行频谱聚类

我有一个 3000x50 的特征向量矩阵。我为此使用sklearn.metrics.pairwise_distances“Similarity_Matrix”获得了一个相似度矩阵。现在我曾经networkx使用在上一步中生成的相似度矩阵创建一个图作为G=nx.from_numpy_matrix(Similarity_Matrix)。我现在想在这个图上执行光谱聚类,G但是几个谷歌搜索未能提供一个很好的例子来说明 scikit 在这个图上学习光谱聚类:( 官方文档显示了如何在一些高度不清楚的图像数据上进行光谱聚类至少对于我这样的新手来说。

任何人都可以给我一个代码示例,用于使用 networkx、scikit learn 等进行图形切割或图形分区。

太感谢了!

partitioning cluster-analysis networkx spectral scikit-learn

5
推荐指数
1
解决办法
3405
查看次数

Spark:从REST服务创建RDD

Spark中是否有可用于将RDD绑定到REST服务的开箱即用功能?也就是说,调用Web服务并获取RDD.

或者是我自己调用其余服务并将结果集合转换为RDD的最简单方法?

谢谢.

apache-spark

5
推荐指数
1
解决办法
1385
查看次数

Apache Spark:处理RDD中的Option/Some/None

我正在映射HBase表,每个HBase行生成一个RDD元素.但是,有时行有坏数据(在解析代码中抛出NullPointerException),在这种情况下我只想跳过它.

我有我的初始映射器返回一个Option表示它返回0或1个元素,然后筛选Some,然后获取包含的值:

// myRDD is RDD[(ImmutableBytesWritable, Result)]
val output = myRDD.
  map( tuple => getData(tuple._2) ).
  filter( {case Some(y) => true; case None => false} ).
  map( _.get ).
  // ... more RDD operations with the good data

def getData(r: Result) = {
  val key = r.getRow
  var id = "(unk)"
  var x = -1L

  try {
    id = Bytes.toString(key, 0, 11)
    x = Long.MaxValue - Bytes.toLong(key, 11)
    // ... more code that might throw exceptions …
Run Code Online (Sandbox Code Playgroud)

scala exception apache-spark scala-option

5
推荐指数
2
解决办法
6975
查看次数