小编Gab*_*e B的帖子

用插入符号和R绘制学习曲线

我想研究模型调整的偏差/方差之间的最佳权衡.我正在使用插入符号R,它允许我根据模型的超参数(mtry,lambda等)绘制性能指标(AUC,准确度......)并自动选择最大值.这通常会返回一个好的模型,但如果我想进一步挖掘并选择不同的偏差/方差权衡,我需要一个学习曲线,而不是一个性能曲线.

为简单起见,假设我的模型是一个随机森林,它只有一个超参数'mtry'

我想绘制训练和测试集的学习曲线.像这样的东西:

学习曲线

(红色曲线是测试集)

在y轴上我设置了一个错误度量(错误分类的例子的数量或类似的东西); 在x轴上'mtry'或者训练集大小.

问题:

  1. 是否有根据训练集折叠不同大小迭代训练模型的功能?如果我必须手动编码,我该怎么做?

  2. 如果我想将超参数放在x轴上,我需要所有由caret :: train训练的模型,而不仅仅是最终模型(在CV之后获得最大性能的模型).这些"丢弃"的模型在火车后仍然可用吗?

plot r machine-learning supervised-learning

8
推荐指数
1
解决办法
8262
查看次数

Pattern.matches不起作用,而replaceAll则不起作用

正则表达式似乎没问题,因为第一行代码正确地用"helloworld"替换子字符串,但是同一个表达式在后者中不匹配,因为我看不到"whynothelloworld?" 在控制台上

System.out.println(current_tag.replaceAll("^[01][r]\\s", "helloworld"));

if (Pattern.matches("^[01][r]\\s", current_tag)) { System.out.println("whynothelloworld?");}
Run Code Online (Sandbox Code Playgroud)

java regex

7
推荐指数
1
解决办法
1676
查看次数

使用Talend Open Studio将JSON写入字段

我尝试将旧数据库中的数据迁移到我们的新应用程序中.

在进程中,我需要从旧数据库中获取数据以创建必须存储在新MySQL数据库中的字段中的JSON.

所以我使用组件tWriteJSONFieldtExtractJSONFields.

tWriteJSONField,我的XML树看起来像这样:

path
|-- id [loop element]
|-- name
|-- description
Run Code Online (Sandbox Code Playgroud)

注意:我找不到如何使用loop elementgroup element属性.我不明白它是如何工作的,文档没有谈到这一点.

该组件tWriteJSONField链接到a tExtractJSONFields以便id从JSON中提取.我需要知道每个记录JSON必须链接.

tExtractJSONFields配置:XPath请求

"/path"
Run Code Online (Sandbox Code Playgroud)

tExtractJSONFields配置:映射

-----------------------------------------------
| column        | XPath request | get nodes ? |
-----------------------------------------------
| idForm        | "id"          | false       |
-----------------------------------------------
| jsonStructure | "*"           | yes         |
-----------------------------------------------
Run Code Online (Sandbox Code Playgroud)

我的问题是jsonStructure输出tExtractJSONField,我只得到我的root标签的第一个孩子.在我的情况下jsonStructure看起来像这样:

{
   "id": "123"
}
Run Code Online (Sandbox Code Playgroud)

预期结果是: …

json talend

6
推荐指数
1
解决办法
8458
查看次数

将数据透视表的总计单元格复制到谷歌电子表格中的另一个单元格

我需要在谷歌电子表格中构建一个小型“平衡”表,将两个数据透视表并排合并 - 收入和费用 - 然后在一个单元格中计算从收入中减去费用的结果。

问题在于数据透视表中的总计单元格不在固定单元格中,因为它们在添加行时向下移动。这搞乱了我的收入支出公式。

我正在寻找一种方法来引用移动的总计单元格,或者将它们复制到固定单元格中,以便我可以使用标准公式进行引用。

关于如何实现它有什么想法吗?

pivot-table google-sheets

5
推荐指数
1
解决办法
5036
查看次数

在Openshift上使用Wordpress,响应速度很慢

我刚刚在可扩展的PHP盒式磁带上将我的Wordpress网站移动到OpenShift PAAS生态系统上.但我立即注意到网站响应速度很慢 - 大约3000/4000毫秒.但是,当它开始响应时,页面加载/渲染绝对快速.

这是网址:http://gabrielebaldassarre.com

为了给您一个比较,这个静态网站托管在同一个AWS区域:http://extras.gabrielebaldassarre.com/tos5-4

出于这个原因,我将这个瓶颈指向我使用的名称服务器(来自Cloudflare,因为裸CNAME的需求),但是使用在线测试器,它们似乎没问题.

我不会说我的Wordpress是一个香草配置,但它毕竟不是一个猛犸象.响应开始后的加载时间没问题.

我想知道HAProxy或我的OpenShift配置是否有问题,但我不知道如何检查或做什么.

任何的想法?

wordpress haproxy openshift

4
推荐指数
1
解决办法
2238
查看次数

如何在 java 骆驼测试中从模拟端点提取消息正文?

这是一个关于Java、camel的问题。我有一条路线,其中我尝试从 vm:region 端点提取消息正文,但当我尝试访问接收到的交换的第一个索引时,得到一个 ArrayIndexOutOfBounds,即使预期的 MessageCount 为 1 已断言。我的路线和代码如下所示。

        from(uriMap.get("start_cDirect_2")).routeId("start_cDirect_2")
                .to(uriMap.get("cLog_2"))

                .id("cLog_2").choice().id("cMessageRouter_1").when()
                .simple("${in.header.type} == 'region'")

                .to(uriMap.get("vm:region_cMessagingEndpoint_2"))
                .id("cMessagingEndpoint_2").otherwise()

                .to(uriMap.get("vm:zipcode_cMessagingEndpoint_3"))
                .id("cMessagingEndpoint_3");
        from(uriMap.get("vm:start_cMessagingEndpoint_1"))
                .routeId("vm:start_cMessagingEndpoint_1")
                .to(uriMap.get("cLog_1"))

                .id("cLog_1").beanRef("beans.bean1").id("cBean_1")
                .to(uriMap.get("start_cDirect_2")).id("cDirect_1");
    }
Run Code Online (Sandbox Code Playgroud)

我在eclipse中的camel测试如下:

public class ShowUnitTestTest extends CamelTestSupport{
    @EndpointInject(uri = "mock:vm:region")
    protected MockEndpoint resultEndpoint;
    @Produce(uri = "vm:start")
    protected ProducerTemplate template; 
    @Override
    public String isMockEndpoints() {
        return "*";
    }

    @Override
    protected RouteBuilder createRouteBuilder() throws Exception {
        ShowUnitTest route = new ShowUnitTest();
        route.initUriMap();
        return route;
    }

    @Test
    public void testRegionRouting() throws Exception {
        MockEndpoint regionMock = getMockEndpoint("mock:vm:region");
        MockEndpoint zipcodeMock = …
Run Code Online (Sandbox Code Playgroud)

java apache-camel

3
推荐指数
1
解决办法
7936
查看次数

无法禁用空JAR(maven-jar-plugin)的生成

有时,我的Talend Open Studio组件有资源但没有Java源(它们纯粹是元数据组件).在这种情况下,我需要禁用JAR文件的生成.

我用这种方式配置了maven-jar-plugin:

<plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-jar-plugin</artifactId>
        <version>2.4</version>
        <configuration>
            <forceCreation>false</forceCreation>
            <skipIfEmpty>true</skipIfEmpty>
            <useDefaultManifestFile>false</useDefaultManifestFile>
        </configuration>
      </plugin>
Run Code Online (Sandbox Code Playgroud)

但我仍然使用pom.properties,pom.cml,清单和仅包含"class {}"的空文件App.class获取$ {project.name} .jar文件

虽然我可以使用以下方法禁用所有maven内容的包含:

<archive>
<addMavenDescriptor>false</addMavenDescriptor>
</archive>
Run Code Online (Sandbox Code Playgroud)

我仍然得到一个带有清单文件的JAR

是否有一些我配置错误的配置参数?

maven maven-jar-plugin

2
推荐指数
1
解决办法
5863
查看次数

将分隔的字符串拆分为R数据帧中的不同列

我需要一种快速而简洁的方法将数据帧中的字符串文字拆分为一组列.假设我有这个数据框

data <- data.frame(id=c(1,2,3), tok1=c("a, b, c", "a, a, d", "b, d, e"), tok2=c("alpha|bravo", "alpha|charlie", "tango|tango|delta") )
Run Code Online (Sandbox Code Playgroud)

(请注意列之间的不同分隔符)

字符串列的数量通常是事先不知道的(尽管我可以尝试发现整个案例集,如果我没有其他选择)

我需要两个数据框,如:

tok1.occurrences:
    +----+---+---+---+---+---+
    | id | a | b | c | d | e | 
    +----+---+---+---+---+---+
    |  1 | 1 | 1 | 1 | 0 | 0 |
    |  2 | 2 | 0 | 0 | 1 | 0 |
    |  3 | 0 | 1 | 0 | 1 | 1 |
    +----+---+---+---+---+---+

tok2.occurrences:
    +----+-------+-------+---------+-------+-------+
    | id …
Run Code Online (Sandbox Code Playgroud)

substring r tokenize tm

2
推荐指数
1
解决办法
1430
查看次数

在R中生成矢量值的运行组合

我需要实现的基本上是矢量值的所有组合的列表,但是运行给定长度的槽.展示比解释更容易.

让说我有一个window.size3

vector <- c("goofy", "mickey", "donald", "foo", "bar")
Run Code Online (Sandbox Code Playgroud)

这就是我需要的输出

from  |  to
------+-----
goofy | mickey
goofy | donald
mickey| donald
mickey| foo
donald| bar
donald| foo
foo   | bar
Run Code Online (Sandbox Code Playgroud)

由于这将以蒙特卡罗迭代集合结束,因此windows.size应该是参数化的

我认为用dplyr和tidyr可以轻松完成,但我无法弄清楚如何.

提前致谢!

r dplyr tidyr

2
推荐指数
1
解决办法
66
查看次数

在 R 中的数据帧列表列表上应用函数

我有一个嵌套结构,例如:

  • 由可变数量的项目组成的父列表“parent”
  • 父列表的每个节点都是三个命名元素的列表(假设“foo”、“bar”、“puppy”)
  • 内部列表的这些(命名)元素是由可变数量的列组成的数据框

(实际上,我什至很难构建这种结构的可重复示例)

我正在寻找一种有效的方法,将函数(比如说 toLower)应用于内部数据帧的每个单元格,ofc 应用于父列表的每个元素。

我想我可以嵌套一些 lapply,但我不知道如何引用内部元素以及使用哪个 FUN 作为 lapply 参数本身

r

1
推荐指数
1
解决办法
3946
查看次数