小编use*_*691的帖子

删除重复的行

我已经将CSV文件读入R data.frame.某些行在其中一列中具有相同的元素.我想删除该列中重复的行.例如:

platform_external_dbus          202           16                     google        1
platform_external_dbus          202           16         space-ghost.verbum        1
platform_external_dbus          202           16                  localhost        1
platform_external_dbus          202           16          users.sourceforge        8
platform_external_dbus          202           16                    hughsie        1
Run Code Online (Sandbox Code Playgroud)

我只想要其中一行,因为其他行在第一列中具有相同的数据.

r duplicates r-faq

136
推荐指数
8
解决办法
31万
查看次数

R中的部分相关性

我正在尝试计算R中的部分相关性.我有两个我想要比较的数据集,目前只有一个受控变量.(这将在未来发生变化)

我已经在网上试图自己解决这个问题,但很难理解我所看过的网站上使用的术语.有人可以解释我将如何做这个,也许提供一个简单的例子?

数据采用以下形式:

                Project.Name Bugs.Project Changes.Project Orgs.Project
1     platform_external_svox            4             161            2
3 platform_packages_apps_Nfc           13             223            2
5      platform_system_media           36             307            2
7     platform_external_mtpd            2              30            2
9            platform_bionic           42            1061            4
Run Code Online (Sandbox Code Playgroud)

我希望Bugs.Project和Orgs.Project之间的关联与Changes.Project作为受控变量.我已经下载了ppcor库,因为它看起来具有我需要的功能.但是,我不确定如何使用它.如何将数据添加到矩阵并使用该pcor功能?

这就是我一直在尝试的:

y.data <- data.frame(
bpp=c(projRelateBugsOrgs[2]),
opp=c(projRelateBugsOrgs[4]),
cpp=c(projRelateBugsOrgs[3])
)

test <- pcor(y.data)
Run Code Online (Sandbox Code Playgroud)

我刚刚使用了一个我发现的例子,并试图用我的数据代替他们的数据.我不明白我的输出.

它看起来像这样:

$estimate
                Bugs.Project Orgs.Project Changes.Project
Bugs.Project       1.0000000    0.3935535       0.9749296
Orgs.Project       0.3935535    1.0000000      -0.1800788
Changes.Project    0.9749296   -0.1800788       1.0000000

$p.value
                Bugs.Project Orgs.Project Changes.Project
Bugs.Project     0.00000e+00  2.09795e-07       0.0000000
Orgs.Project     2.09795e-07  0.00000e+00       0.0264442
Changes.Project  0.00000e+00 …
Run Code Online (Sandbox Code Playgroud)

r partial correlation

6
推荐指数
1
解决办法
1万
查看次数

我怎样才能加速XML :: Twig

XML::Twig用来解析一个非常大的XML文档.我想根据<change></change>标签将其拆分为块.

现在我有:

my $xml = XML::Twig->new(twig_handlers => { 'change' => \&parseChange, });
$xml->parsefile($LOGFILE);

sub parseChange {

  my ($xml, $change) = @_;

  my $message = $change->first_child('message');
  my @lines   = $message->children_text('line');

  foreach (@lines) {
    if ($_ =~ /[^a-zA-Z0-9](?i)bug(?-i)[^a-zA-Z0-9]/) {
      print outputData "$_\n";
    }
  }

  outputData->flush();
  $change->purge;
}
Run Code Online (Sandbox Code Playgroud)

现在,parseChange当它从XML中提取该块时,它正在运行该方法.它变得非常缓慢.我测试它反对从一个文件中读取XML $/=</change>并编写一个函数来返回XML标记的内容,它的速度要快得多.

有什么东西我缺少或我使用XML::Twig不正确吗?我是Perl的新手.

编辑:以下是更改文件的示例更改.该文件由很多这些文件一个接一个地组成,它们之间不应该有任何东西:

<change>
<project>device_common</project>
<commit_hash>523e077fb8fe899680c33539155d935e0624e40a</commit_hash>
<tree_hash>598e7a1bd070f33b1f1f8c926047edde055094cf</tree_hash>      
<parent_hashes>71b1f9be815b72f925e66e866cb7afe9c5cd3239</parent_hashes>      
<author_name>Jean-Baptiste Queru</author_name>      
<author_e-mail>jbq@google.com</author_e-mail>      
<author_date>Fri Apr 22 08:32:04 2011 -0700</author_date>      
<commiter_name>Jean-Baptiste Queru</commiter_name>      
<commiter_email>jbq@google.com</commiter_email>      
<committer_date>Fri Apr 22 08:32:04 2011 …
Run Code Online (Sandbox Code Playgroud)

xml perl parsing large-files xml-twig

5
推荐指数
1
解决办法
1084
查看次数

标签 统计

r ×2

correlation ×1

duplicates ×1

large-files ×1

parsing ×1

partial ×1

perl ×1

r-faq ×1

xml ×1

xml-twig ×1