我已经将CSV文件读入R data.frame.某些行在其中一列中具有相同的元素.我想删除该列中重复的行.例如:
platform_external_dbus 202 16 google 1
platform_external_dbus 202 16 space-ghost.verbum 1
platform_external_dbus 202 16 localhost 1
platform_external_dbus 202 16 users.sourceforge 8
platform_external_dbus 202 16 hughsie 1
Run Code Online (Sandbox Code Playgroud)
我只想要其中一行,因为其他行在第一列中具有相同的数据.
我正在尝试计算R中的部分相关性.我有两个我想要比较的数据集,目前只有一个受控变量.(这将在未来发生变化)
我已经在网上试图自己解决这个问题,但很难理解我所看过的网站上使用的术语.有人可以解释我将如何做这个,也许提供一个简单的例子?
数据采用以下形式:
Project.Name Bugs.Project Changes.Project Orgs.Project
1 platform_external_svox 4 161 2
3 platform_packages_apps_Nfc 13 223 2
5 platform_system_media 36 307 2
7 platform_external_mtpd 2 30 2
9 platform_bionic 42 1061 4
Run Code Online (Sandbox Code Playgroud)
我希望Bugs.Project和Orgs.Project之间的关联与Changes.Project作为受控变量.我已经下载了ppcor库,因为它看起来具有我需要的功能.但是,我不确定如何使用它.如何将数据添加到矩阵并使用该pcor功能?
这就是我一直在尝试的:
y.data <- data.frame(
bpp=c(projRelateBugsOrgs[2]),
opp=c(projRelateBugsOrgs[4]),
cpp=c(projRelateBugsOrgs[3])
)
test <- pcor(y.data)
Run Code Online (Sandbox Code Playgroud)
我刚刚使用了一个我发现的例子,并试图用我的数据代替他们的数据.我不明白我的输出.
它看起来像这样:
$estimate
Bugs.Project Orgs.Project Changes.Project
Bugs.Project 1.0000000 0.3935535 0.9749296
Orgs.Project 0.3935535 1.0000000 -0.1800788
Changes.Project 0.9749296 -0.1800788 1.0000000
$p.value
Bugs.Project Orgs.Project Changes.Project
Bugs.Project 0.00000e+00 2.09795e-07 0.0000000
Orgs.Project 2.09795e-07 0.00000e+00 0.0264442
Changes.Project 0.00000e+00 …Run Code Online (Sandbox Code Playgroud) 我XML::Twig用来解析一个非常大的XML文档.我想根据<change></change>标签将其拆分为块.
现在我有:
my $xml = XML::Twig->new(twig_handlers => { 'change' => \&parseChange, });
$xml->parsefile($LOGFILE);
sub parseChange {
my ($xml, $change) = @_;
my $message = $change->first_child('message');
my @lines = $message->children_text('line');
foreach (@lines) {
if ($_ =~ /[^a-zA-Z0-9](?i)bug(?-i)[^a-zA-Z0-9]/) {
print outputData "$_\n";
}
}
outputData->flush();
$change->purge;
}
Run Code Online (Sandbox Code Playgroud)
现在,parseChange当它从XML中提取该块时,它正在运行该方法.它变得非常缓慢.我测试它反对从一个文件中读取XML $/=</change>并编写一个函数来返回XML标记的内容,它的速度要快得多.
有什么东西我缺少或我使用XML::Twig不正确吗?我是Perl的新手.
编辑:以下是更改文件的示例更改.该文件由很多这些文件一个接一个地组成,它们之间不应该有任何东西:
<change>
<project>device_common</project>
<commit_hash>523e077fb8fe899680c33539155d935e0624e40a</commit_hash>
<tree_hash>598e7a1bd070f33b1f1f8c926047edde055094cf</tree_hash>
<parent_hashes>71b1f9be815b72f925e66e866cb7afe9c5cd3239</parent_hashes>
<author_name>Jean-Baptiste Queru</author_name>
<author_e-mail>jbq@google.com</author_e-mail>
<author_date>Fri Apr 22 08:32:04 2011 -0700</author_date>
<commiter_name>Jean-Baptiste Queru</commiter_name>
<commiter_email>jbq@google.com</commiter_email>
<committer_date>Fri Apr 22 08:32:04 2011 …Run Code Online (Sandbox Code Playgroud) r ×2
correlation ×1
duplicates ×1
large-files ×1
parsing ×1
partial ×1
perl ×1
r-faq ×1
xml ×1
xml-twig ×1