小编exi*_*xic的帖子

您如何建议使用Hadoop流媒体进行"加入"？

我有两个文件,格式如下:

field1, field2, field3
field4, field1, field5

Run Code Online (Sandbox Code Playgroud)

不同的字段编号表示不同的含义.

我想使用基于相互字段的Hadoop Streaming加入这两个文件(field1在上面的示例中),因此输出将是field1, field2, field3, field4, field5(其他顺序可以正常,因为它们具有所有字段).

streaming hadoop join

str*_*mer

2014 03-11

11
推荐指数

1
解决办法

4112
查看次数

Apache Pig:使用hadoop fs -text加载一个显示正常的文件

我有名为part-r-000 [0-9] [0-9]的文件,其中包含制表符分隔的字段.我可以使用hadoop fs -text part-r-00000它来查看它们,但无法使用猪来加载它们.

我尝试过的:

x = load 'part-r-00000';
dump x;
x = load 'part-r-00000' using TextLoader();
dump x;

Run Code Online (Sandbox Code Playgroud)

但这只会给我垃圾.如何使用猪查看文件？

可能相关的是我的hdfs目前仍在使用CDH-2.此外,如果我将文件下载到本地并运行file part-r-00000它说part-r-00000: data,我不知道如何在本地解压缩它.

linux hadoop apache-pig cloudera

exi*_*xic

lucky-day

7
推荐指数

1
解决办法

5100
查看次数

将多个列从一个data.frame复制到另一个

有没有一种简单的方法可以让R自动将data.frame中的列复制到另一个？

我有类似的东西:

>DF1 <- data.frame(a=1:3, b=4:6)
>DF2 <- data.frame(c=-2:0, d=3:1)

Run Code Online (Sandbox Code Playgroud)

我希望得到类似的东西

>DF1
   a b  c d
1 -2 4 -2 3
2 -1 5 -1 2
3  0 6  0 1

Run Code Online (Sandbox Code Playgroud)

我通常会手工完成,如同

DF1$c <- DF2$c
DF1$d <- DF2$d

Run Code Online (Sandbox Code Playgroud)

只要我有很少的变量就可以了,但是在处理多个变量时它变得非常耗时且容易出错.有关如何有效地做到这一点的任何想法？它可能很简单,但我发誓我无法找到谷歌的答案,谢谢!

r dataframe

lam*_*_vu

2016 10-28

7
推荐指数

2
解决办法

5万
查看次数

即使第一个命令的子进程仍在后台运行，也要关闭管道

假设我有test.sh如下。目的是通过此脚本运行一些后台任务，不断更新某些文件。如果后台任务由于某种原因终止，则应重新启动。

#!/bin/sh

if [ -f pidfile ] && kill -0 $(cat pidfile); then
    cat somewhere
    exit
fi

while true; do
    echo "something" >> somewhere
    sleep 1
done &
echo $! > pidfile

Run Code Online (Sandbox Code Playgroud)

并想这样称呼它./test.sh | otherprogram，例如./test.sh | cat。

管道没有关闭，因为后台进程仍然存在并且可能会产生一些输出。我怎样才能告诉管道在结束时关闭test.sh？有没有比pidfile在调用管道命令之前检查是否存在更好的方法？

作为一个变体，我尝试在的末尾使用#!/bin/bashand ，但它仍在等待管道关闭。disowntest.sh

我实际上想要实现的目标：我有一个“状态”脚本，它收集各种脚本的输出（uptime、free、date、get-xy-from-dbus等），与此处类似test.sh。脚本的输出被传递到我的窗口管理器，它会显示它。它也用在我的 GNU 屏幕底线中。

由于使用的某些脚本可能需要一些时间来创建输出，因此我想将它们从输出集合中分离。所以我把它们放在一个while true; do script; sleep 1; done循环中，如果尚未运行则启动该循环。

现在的问题是我不知道如何告诉调用脚本“真正”分离守护进程。

bash pipe sh background-process

exi*_*xic

2012 10-24

5
推荐指数

1
解决办法

4058
查看次数

标签统计

hadoop ×2

apache-pig ×1

background-process ×1

bash ×1

cloudera ×1

dataframe ×1

join ×1

linux ×1

pipe ×1

r ×1

sh ×1

streaming ×1

您如何建议使用Hadoop流媒体进行"加入"？

Apache Pig:使用hadoop fs -text加载一个显示正常的文件

将多个列从一个data.frame复制到另一个

即使第一个命令的子进程仍在后台运行，也要关闭管道

标签 统计

小编exi_xic的帖子

标签统计