小编iha*_*nny的帖子

pig - 如何在JOIN之后引用FOREACH中的列?

A = load 'a.txt' as (id, a1);
B = load 'b.txt as (id, b1);
C = join A by id, B by id;
D = foreach C generate id,a1,b1;
dump D;
Run Code Online (Sandbox Code Playgroud)

第4行失败: Invalid field projection. Projected field [id] does not exist in schema

我试图改为A.id,但最后一行失败了: ERROR 0: Scalar has more than one row in the output.

apache-pig

20
推荐指数
1
解决办法
3万
查看次数

pandas:如何在每个GROUP BY组中选择第一行?

基本上与每个GROUP BY组中的Select第一行相同只在熊猫里

df = pd.DataFrame({'A' : ['foo', 'foo', 'foo', 'foo', 'bar', 'bar', 'bar', 'bar'],
                'B' : ['3', '1', '2', '4','2', '4', '1', '3'],
                    })
Run Code Online (Sandbox Code Playgroud)

排序看起来很有希望:

df.sort('B')

     A  B
1  foo  1
6  bar  1
2  foo  2
4  bar  2
0  foo  3
7  bar  3
3  foo  4
5  bar  4
Run Code Online (Sandbox Code Playgroud)

但是首先不会给出期望的结果... df.groupby('A').first()

     B
A     
bar  2
foo  3
Run Code Online (Sandbox Code Playgroud)

python pandas

19
推荐指数
5
解决办法
2万
查看次数

babun:从windows剪贴板复制/粘贴到vim?

在提示符处右键单击将剪贴板的内容转储到shell中,但在vim其中只是切换到VISUAL模式并且什么都不做.我该如何解决这个问题?

https://github.com/babun/babun/issues/97

windows vim console emulation conemu

19
推荐指数
4
解决办法
7242
查看次数

如何让pandas get_dummies发出N-1个变量以避免共线性?

pandas.get_dummies每个分类值发出一个虚拟变量.是否有一些自动,简单的方法要求它只创建N-1虚拟变量?(只是随意摆脱一个"基线"变量)?

需要避免我们的数据集中的共线性.

python machine-learning pandas dummy-variable

19
推荐指数
1
解决办法
6286
查看次数

在火花加入中,表格顺序像猪一样吗?

Spark相关- 加入2个PairRDD元素

在pig中进行常规连接时,连接中的最后一个表不会被带入内存而是通过流式传输,因此如果A的每个键的基数较小且B基数较大,那么从性能角度来看,这样做join A, B要好得多join A by B(避免泄漏和OOM)

火花中有类似的概念吗?我没有看到任何这样的建议,并想知道它怎么可能?实现在我看来几乎和猪一样:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/CoGroupedRDD.scala

或者我错过了什么?

hadoop apache-pig bigdata apache-spark

9
推荐指数
1
解决办法
1435
查看次数

tensorflow:为什么collect_nd是可区分的?

我正在研究一个Tensorflow网络,该网络为CartPole开放式环境实现了强化学习。

网络为策略梯度代理实施似然比方法

事实是,使用gather_ndop 定义保单丢失!在这里,看看:

    ....
    self.y = tf.nn.softmax(tf.matmul(self.W3,self.h2) + self.b3,dim=0)
    self.curr_reward = tf.placeholder(shape=[None],dtype=tf.float32)
    self.actions_array = tf.placeholder(shape=[None,2],dtype=tf.int32)
    self.pai_array = tf.gather_nd(self.y,self.actions_array)
    self.L = -tf.reduce_mean(tf.log(self.pai_array)*self.curr_reward)
Run Code Online (Sandbox Code Playgroud)

然后,他们针对网络的所有参数采用这种损耗的导数:

    self.gradients = tf.gradients(self.L,tf.trainable_variables())
Run Code Online (Sandbox Code Playgroud)

怎么会这样??我认为神经网络的整个观点总是与可区分的操作一起工作,就像cross-entropy从来没有做过奇怪的事情一样,例如self.y根据self.actions_array随机选择且显然不可区分的索引选择索引。

我在这里想念什么?谢谢!

gradient reinforcement-learning tensorflow

9
推荐指数
1
解决办法
1444
查看次数

如何调整mapred.reduce.parallel.copies?

在阅读http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html之后,我们想要试验mapred.reduce.parallel.copies.

该博客提到"仔细查看日志".我们怎么知道我们已经达到了最佳点?我们应该寻找什么?我们怎样才能发现我们过度并行化?

hadoop

8
推荐指数
1
解决办法
5395
查看次数

我怎么能判断我的hadoop配置参数io.sort.factor是太小还是太大?

在阅读http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html后,我们得出结论,我们的6节点hadoop集群可以使用一些调整,并且io. sort.factor似乎是一个很好的候选者,因为它控制着一个重要的权衡.我们正计划进行调整和测试,但提前规划并了解预期和观察内容似乎是合理的.

它目前在10.我们怎么知道它导致我们太多的合并?当我们提出它时,我们怎么知道它导致太多文件被打开?

请注意,我们无法直接关注博客日志提取,因为它已更新为CDH3b2,我们正在处理CDH3u2,它们已经更改......

hadoop

5
推荐指数
1
解决办法
5559
查看次数

bash eval未检测到System.exit返回码

挣扎了一个小时...... java代码:

ULogger.info("throwing out 666!");
System.exit(666);
Run Code Online (Sandbox Code Playgroud)

bash包装:

eval ${COMMAND_TO_RUN}
ret_code=$?
printf "error code : [%d]" ${ret_code}
Run Code Online (Sandbox Code Playgroud)

输出:

[2012-11-30 15:20:12,971][INFO ] throwing out 666!
error code : [0]
Run Code Online (Sandbox Code Playgroud)

这是什么交易?谢谢...

[编辑]

${COMMAND_TO_RUN}IS

((java -Xmx9000m -Dtoday_nix=20121128 -cp "/usr/lib/hadoop/conf" com.paypal.risk.ars.linking.task_fw.BaseRunnableProcess 3>&1 1>&2 2>&3) | tee /dev/tty) > batches_errors.log
Run Code Online (Sandbox Code Playgroud)

java error-handling bash

5
推荐指数
1
解决办法
2854
查看次数

猪歪联合大表导致"拆分元数据大小超过10000000"

我们在一个小的(16M行)不同的表和一个大的(6B行)倾斜的表之间有一个猪连接.定期加入在2小时内完成(经过一些调整后).我们尝试using skewed并将性能提升到20分钟.

但是,当我们尝试更大的倾斜表(19B行)时,我们从SAMPLER作业中收到此消息:

Split metadata size exceeded 10000000. Aborting job job_201305151351_21573 [ScriptRunner]
at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)
at org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:817) [ScriptRunner]
Run Code Online (Sandbox Code Playgroud)

这在我们每次尝试时都是可重现的using skewed,并且在我们使用常规连接时不会发生.

我们尝试过设置mapreduce.jobtracker.split.metainfo.maxsize=-1,我们可以在job.xml文件中看到它,但它不会改变任何东西!

这里发生了什么事?这是由分发样本创建的错误using skewed吗?为什么不帮助改变参数-1呢?

hadoop apache-pig skew

5
推荐指数
1
解决办法
3862
查看次数