我有一个GenericUDF(见下面的代码)在Hadoop-1和Hive-0.12上正常运行.但是当使用Hive-0.13 + Hadoop-2测试相同的GenericUDF时,我收到以下错误.
顶点失败,vertexName = Map 12,vertexId = vertex_1409698731658_42202_1_00,diagnostics = [顶点输入:ccv初始化程序失败.,org.apache.hive.com.esotericsoftware.kry o.KryoException:无法找到类:com.xxx.xxx.Id1
这是我的UDF的代码.
package com.xxx.xxx;
import org.apache.hadoop.hive.*;
public class Id1 extends GenericUDF {
private MapredContext context;
private long sequenceNum = 0;
private static final int padLength = 10;
StringBuilder sb = null;
public ObjectInspector initialize(ObjectInspector[] arguments)
throws UDFArgumentException {
sequenceNum = 0;
sb = new StringBuilder();
return PrimitiveObjectInspectorFactory.javaStringObjectInspector;
}
public Object evaluate(DeferredObject[] arguments) throws HiveException {
int sbLength = sb.toString().length();
if (sbLength > 0)
sb.replace(0, sbLength, "");
String taskId = …Run Code Online (Sandbox Code Playgroud) 谁能帮助我在此visjs网络中动态添加边缘?实际上,我正在尝试使用拖放将节点添加到画布,但是当我单击节点并将边缘动态添加到画布上存在的另一个节点时,我需要添加边缘的帮助。
我有一个检查点形式的 tensorflow 预训练模型,我打算通过将模型转换为savedmodel表单来部署该模型以供服务。保存模型的大小有点过大。(保存模型中的“variables.data-00000-of-0001”文件超过数百MB。)我在谷歌上搜索了如何减少变量的大小,但找不到好的答案。你能帮我理解如何减少张量流保存模型中变量的大小吗?展示一个简单的例子会很棒。谢谢!
我的 python 代码有问题,它使用了一些tf.contrib.slim功能,在升级到 tensorflow 到 2.0 后不再工作。
如何将以下内容升级到 tf 2.0:
import tensorflow.contrib.slim as slim
import tensorflow.contrib.slim.nets
# ...
net = slim.conv2d(
inp,
dim,
[3, 3],
rate=1,
normalizer_fn=slim.layer_norm,
activation_fn=lrelu,
scope='g_' + str(width) + '_conv1')
Run Code Online (Sandbox Code Playgroud)
谢谢。
我一直在尝试检查一组用户的percentile_approx.这背后的意图是在数据集中获得前25%的客户.所以,为了检查,我运行了以下HIVE查询.
select percentile_approx(amount, 0.75)
from sales
Run Code Online (Sandbox Code Playgroud)
但是,此查询返回的值是0.0.我不确定问题是什么.当我对几条记录的样本运行此查询时,结果就是预期的结果.
任何人都可以对此有所了解吗?
注意 - 我试图在包含超过3.3 M记录的数据集中找到百分位数.
A = LOAD 'eventnew.txt' USING HCatalogLoader();
Run Code Online (Sandbox Code Playgroud)
2015-07-08 19:56:34,875 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1070:无法使用导入解析HCatalogLoader:[,java.lang.,org.apache.pig.builtin .,org.apache.pig.impl.builtin.]日志文件的详细信息:/home/KS5023833/pig_1436364102374.log
然后我试了一下
A = LOAD 'xyz' USING org.apache.hive.hcatalog.pig.HCatLoader();
Run Code Online (Sandbox Code Playgroud)
这也行不通.
1070:无法使用导入解析org.apache.hive.hcatalog.pig.HCatLoader:[,java.lang.,org.apache.pig.builtin.,org.apache.pig.impl.builtin.]
问题是什么?我是Hadoop的新手.
我正在运行几个脚本,我不断收到同样的错误.所有这些都是具有相同条件的多表连接.
数据存储为镶木地板.
Hive版本1.2.1/MR
SELECT count(*)
FROM xxx.tmp_usr_1 m
INNER JOIN xxx.tmp_usr n
ON m.date_id = n.date_id AND m.end_user_id = n.end_user_id
LEFT JOIN xxx.usr_2 p
ON m.date_id = p.date_id AND m.end_user_id = p.end_user_id;
Run Code Online (Sandbox Code Playgroud)
这是错误消息:
2017-01-22 16:47:55,208 Stage-1 map = 54%,reduce = 0%,累计CPU 560.81秒2017-01-22 16:47:56,248 Stage-1 map = 58%,reduce = 0%,累计CPU 577.74秒2017-01-22 16:47:57,290 Stage-1 map = 100%,reduce = 100%,累计CPU 446.32 sec MapReduce累计CPU总时间:7分26秒320毫秒已结束作业= job_1484710871657_6350有错误错误作业过程中,获得的调试信息...检查任务ID:task_1484710871657_6350_m_000061(及以上),从工作job_1484710871657_6350检查任务ID:从工作task_1484710871657_6350_m_000069(及以上)job_1484710871657_6350检查任务ID:task_1484710871657_6350_m_000053(及以上),从工作job_1484710871657_6350检查任务ID:task_1484710871657_6350_m_000011 (以及更多)来自job job_1484710871657_6350检查任务ID:task_1484710871657_6350_m_000063(及以上),从工作job_1484710871657_6350检查任务ID:从工作job_1484710871657_6350检查任务ID task_1484710871657_6350_m_000049(及以上):从工作task_1484710871657_6350_m_000052(及以上)job_1484710871657_6350任务最失败(4):-----任务ID:task_1484710871657_6350_m_000071网址: HTTP://xxxxxxxxxx/taskdetails.jsp作业ID = job_1484710871657_6350&tipid = task_1484710871657_6350_m_000071 根据要求杀死容器.退出代码为143 Container退出,退出代码为非零
我的数据包含大约20M条记录.当我尝试使用一列(end_user_id)连接表时,我得到相同的错误.
连接列是相同的数据类型.将B连接作为子查询,然后加入C可以解决此问题.
我们有许多具有相同条件的多表连接语句的SQL查询,但只有少数SQL脚本遇到这些错误.
我正在尝试使用 SMTP_SSL 发送电子邮件(邮件服务器不支持 smtp)。
import smtp
s = smtp.SMTP_SSL('xxxxx')
Run Code Online (Sandbox Code Playgroud)
我收到一个错误:
模块对象没有属性“SMTP_SSL”
我不太明白为什么 python smptlib 没有属性 SMTP_SSL ,因为python 文档显示 SMTP_SSL 有这个属性。
我有一个参差不齐的尺寸张量[BATCH_SIZE, TIME_STEPS, EMBEDDING_DIM]。我想用来自另一个 shape 张量的数据来扩充最后一个轴[BATCH_SIZE, AUG_DIM]。给定示例的每个时间步都增加了相同的值。
如果张量没有TIME_STEPS因每个示例的变化而参差不齐,我可以简单地重塑第二个张量,tf.repeat然后使用tf.concat:
import tensorflow as tf
# create data
# shape: [BATCH_SIZE, TIME_STEPS, EMBEDDING_DIM]
emb = tf.constant([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [0, 0, 0]]])
# shape: [BATCH_SIZE, 1, AUG_DIM]
aug = tf.constant([[[8]], [[9]]])
# concat
aug = tf.repeat(aug, emb.shape[1], axis=1)
emb_aug = tf.concat([emb, aug], axis=-1)
Run Code Online (Sandbox Code Playgroud)
这在参差不齐时不起作用,emb因为它emb.shape[1]是未知的并且因示例而异:
# rag and remove padding
emb = tf.RaggedTensor.from_tensor(emb, padding=(0, 0, 0)) …Run Code Online (Sandbox Code Playgroud) 我正在寻找一种根据逗号分隔数据拆分列的方法。以下是我的数据集
id col1 col2
1 5,6 7,8
Run Code Online (Sandbox Code Playgroud)
我想得到结果
id col1 col2
1 5 7
1 6 8
Run Code Online (Sandbox Code Playgroud)
索引的位置应该匹配,因为我需要相应地获取结果。
我尝试了以下查询,但它返回笛卡尔积。
询问:
SELECT col3, col4
FROM test ext
lateral VIEW explode(split(col1,'\002')) col1 AS col3
lateral VIEW explode(split(col2,'\002')) col2 AS col4
Run Code Online (Sandbox Code Playgroud)
结果:
id col1 col2
1 5 7
1 5 8
1 6 7
1 6 8
Run Code Online (Sandbox Code Playgroud)