小编gob*_*s14的帖子

在hive 0.13中没有找到类Kryo异常 - Hadoop

我有一个GenericUDF(见下面的代码)在Hadoop-1和Hive-0.12上正常运行.但是当使用Hive-0.13 + Hadoop-2测试相同的GenericUDF时,我收到以下错误.

顶点失败,vertexName = Map 12,vertexId = vertex_1409698731658_42202_1_00,diagnostics = [顶点输入:ccv初始化程序失败.,org.apache.hive.com.esotericsoftware.kry o.KryoException:无法找到类:com.xxx.xxx.Id1

这是我的UDF的代码.

package com.xxx.xxx;
import org.apache.hadoop.hive.*;

public class Id1 extends GenericUDF {
    private MapredContext context;
    private long sequenceNum = 0;
    private static final int padLength = 10;
    StringBuilder sb = null;

    public ObjectInspector initialize(ObjectInspector[] arguments)
            throws UDFArgumentException {
        sequenceNum = 0;
        sb = new StringBuilder();
        return PrimitiveObjectInspectorFactory.javaStringObjectInspector;
    }

    public Object evaluate(DeferredObject[] arguments) throws HiveException {
        int sbLength = sb.toString().length();
        if (sbLength > 0)
            sb.replace(0, sbLength, "");
        String taskId = …
Run Code Online (Sandbox Code Playgroud)

hadoop hive kryo

6
推荐指数
0
解决办法
579
查看次数

动态添加Edge visjs

谁能帮助我在此visjs网络中动态添加边缘?实际上,我正在尝试使用拖放将节点添加到画布,但是当我单击节点并将边缘动态添加到画布上存在的另一个节点时,我需要添加边缘的帮助。

vis.js

6
推荐指数
2
解决办法
6634
查看次数

如何正确减小 tensorflow 保存模型的大小?

我有一个检查点形式的 tensorflow 预训练模型,我打算通过将模型转换为savedmodel表单来部署该模型以供服务。保存模型的大小有点过大。(保存模型中的“variables.data-00000-of-0001”文件超过数百MB。)我在谷歌上搜索了如何减少变量的大小,但找不到好的答案。你能帮我理解如何减少张量流保存模型中变量的大小吗?展示一个简单的例子会很棒。谢谢!

python tensorflow tensorflow-serving

6
推荐指数
1
解决办法
4530
查看次数

手动将 tf.contrib.slim 升级到 tf 2.0

我的 python 代码有问题,它使用了一些tf.contrib.slim功能,在升级到 tensorflow 到 2.0 后不再工作。

如何将以下内容升级到 tf 2.0:

import tensorflow.contrib.slim as slim
import tensorflow.contrib.slim.nets

# ...

net = slim.conv2d(
    inp, 
    dim,
    [3, 3],
    rate=1,
    normalizer_fn=slim.layer_norm,
    activation_fn=lrelu,
    scope='g_' + str(width) + '_conv1') 
Run Code Online (Sandbox Code Playgroud)

谢谢。

python upgrade slim tensorflow

6
推荐指数
2
解决办法
2万
查看次数

hive中的percentile_approx返回零

我一直在尝试检查一组用户的percentile_approx.这背后的意图是在数据集中获得前25%的客户.所以,为了检查,我运行了以下HIVE查询.

select percentile_approx(amount, 0.75)
from sales
Run Code Online (Sandbox Code Playgroud)

但是,此查询返回的值是0.0.我不确定问题是什么.当我对几条记录的样本运行此查询时,结果就是预期的结果.

任何人都可以对此有所了解吗?

注意 - 我试图在包含超过3.3 M记录的数据集中找到百分位数.

hadoop hive

5
推荐指数
1
解决办法
3870
查看次数

运行HCatalog时出错

A = LOAD 'eventnew.txt' USING HCatalogLoader();
Run Code Online (Sandbox Code Playgroud)

2015-07-08 19:56:34,875 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1070:无法使用导入解析HCatalogLoader:[,java.lang.,org.apache.pig.builtin .,org.apache.pig.impl.builtin.]日志文件的详细信息:/home/KS5023833/pig_1436364102374.log

然后我试了一下

 A = LOAD 'xyz' USING org.apache.hive.hcatalog.pig.HCatLoader();
Run Code Online (Sandbox Code Playgroud)

这也行不通.

1070:无法使用导入解析org.apache.hive.hcatalog.pig.HCatLoader:[,java.lang.,org.apache.pig.builtin.,org.apache.pig.impl.builtin.]

问题是什么?我是Hadoop的新手.

hadoop hive apache-pig hcatalog

5
推荐指数
1
解决办法
5721
查看次数

hive多表连接具有相同的条件错误

我正在运行几个脚本,我不断收到同样的错误.所有这些都是具有相同条件的多表连接.

数据存储为镶木地板.

Hive版本1.2.1/MR

SELECT count(*) 
FROM   xxx.tmp_usr_1 m
INNER JOIN xxx.tmp_usr n
ON m.date_id = n.date_id AND m.end_user_id = n.end_user_id
LEFT JOIN xxx.usr_2 p
ON m.date_id = p.date_id AND m.end_user_id = p.end_user_id;
Run Code Online (Sandbox Code Playgroud)

这是错误消息:

2017-01-22 16:47:55,208 Stage-1 map = 54%,reduce = 0%,累计CPU 560.81秒2017-01-22 16:47:56,248 Stage-1 map = 58%,reduce = 0%,累计CPU 577.74秒2017-01-22 16:47:57,290 Stage-1 map = 100%,reduce = 100%,累计CPU 446.32 sec MapReduce累计CPU总时间:7分26秒320毫秒已结束作业= job_1484710871657_6350有错误错误作业过程中,获得的调试信息...检查任务ID:task_1484710871657_6350_m_000061(及以上),从工作job_1484710871657_6350检查任务ID:从工作task_1484710871657_6350_m_000069(及以上)job_1484710871657_6350检查任务ID:task_1484710871657_6350_m_000053(及以上),从工作job_1484710871657_6350检查任务ID:task_1484710871657_6350_m_000011 (以及更多)来自job job_1484710871657_6350检查任务ID:task_1484710871657_6350_m_000063(及以上),从工作job_1484710871657_6350检查任务ID:从工作job_1484710871657_6350检查任务ID task_1484710871657_6350_m_000049(及以上):从工作task_1484710871657_6350_m_000052(及以上)job_1484710871657_6350任务最失败(4):-----任务ID:task_1484710871657_6350_m_000071网址: HTTP://xxxxxxxxxx/taskdetails.jsp作业ID = job_1484710871657_6350&tipid = task_1484710871657_6350_m_000071 根据要求杀死容器.退出代码为143 Container退出,退出代码为非零

我的数据包含大约20M条记录.当我尝试使用一列(end_user_id)连接表时,我得到相同的错误.

连接列是相同的数据类型.将B连接作为子查询,然后加入C可以解决此问题.

我们有许多具有相同条件的多表连接语句的SQL查询,但只有少数SQL脚本遇到这些错误.

hadoop hive

5
推荐指数
1
解决办法
369
查看次数

Python smtplib 没有属性 SMTP_SSL

我正在尝试使用 SMTP_SSL 发送电子邮件(邮件服务器不支持 smtp)。

import smtp
s = smtp.SMTP_SSL('xxxxx')
Run Code Online (Sandbox Code Playgroud)

我收到一个错误:

模块对象没有属性“SMTP_SSL”

我不太明白为什么 python smptlib 没有属性 SMTP_SSL ,因为python 文档显示 SMTP_SSL 有这个属性。

python centos smtplib

5
推荐指数
1
解决办法
1363
查看次数

广播和连接参差不齐的张量

我有一个参差不齐的尺寸张量[BATCH_SIZE, TIME_STEPS, EMBEDDING_DIM]。我想用来自另一个 shape 张量的数据来扩充最后一个轴[BATCH_SIZE, AUG_DIM]。给定示例的每个时间步都增加了相同的值。

如果张量没有TIME_STEPS因每个示例的变化而参差不齐,我可以简单地重塑第二个张量,tf.repeat然后使用tf.concat

import tensorflow as tf


# create data
# shape: [BATCH_SIZE, TIME_STEPS, EMBEDDING_DIM]
emb = tf.constant([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [0, 0, 0]]])
# shape: [BATCH_SIZE, 1, AUG_DIM]
aug = tf.constant([[[8]], [[9]]])

# concat
aug = tf.repeat(aug, emb.shape[1], axis=1)
emb_aug = tf.concat([emb, aug], axis=-1)
Run Code Online (Sandbox Code Playgroud)

这在参差不齐时不起作用,emb因为它emb.shape[1]是未知的并且因示例而异:

# rag and remove padding
emb = tf.RaggedTensor.from_tensor(emb, padding=(0, 0, 0)) …
Run Code Online (Sandbox Code Playgroud)

python concatenation ragged tensorflow ragged-tensors

5
推荐指数
1
解决办法
321
查看次数

Hive - 将分隔列拆分为多行,根据位置进行选择

我正在寻找一种根据逗号分隔数据拆分列的方法。以下是我的数据集

id  col1  col2
1   5,6   7,8
Run Code Online (Sandbox Code Playgroud)

我想得到结果

id col1 col2
1  5    7
1  6    8
Run Code Online (Sandbox Code Playgroud)

索引的位置应该匹配,因为我需要相应地获取结果。

我尝试了以下查询,但它返回笛卡尔积。

询问

SELECT col3, col4
FROM test ext 
lateral VIEW explode(split(col1,'\002')) col1 AS col3
lateral VIEW explode(split(col2,'\002')) col2 AS col4
Run Code Online (Sandbox Code Playgroud)

结果

id col1 col2
1  5    7
1  5    8
1  6    7
1  6    8
Run Code Online (Sandbox Code Playgroud)

hadoop hive hiveql

4
推荐指数
1
解决办法
5887
查看次数