小编Osi*_*ris的帖子

如何在不更改位置的情况下重命名配置单元表?

基于下面的Hive文档:

重命名表

ALTER TABLE table_name RENAME TO new_table_name;

此语句允许您将表的名称更改为其他名称.

从版本0.6开始,托管表上的重命名也会移动其HDFS位置.(较旧的Hive版本只是在Metastore中重命名了表而没有移动HDFS位置.)

有没有办法重命名表而不改变位置?

hadoop hive hiveql

17
推荐指数
3
解决办法
6万
查看次数

使用 apply、transform、agg 时如何引用 groupby 索引 - Python Pandas?

具体来说,假设我们有两个 DataFrame:

df1:

    date    A
0   12/1/14 3
1   12/1/14 1
2   12/3/14 2
3   12/3/14 3
4   12/3/14 4
5   12/6/14 5
Run Code Online (Sandbox Code Playgroud)

df2:

        B
12/1/14 10
12/2/14 20
12/3/14 10
12/4/14 30
12/5/14 10
12/6/14 20
Run Code Online (Sandbox Code Playgroud)

现在我想对 df1 中的日期进行分组,并对每组中的值 A 求和,然后通过相应日期中 df2 中的 B 值对其进行标准化。像这样的东西

df1.groupby('date').agg(lambda x: np.sum(x)/df2.loc[x.date,'B'])
Run Code Online (Sandbox Code Playgroud)

问题是无论是aggregate、apply还是transform都不能引用索引。知道如何解决这个问题吗?

python group-by aggregate dataframe pandas

6
推荐指数
1
解决办法
8749
查看次数

如何用Spark查找最近的10亿条记录?

鉴于包含以下信息的10亿条记录:

    ID  x1  x2  x3  ... x100
    1   0.1  0.12  1.3  ... -2.00
    2   -1   1.2    2   ... 3
    ...
Run Code Online (Sandbox Code Playgroud)

对于上面的每个ID,我想找到前10个最接近的ID,基于它们的向量的欧几里德距离(x1,x2,...,x100).

计算这个的最佳方法是什么?

nearest-neighbor euclidean-distance apache-spark pyspark spark-dataframe

6
推荐指数
2
解决办法
1万
查看次数

如何以追加模式将 DataFrame 导出到 json - Python Pandas?

我有一个现有的 json 文件,格式为字典列表。

$cat output.json
[{'a':1, 'b':2}, {'a':2, 'b':3}]
Run Code Online (Sandbox Code Playgroud)

我有一个数据框

df = pd.DataFrame({'a':pd.Series([1,2], index=list('CD')), \
              "b":pd.Series([3,4], index=list('CD')})
Run Code Online (Sandbox Code Playgroud)

我想用 to_json 保存“df”以将其附加到文件 output.json:

df.to_json('output.json', orient='records')  #  mode='a' not available for to_json
Run Code Online (Sandbox Code Playgroud)

* to_csv有append mode='a',但to_json实际上没有。

预期生成的output.json 文件将是:

    [{'a':1, 'b':2}, {'a':2, 'b':3}, {'a':1, 'b':3}, {'a':2, 'b':4}]
Run Code Online (Sandbox Code Playgroud)

现有文件output.json可能很大(例如太字节),是否可以在不加载文件的情况下附加新的数据帧结果?

python json numpy dataframe pandas

5
推荐指数
1
解决办法
1万
查看次数

如何在HIVE中找到多个值的最小值?

Hive 有 min(col) 来查找列的最小值。但是,例如,如何找到多个值(不是一列)的最小值

 select min(2,1,3,4);
Run Code Online (Sandbox Code Playgroud)

回报

 FAILED: UDFArgumentTypeException Exactly one argument is expected
Run Code Online (Sandbox Code Playgroud)

有小费吗?

hive mapreduce cloudera

2
推荐指数
1
解决办法
6070
查看次数

如何计算 Hive 中两个数组的交集和并集?

例如,交叉点

select intersect(array("A","B"), array("B","C"))
Run Code Online (Sandbox Code Playgroud)

应该返回

["B"]
Run Code Online (Sandbox Code Playgroud)

和工会

 select union(array("A","B"), array("B","C"))
Run Code Online (Sandbox Code Playgroud)

应该返回

["A","B","C"]
Run Code Online (Sandbox Code Playgroud)

在 Hive 中实现此目的的最佳方法是什么?我已经检查了配置单元文档,但找不到任何相关信息来执行此操作。

hadoop hive hiveql

1
推荐指数
1
解决办法
1万
查看次数