小编Osi*_*ris的帖子

如何在不更改位置的情况下重命名配置单元表？

基于下面的Hive文档:

重命名表

ALTER TABLE table_name RENAME TO new_table_name;

此语句允许您将表的名称更改为其他名称.

从版本0.6开始,托管表上的重命名也会移动其HDFS位置.(较旧的Hive版本只是在Metastore中重命名了表而没有移动HDFS位置.)

有没有办法重命名表而不改变位置？

hadoop hive hiveql

Osi*_*ris

lucky-day

17
推荐指数

3
解决办法

6万
查看次数

使用 apply、transform、agg 时如何引用 groupby 索引 - Python Pandas？

具体来说，假设我们有两个 DataFrame：

df1:

    date    A
0   12/1/14 3
1   12/1/14 1
2   12/3/14 2
3   12/3/14 3
4   12/3/14 4
5   12/6/14 5

Run Code Online (Sandbox Code Playgroud)

df2:

Run Code Online (Sandbox Code Playgroud)

现在我想对 df1 中的日期进行分组，并对每组中的值 A 求和，然后通过相应日期中 df2 中的 B 值对其进行标准化。像这样的东西

df1.groupby('date').agg(lambda x: np.sum(x)/df2.loc[x.date,'B'])

Run Code Online (Sandbox Code Playgroud)

问题是无论是aggregate、apply还是transform都不能引用索引。知道如何解决这个问题吗？

python group-by aggregate dataframe pandas

Osi*_*ris

lucky-day

6
推荐指数

1
解决办法

8749
查看次数

如何用Spark查找最近的10亿条记录？

鉴于包含以下信息的10亿条记录:

    ID  x1  x2  x3  ... x100
    1   0.1  0.12  1.3  ... -2.00
    2   -1   1.2    2   ... 3
    ...

Run Code Online (Sandbox Code Playgroud)

对于上面的每个ID,我想找到前10个最接近的ID,基于它们的向量的欧几里德距离(x1,x2,...,x100).

计算这个的最佳方法是什么？

nearest-neighbor euclidean-distance apache-spark pyspark spark-dataframe

Osi*_*ris

lucky-day

6
推荐指数

2
解决办法

1万
查看次数

如何以追加模式将 DataFrame 导出到 json - Python Pandas？

我有一个现有的 json 文件，格式为字典列表。

$cat output.json
[{'a':1, 'b':2}, {'a':2, 'b':3}]

Run Code Online (Sandbox Code Playgroud)

我有一个数据框

df = pd.DataFrame({'a':pd.Series([1,2], index=list('CD')), \
              "b":pd.Series([3,4], index=list('CD')})

Run Code Online (Sandbox Code Playgroud)

我想用 to_json 保存“df”以将其附加到文件 output.json：

df.to_json('output.json', orient='records')  #  mode='a' not available for to_json

Run Code Online (Sandbox Code Playgroud)

* to_csv有append mode='a'，但to_json实际上没有。

预期生成的output.json 文件将是：

    [{'a':1, 'b':2}, {'a':2, 'b':3}, {'a':1, 'b':3}, {'a':2, 'b':4}]

Run Code Online (Sandbox Code Playgroud)

现有文件output.json可能很大（例如太字节），是否可以在不加载文件的情况下附加新的数据帧结果？

python json numpy dataframe pandas

Osi*_*ris

2015 05-14

5
推荐指数

1
解决办法

1万
查看次数

如何在HIVE中找到多个值的最小值？

Hive 有 min(col) 来查找列的最小值。但是，例如，如何找到多个值（不是一列）的最小值

 select min(2,1,3,4);

Run Code Online (Sandbox Code Playgroud)

回报

 FAILED: UDFArgumentTypeException Exactly one argument is expected

Run Code Online (Sandbox Code Playgroud)

有小费吗？

hive mapreduce cloudera

Osi*_*ris

lucky-day

2
推荐指数

1
解决办法

6070
查看次数

如何计算 Hive 中两个数组的交集和并集？

例如，交叉点

select intersect(array("A","B"), array("B","C"))

Run Code Online (Sandbox Code Playgroud)

应该返回

["B"]

Run Code Online (Sandbox Code Playgroud)

和工会

 select union(array("A","B"), array("B","C"))

Run Code Online (Sandbox Code Playgroud)

应该返回

["A","B","C"]

Run Code Online (Sandbox Code Playgroud)

在 Hive 中实现此目的的最佳方法是什么？我已经检查了配置单元文档，但找不到任何相关信息来执行此操作。

hadoop hive hiveql

Osi*_*ris

2016 03-22

1
推荐指数

1
解决办法

1万
查看次数

标签统计

hive ×3

dataframe ×2

hadoop ×2

hiveql ×2

pandas ×2

python ×2

aggregate ×1

apache-spark ×1

cloudera ×1

euclidean-distance ×1

group-by ×1

json ×1

mapreduce ×1

nearest-neighbor ×1

numpy ×1

pyspark ×1

spark-dataframe ×1

如何在不更改位置的情况下重命名配置单元表？

使用 apply、transform、agg 时如何引用 groupby 索引 - Python Pandas？

如何用Spark查找最近的10亿条记录？

如何以追加模式将 DataFrame 导出到 json - Python Pandas？

如何在HIVE中找到多个值的最小值？

如何计算 Hive 中两个数组的交集和并集？

标签 统计

小编Osi_ris的帖子

标签统计