小编use*_*609的帖子

将Spark数据帧转换为Pandas/R数据帧的要求

我在Hadoop的YARN上运行Spark.这种转换如何运作?在转换之前是否会发生collect()?

另外我需要在每个从节点上安装Python和R才能使转换工作?我很难找到这方面的文件.

hadoop dataframe pandas apache-spark apache-spark-sql

3
推荐指数
1
解决办法
2907
查看次数

在循环中调用列表中的每个方法?

这是我想做的,但不确定是否有办法做到这一点:

methods = [__add__, __sub__, __mul__]

a = 3
b = 4

for m in methods:
    print a.m(b)
Run Code Online (Sandbox Code Playgroud)

结果应该是:

7
-1
12
Run Code Online (Sandbox Code Playgroud)

我如何为任何大小的列表完成此任务,以及在Python中调用的内容是什么?

python python-2.7

3
推荐指数
1
解决办法
39
查看次数

Java/Hive正则表达式解释

直截了当的问题,谷歌正则表达式语法很难......

我正在阅读HortonWorks Hive教程(Hive使用与Java相同的正则表达式),以下SELECT语句使用正则表达式从可能的JSON数据中提取...

        INSERT OVERWRITE TABLE batting
        SELECT
        regexp_extract(col_value,'^(?:([^,]*)\.?){1}',1) player_id,
        regexp_extract(col_value,'^(?:([^,]*)\.?){2}',1) year,
        regexp_extract(col_value,'^(?:([^,]*)\.?){9}',1) run
        FROM temp_batting;
Run Code Online (Sandbox Code Playgroud)

数据如下所示:

PlayerID,yearID,stint,teamID,lgID,G,G_batting,AB,R,H,2B,3B,HR,RBI,SB,CS,BB,SO,IBB,HBP,SH,SF,GIDP,G_old aardsda01,2004 ,1,SFN,NL,11,11,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,11 aardsda01,2006,1, CHN,NL,45,43,2,0,0,0,0,0,0,0,0,0,0,0,1,0,0,45 aardsda01,2007,1,CHA,AL ,25,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2

所以PlayerID在column1中,year是column2,R(运行)是第9列.Regexp_extract如何成功提取这些数据?

我是非捕获组的新手,但在我看来,整个事情都是非捕获组.此外,我习惯于以[0-9] {9}的形式看到{1},{2}或{9},这意味着它与9位数字匹配.在这种情况下,看起来它指向第9个匹配的东西,这个语法叫什么?

java regex hive

2
推荐指数
1
解决办法
7371
查看次数

JDBC和Java API有什么区别?

我正在学习HBase,它是用Java编写的,因此有一个Java API.我认为它也支持JDBC,但它看起来没有,现在我想我并不真正理解JDBC的含义.

有什么不同?对于使用JDBC无法做到的Java API,我该怎么办?反之亦然?

java hbase

2
推荐指数
1
解决办法
580
查看次数

同时检索'count where'和总计数

我有一个餐厅评级和评论数据库,每个餐厅可以有1到1000个评论.

我首先尝试找到哪些餐馆评价最多4+评论中包含"taco"这个词,我得到了以下代码:

    select id, count(id) from test where (comment like '%taco%') AND rating >= 3 group by id order by count(id) DESC;
Run Code Online (Sandbox Code Playgroud)

因此,例如,如果餐厅X有30个4+评级,包括'taco',那么我会得到'X | 30'.

我想添加两个额外的功能:

  1. 列出每家餐厅的评论总数(没有任何条件)
  2. 给出包括'taco'在内的所有餐厅的评价的平均评分.

如果X餐厅共有150条评论,其中30条评价为4+且包括'taco',这30条评论的平均评分是2.5,我会得到:

'X | 30 | 150 | 2.5 |'

我如何得到这个结果?

sql sqlite

1
推荐指数
1
解决办法
66
查看次数

结合两个csv(d3)

我正在使用以下代码加载两个csv文件

    d3.csv("sqrt100train.csv", function(error, data2) {
    d3.csv("sqrt100test.csv", function(error, data) {
Run Code Online (Sandbox Code Playgroud)

sqrt100train看起来像这样:

    Trees   Train
    1   0.059286
    2   0.057857
    3   0.032857
    4   0.03619
    5   0.022619
Run Code Online (Sandbox Code Playgroud)

和sqrt100test看起来像这样:

    Trees   Test
    1   0.072222
    2   0.072778
    3   0.044444
    4   0.049444
    5   0.042778
Run Code Online (Sandbox Code Playgroud)

如何组合这些数组来实现此目的:

    Trees   Train   Test
    1   0.059286    0.072222
    2   0.057857    0.072778
    3   0.032857    0.044444
    4   0.036190    0.049444
    5   0.022619    0.042778
Run Code Online (Sandbox Code Playgroud)

javascript d3.js

1
推荐指数
1
解决办法
1807
查看次数

svds不适用于某些矩阵?

这是我的测试功能:

            function diff = svdtester()

            y = rand(500,20);
            [U,S,V] = svd(y);

            %{
            y = sprand(500,20,.1);
            [U,S,V] = svds(y);
            %}

            diff_mat = y - U*S*V';
            diff = mean(abs(diff_mat(:)));

            end
Run Code Online (Sandbox Code Playgroud)

有两个非常相似的部分:一个找到随机矩阵的SVD,另一个找到随机稀疏矩阵的SVD.无论您选择评论哪一个(现在第二个被注释掉),我们计算原始矩阵与其SVD组件的乘积之间的差异,并返回平均绝对差值.

使用rand/svd时,典型的返回(平均误差)值约为8.8e-16,基本为零.当使用sprand/svds时,典型的返回值约为0.07,考虑到稀疏矩阵的开始是90%0,这是相当糟糕的.

我是否误解了SVD应该如何用于稀疏矩阵,或者这些函数有问题?

matlab linear-algebra

0
推荐指数
1
解决办法
1157
查看次数

如何在一个不相交的森林中存储每一组?

试图用Java编写自己的代码...我创建了一个GraphNode类来表示具有指向其父级的指针的节点.

我还创建了一个DisjointSet类,其中包含一个MakeSet方法,该方法创建一个GraphNode对象并使其父引用引用自身.

问题是:我如何存储每个节点,以便稍后在Union和FindSet中轻松访问它?我首先想到它将它存储在BST中,但是我必须创建一个自定义的TreeNode类,它不仅存储值,还存储对GraphNode的引用.有没有更简单的方法?

java disjoint-sets data-structures

0
推荐指数
1
解决办法
2683
查看次数