在Apache Spark中读取HDF5文件

有没有办法使用Scala版本的Spark读取HDF5文件？看起来它可以在Python中完成(通过Pyspark),但我找不到Scala的任何东西.

8
推荐指数

1
解决办法

6049
查看次数

使用Spark Graphframes进行分区

我正在使用Spark Graphframes处理一个较大的(？)图形(6000万个顶点和95亿个边缘).基础数据不大 - 磁盘上的顶点约为500mb,边缘约为40gb.由于java堆内存不足问题,我的容器经常关闭,但我认为底层问题是graphframe一直在不停地调整数据(我看到shuffle读/写高达150gb).有没有办法有效地划分Graphframe或底层边/顶点以减少shuffle？

apache-spark graphframes

Joh*_*ohn

lucky-day

8
推荐指数

1
解决办法

1081
查看次数

展平嵌套的Spark Dataframe

有没有办法压缩任意嵌套的Spark Dataframe？我所看到的大多数工作都是针对特定的模式编写的,我希望能够通过不同的嵌套类型(例如StructType,ArrayType,MapType等)来泛化一个Dataframe.

假设我有一个类似的架构:

StructType(List(StructField(field1,...), StructField(field2,...), ArrayType(StructType(List(StructField(nested_field1,...), StructField(nested_field2,...)),nested_array,...)))

Run Code Online (Sandbox Code Playgroud)

希望将其调整为具有如下结构的平台:

field1
field2
nested_array.nested_field1
nested_array.nested_field2

Run Code Online (Sandbox Code Playgroud)

仅供参考,寻找Pyspark的建议,但其他风味的Spark也值得赞赏.

apache-spark pyspark spark-dataframe

Joh*_*ohn

2015 12-15

7
推荐指数

3
解决办法

1万
查看次数

更改IDL生成的头文件

我正在研究一个遗留的c ++ COM项目,我正在转移到Visual Studio 2010.在这个项目的IDL文件中,我必须从另一个c ++项目中引用一个ODL文件.我的问题是另一个项目生成其头文件为$(filename)_h.h.当我的IDL文件生成其头文件时,它生成ODL文件名为$ filename.h,并且它无法引用正确的文件.

换句话说,在我的IDL文件("MyIDLFile.idl")中,我有一个类似的声明

导入"MyODLFile.odl"

在生成的文件("MyIDLFile.h")中成为

包括"MyODLFile.h"

当我需要它来生成

包括"MyODLFile_h.h"

如何指定我希望IDL在import语句中生成的文件名？

c++ com idl

Joh*_*ohn

lucky-day

5
推荐指数

1
解决办法

4154
查看次数

Pyspark Dataframe使用UDF加入

我正在尝试在PySpark中创建两个数据帧(df1和df2)的自定义连接(类似于此),代码如下所示:

my_join_udf = udf(lambda x, y: isJoin(x, y), BooleanType())
my_join_df = df1.join(df2, my_join_udf(df1.col_a, df2.col_b))

Run Code Online (Sandbox Code Playgroud)

我得到的错误信息是:

java.lang.RuntimeException: Invalid PythonUDF PythonUDF#<lambda>(col_a#17,col_b#0), requires attributes from more than one child

Run Code Online (Sandbox Code Playgroud)

有没有办法编写可以处理来自两个独立数据帧的列的PySpark UDF？

python user-defined-functions apache-spark apache-spark-sql pyspark

Joh*_*ohn

2019 01-16

4
推荐指数

1
解决办法

3588
查看次数

将本机c ++类导入CLI项目

我正在创建一个CLI项目来包装现有的本机c ++项目(同一个解决方案文件中的两个独立项目).我想在托管类中包含一个指向本机类的指针作为成员.从我在线阅读的文档中,如果托管代码和非托管代码在同一个项目中,则可以完成此操作.如果本机代码和托管代码位于不同的项目中,那么唯一的选择是在两个项目之间使用dllimport和dllexport属性,并将本机代码类函数导出为静态函数.

这些是我唯一的选择,还是可以在两个单独的项目之间导入和导出整个本机类？我问,因为这决定了我如何设计我的托管包装器.提前致谢.

mixed-mode c++-cli managed wrapper visual-c++

Joh*_*ohn

2015 03-11

3
推荐指数

1
解决办法

1453
查看次数

将boost :: shared_array <void>强制转换为boost :: shared_array <int>

我有一些看起来像这样的遗留代码:

void* getData(DataType  dataType)
{

    switch(dataType)
    {
    case TYPE_FLOAT:
        return new float[ rows * clms ];

    case TYPE_INT:
        return new int[ rows * clms ];

    case TYPE_DOUBLE:
        return new double[ rows * clms ];
    default:
        return NULL;
    }
}

Run Code Online (Sandbox Code Playgroud)

我希望能够这样做:

boost::shared_array < void > getData(DataType   dataType)
{

    boost::shared_array < void > theData;

    switch(dataType)
    {
    case TYPE_FLOAT:
        theData = boost::shared_array<float>(new float[ rows * clms ]);
                    break;

    case TYPE_INT:
        theData = boost::shared_array<int>(new int[ rows * clms ]);
                    break;

    case TYPE_DOUBLE:
        theData = …

Run Code Online (Sandbox Code Playgroud)

c++ boost casting smart-pointers

Joh*_*ohn

2011 03-08

2
推荐指数

1
解决办法

880
查看次数

在Oozie中运行python脚本时如何导入本地python模块？

我有两个python文件 - my_python_A.py和my_python_B.py.第一个文件引用第二个(from my_python_B import *).

我正在Oozie中的shell动作执行第一个python文件(即脚本很简单python my_python_A.py),并且收到以下错误:

Traceback (most recent call last):
  File "my_python_A.py", line 2, in <module>
    from my_python_B import *
ImportError: No module named my_python_B
Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.ShellMain], exit code [1]

Run Code Online (Sandbox Code Playgroud)

两个python文件都位于HDFS中的同一目录下.如何才能使此import语句生效？

python hdfs oozie

Joh*_*ohn

2016 04-26

2
推荐指数

1
解决办法

2658
查看次数

为什么我无法通过附加到dllhost.exe来使用vsperfmon进行配置？

我有一个本机C++项目,它使用COM与VB.NET中的单独项目进行通信.通过将项目附加到引用本机dll的单独exe,我已经能够成功地分析过去的本机项目.我现在正试图通过连接到dllhost.exe来配置本机项目.这个配置有效,因为我可以通过dllhost进行调试,但是如果我尝试分析代码(或者只是在我调试时将探查器附加到dllhost),那么探查器会停止并得到以下输出:

PRF0010: Launch Aborted - Unable to start vsperfmon.exe
Error VSP1712: Invalid File: C:\...\MyProj110609.vsp
PRF0025: No data was collected.

Run Code Online (Sandbox Code Playgroud)

我知道分析器有效,因为我可以使用不同的配置获得结果.我也知道调试配置有效.什么出错了？

profiler visual-studio-2010 vsperfmon

Joh*_*ohn

2012 07-18

1
推荐指数

1
解决办法

3407
查看次数

标签统计

apache-spark ×4

c++ ×2

pyspark ×2

python ×2

apache-spark-sql ×1

boost ×1

c++-cli ×1

casting ×1

com ×1

graphframes ×1

hdf5 ×1

hdfs ×1

idl ×1

managed ×1

mixed-mode ×1

oozie ×1

profiler ×1

scala ×1

smart-pointers ×1

spark-dataframe ×1

user-defined-functions ×1

visual-c++ ×1

visual-studio-2010 ×1

vsperfmon ×1

wrapper ×1

小编Joh*_*ohn的帖子

包括"MyODLFile.h"

包括"MyODLFile_h.h"

标签 统计

小编Joh_ohn的帖子

标签统计