小编Nip*_*pun的帖子

我在输入文件夹中有大约10个文件,我需要传递给我的map reduce程序.我希望我的mapper中的文件名为,因为我的fileName包含创建此文件的时间.我看到有人使用FileSplit在mapper中获取文件名.如果说我的输入文件包含数百万行,那么每次调用映射器代码时,它都会获得文件名,然后从文件中提取时间,这对于同一个文件来说显然是一个重复的耗时.一旦我在映射器中得到时间,我就不必一次又一次地从文件中分配时间.

我怎样才能做到这一点？

hadoop mapreduce

Nip*_*pun

2016 09-28

2
推荐指数

1
解决办法

2776
查看次数

火花工作cassandra错误

我每次运行带有cassandra连接器的spark中的scala程序时都会收到此错误

    Exception during preparation of SELECT count(*) FROM "eventtest"."simpletbl" WHERE token("a") > ? AND token("a") <= ?   
    ALLOW FILTERING: class org.joda.time.DateTime in JavaMirror with org.apache.spark.util.MutableURLClassLoader@23041911 of type class org.apache.spark.util.MutableURLClassLoader 
    with classpath 
    [file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./spark-cassandra-connector_2.10-1.4.0-M1.jar
    ,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./cassandra-driver-core-2.1.5.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./cassandra-spark-job_2.10-1.0.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./guava-18.0.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./joda-convert-1.2.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./cassandra-clientutil-2.1.5.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./google-collections-1.0.jar] and parent being sun.misc.Launcher$AppClassLoader@6132b73b of type class sun.misc.Launcher$AppClassLoader with classpath [file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/conf/,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/lib/spark-assembly-1.4.0-hadoop2.4.0.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/lib/datanucleus-api-jdo-3.2.6.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/lib/datanucleus-core-3.2.10.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/lib/datanucleus-rdbms-3.2.9.jar] and parent being sun.misc.Launcher$ExtClassLoader@489bb457 of type class sun.misc.Launcher$ExtClassLoader with classpath [file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/dnsns.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/sunpkcs11.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/sunjce_provider.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/zipfs.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/libatk-wrapper.so,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/java-atk-wrapper.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/localedata.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/icedtea-sound.jar] and parent being primordial classloader …

Run Code Online (Sandbox Code Playgroud)

scala cassandra apache-spark

Nip*_*pun

2017 12-09

2
推荐指数

1
解决办法

654
查看次数

SparkSQL下推过滤不适用于Spark Cassandra Connector

我有一个表模式

appname text,
randomnum int,
addedtime timestamp,
shortuuid text,
assetname text,
brandname text,

PRIMARY KEY ((appname, randomnum), addedtime, shortuuid)

Run Code Online (Sandbox Code Playgroud)

addedtime是集群密钥

现在,当我在集群密钥添加时使用下推过滤器时,我看不到它被应用了

val rdd = tabledf.filter("addedtime > '" + _to + "'").explain
== Physical Plan ==
Filter (cast(addedtime#2 as string) > 2016-12-20 11:00:00)

Run Code Online (Sandbox Code Playgroud)

根据文档,它应该应用 https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md#pushdown-filter-examples

它也在spark cassandra连接器1.4中工作,但没有使用最新的一个cassandra连接器1.6.0-M1.请让我知道这个问题

cassandra apache-spark

Nip*_*pun

2016 03-09

2
推荐指数

1
解决办法

1418
查看次数

hbase shell 命令使用正则表达式获取所有行键

如何获取 hbase shell 中具有正则表达式的键的所有值

例如，我有类似 Row key Column 1,2017-05-06 't1:5' 1,2017-05-07 't2:6'

现在我想要类似行键“1,*”的所有列族，其中 * 表示所有日期。是否可以？

hbase

Nip*_*pun

lucky-day

2
推荐指数

1
解决办法

9763
查看次数

cassandra cqlsh给出错误的计数

我在cassandra有一个只有2列和16行的表.当我做的时候

select * from <table name>

Run Code Online (Sandbox Code Playgroud)

我只能看到15行.当我做的时候

select count(*) from <table name>

Run Code Online (Sandbox Code Playgroud)

我算作15我在cqlsh中写这些查询有一行丢失了,但是如果我做了一些像select*from where appname =''我得到了一行.

当我使用nodejs casandra驱动程序做同样的事情时,我得到了正确的结果为16.这里可能是什么问题.我也做了nodetool flush,但同样的结果我使用的是cassandra 2.18

cassandra

Nip*_*pun

2015 10-16

1
推荐指数

1
解决办法

854
查看次数

大量标签的热门编码

我对一个问题感到困惑,并希望得到你的意见.我正在研究张量流中的卷积神经网络.现在我有带标签的图像.大约有10000个唯一标签,我希望图像能够自动标记.现在我使用一个热编码标签.对于10000个唯一标签,它将像功能故障一样.我们如何处理这种情况？

facebook如何在面部标记中做到这一点？有数百万的面孔.我猜他们没有为face标签做一个热编码吗？

deep-learning tensorflow one-hot-encoding

Nip*_*pun

lucky-day

1
推荐指数

1
解决办法

179
查看次数

激发阅读镶木地板中缺失的列

我有需要从 spark 读取的镶木地板文件。有些文件缺少一些列，这些列存在于新文件中。

由于我不知道哪些文件缺少列，因此我需要读取 spark 中的所有文件。我有需要阅读的列列表。也可能是所有文件都缺少某些列。我需要在那些缺失的列中放置一个空值。

当我尝试做一个时， sqlContext.sql('query')它给我错误说缺少列

如果我定义架构并执行

sqlContext.read.parquet('s3://....').schema(parquet_schema)

它给了我同样的错误。

在这里帮助我

apache-spark parquet

Nip*_*pun

2018 09-15

1
推荐指数

1
解决办法

2728
查看次数

Spark Athena连接器

我需要在spark中使用Athena，但在使用JDBC驱动程序时spark使用prepareStatement，它给我一个异常“ com.amazonaws.athena.jdbc.NotImplementedException：方法Connection.prepareStatement尚未实现”

你能让我知道如何连接雅典娜吗

pyspark amazon-athena

Nip*_*pun

lucky-day

0
推荐指数

2
解决办法

4683
查看次数

标签统计

apache-spark ×3

cassandra ×3

amazon-athena ×1

c# ×1

deep-learning ×1

hadoop ×1

hbase ×1

mapreduce ×1

multithreading ×1

neural-network ×1

one-hot-encoding ×1

parquet ×1

pyspark ×1

scala ×1

tensorflow ×1

user-interface ×1

vector ×1

windows-phone-8 ×1

小编Nip_pun的帖子

什么是单词矢量维度

从wp8 app中的单独线程更新UI

Hadoop:仅在映射器中获取输入文件名一次

火花工作cassandra错误

SparkSQL下推过滤不适用于Spark Cassandra Connector

hbase shell 命令使用正则表达式获取所有行键

cassandra cqlsh给出错误的计数

大量标签的热门编码

激发阅读镶木地板中缺失的列

Spark Athena连接器

标签统计

标签 统计

小编Nip_pun的帖子

标签统计