小编Nip*_*pun的帖子

什么是单词矢量维度

我目前是深度学习的业余爱好者,正在本网站上阅读word2vector https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-3-more-fun-with-word-vectors

对于CBOW或skipgram模型,我可以看到单词向量的维度是300,词汇量大小是15000.我在前面的文章中读到的是,我们可以对向量中的单词进行硬编码.所以我猜单词向量维度应该等于词汇量大小或者以不同的方式提出问题,这个单词维度是什么以及如何将其可视化.你如何看待这个维度?

vector neural-network

3
推荐指数
1
解决办法
1862
查看次数

从wp8 app中的单独线程更新UI

我正在创建一个小型WP8应用程序,它可以更新从Windows Azure移动服务接收数据并将其显示给用户.

现在我有一个单独的线程,其工作是与azure服务交互获取数据并使用数据更新UI,而主UI线程正在执行其他操作.

我尝试了以下方法,但失败了......

  1. 创建了一个单独的线程但该线程无法更新UI,因为它无法访问控件

  2. 创建了一个BackgroundWorker线程,但是当我调用Azure移动服务等待方法时,工作线程调用其已完成的事件,然后当我调用该ProgressChanged事件时它失败并出现异常:操作已经完成

有人可以帮帮我吗?

c# user-interface multithreading windows-phone-8

2
推荐指数
1
解决办法
1431
查看次数

Hadoop:仅在映射器中获取输入文件名一次

我是hadoop的新手,目前正在研究hadoop.我有一个小问题.

我在输入文件夹中有大约10个文件,我需要传递给我的map reduce程序.我希望我的mapper中的文件名为,因为我的fileName包含创建此文件的时间.我看到有人使用FileSplit在mapper中获取文件名.如果说我的输入文件包含数百万行,那么每次调用映射器代码时,它都会获得文件名,然后从文件中提取时间,这对于同一个文件来说显然是一个重复的耗时.一旦我在映射器中得到时间,我就不必一次又一次地从文件中分配时间.

我怎样才能做到这一点?

hadoop mapreduce

2
推荐指数
1
解决办法
2776
查看次数

火花工作cassandra错误

我每次运行带有cassandra连接器的spark中的scala程序时都会收到此错误

    Exception during preparation of SELECT count(*) FROM "eventtest"."simpletbl" WHERE token("a") > ? AND token("a") <= ?   
    ALLOW FILTERING: class org.joda.time.DateTime in JavaMirror with org.apache.spark.util.MutableURLClassLoader@23041911 of type class org.apache.spark.util.MutableURLClassLoader 
    with classpath 
    [file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./spark-cassandra-connector_2.10-1.4.0-M1.jar
    ,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./cassandra-driver-core-2.1.5.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./cassandra-spark-job_2.10-1.0.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./guava-18.0.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./joda-convert-1.2.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./cassandra-clientutil-2.1.5.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/work/app-20150711142923-0023/0/./google-collections-1.0.jar] and parent being sun.misc.Launcher$AppClassLoader@6132b73b of type class sun.misc.Launcher$AppClassLoader with classpath [file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/conf/,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/lib/spark-assembly-1.4.0-hadoop2.4.0.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/lib/datanucleus-api-jdo-3.2.6.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/lib/datanucleus-core-3.2.10.jar,file: 
    /home/sysadmin/ApacheSpark/spark-1.4.0-bin-hadoop2.4/lib/datanucleus-rdbms-3.2.9.jar] and parent being sun.misc.Launcher$ExtClassLoader@489bb457 of type class sun.misc.Launcher$ExtClassLoader with classpath [file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/dnsns.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/sunpkcs11.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/sunjce_provider.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/zipfs.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/libatk-wrapper.so,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/java-atk-wrapper.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/localedata.jar,file: 
    /usr/lib/jvm/java-7-openjdk-amd64/jre/lib/ext/icedtea-sound.jar] and parent being primordial classloader …
Run Code Online (Sandbox Code Playgroud)

scala cassandra apache-spark

2
推荐指数
1
解决办法
654
查看次数

SparkSQL下推过滤不适用于Spark Cassandra Connector

我有一个表模式

appname text,
randomnum int,
addedtime timestamp,
shortuuid text,
assetname text,
brandname text,

PRIMARY KEY ((appname, randomnum), addedtime, shortuuid)
Run Code Online (Sandbox Code Playgroud)

addedtime是集群密钥

现在,当我在集群密钥添加时使用下推过滤器时,我看不到它被应用了

val rdd = tabledf.filter("addedtime > '" + _to + "'").explain
== Physical Plan ==
Filter (cast(addedtime#2 as string) > 2016-12-20 11:00:00)
Run Code Online (Sandbox Code Playgroud)

根据文档,它应该应用 https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md#pushdown-filter-examples

它也在spark cassandra连接器1.4中工作,但没有使用最新的一个cassandra连接器1.6.0-M1.请让我知道这个问题

cassandra apache-spark

2
推荐指数
1
解决办法
1418
查看次数

hbase shell 命令使用正则表达式获取所有行键

如何获取 hbase shell 中具有正则表达式的键的所有值

例如,我有类似 Row key Column 1,2017-05-06 't1:5' 1,2017-05-07 't2:6'

现在我想要类似行键“1,*”的所有列族,其中 * 表示所有日期。是否可以?

hbase

2
推荐指数
1
解决办法
9763
查看次数

cassandra cqlsh给出错误的计数

我在cassandra有一个只有2列和16行的表.当我做的时候

select * from <table name>
Run Code Online (Sandbox Code Playgroud)

我只能看到15行.当我做的时候

select count(*) from <table name> 
Run Code Online (Sandbox Code Playgroud)

我算作15我在cqlsh中写这些查询有一行丢失了,但是如果我做了一些像select*from where appname =''我得到了一行.

当我使用nodejs casandra驱动程序做同样的事情时,我得到了正确的结果为16.这里可能是什么问题.我也做了nodetool flush,但同样的结果我使用的是cassandra 2.18

cassandra

1
推荐指数
1
解决办法
854
查看次数

大量标签的热门编码

我对一个问题感到困惑,并希望得到你的意见.我正在研究张量流中的卷积神经网络.现在我有带标签的图像.大约有10000个唯一标签,我希望图像能够自动标记.现在我使用一个热编码标签.对于10000个唯一标签,它将像功能故障一样.我们如何处理这种情况?

facebook如何在面部标记中做到这一点?有数百万的面孔.我猜他们没有为face标签做一个热编码吗?

deep-learning tensorflow one-hot-encoding

1
推荐指数
1
解决办法
179
查看次数

激发阅读镶木地板中缺失的列

我有需要从 spark 读取的镶木地板文件。有些文件缺少一些列,这些列存在于新文件中。

由于我不知道哪些文件缺少列,因此我需要读取 spark 中的所有文件。我有需要阅读的列列表。也可能是所有文件都缺少某些列。我需要在那些缺失的列中放置一个空值。

当我尝试做一个时, sqlContext.sql('query')它给我错误说缺少列

如果我定义架构并执行

sqlContext.read.parquet('s3://....').schema(parquet_schema)

它给了我同样的错误。

在这里帮助我

apache-spark parquet

1
推荐指数
1
解决办法
2728
查看次数

Spark Athena连接器

我需要在spark中使用Athena,但在使用JDBC驱动程序时spark使用prepareStatement,它给我一个异常“ com.amazonaws.athena.jdbc.NotImplementedException:方法Connection.prepareStatement尚未实现”

你能让我知道如何连接雅典娜吗

pyspark amazon-athena

0
推荐指数
2
解决办法
4683
查看次数