小编Maj*_*ifi的帖子

使用java.util.logging打印线程名称

是否可以在java.util.logging.Logger生成的日志语句中打印线程名称?一种替代方法是执行以下操作:

logger.info(thread.getName() + " some useful info");
Run Code Online (Sandbox Code Playgroud)

但它是重复的,日志框架应该处理它.

java logging

13
推荐指数
2
解决办法
2万
查看次数

如何从Apache Spark中的数据框中选择相同大小的分层样本?

我在Spark 2中有一个数据框,如下所示,用户有50到数千个帖子.我想创建一个新的数据框,其中包含原始数据框中的所有用户,但每个用户只有5个随机抽样的帖子.

+--------+--------------+--------------------+
| user_id|       post_id|                text|
+--------+--------------+--------------------+
|67778705|44783131591473|some text...........|
|67778705|44783134580755|some text...........|
|67778705|44783136367108|some text...........|
|67778705|44783136970669|some text...........|
|67778705|44783138143396|some text...........|
|67778705|44783155162624|some text...........|
|67778705|44783688650554|some text...........|
|68950272|88655645825660|some text...........|
|68950272|88651393135293|some text...........|
|68950272|88652615409812|some text...........|
|68950272|88655744880460|some text...........|
|68950272|88658059871568|some text...........|
|68950272|88656994832475|some text...........|
+--------+--------------+--------------------+
Run Code Online (Sandbox Code Playgroud)

有些东西,posts.groupby('user_id').agg(sample('post_id'))但在pyspark中没有这样的功能.

有什么建议?

更新:

这个问题不同于另一个密切相关的问题,分层采样 - 火花采样有两种方式:

  1. 它询问了不成比例的分层抽样,而不是上面另一个问题中的普通比例法.
  2. 它要求在Spark的Dataframe API而不是RDD中执行此操作.

我还更新了问题的标题以澄清这一点.

apache-spark pyspark spark-dataframe

8
推荐指数
2
解决办法
7420
查看次数

Twitter Stress API的Apache Cassandra数据模式

我知道Twissandra是使用Cassandra的示例twitter克隆,但我有兴趣看看是否有人共享Cassandra架构不是为了克隆Twitter而是用于存储通过Twitter Streaming API发送的推文?

api twitter streaming cassandra

1
推荐指数
1
解决办法
1378
查看次数