小编Maj*_*ifi的帖子

使用java.util.logging打印线程名称

是否可以在java.util.logging.Logger生成的日志语句中打印线程名称？一种替代方法是执行以下操作:

logger.info(thread.getName() + " some useful info");

Run Code Online (Sandbox Code Playgroud)

但它是重复的,日志框架应该处理它.

java logging

Maj*_*ifi

2019 04-26

13
推荐指数

2
解决办法

2万
查看次数

如何从Apache Spark中的数据框中选择相同大小的分层样本？

我在Spark 2中有一个数据框,如下所示,用户有50到数千个帖子.我想创建一个新的数据框,其中包含原始数据框中的所有用户,但每个用户只有5个随机抽样的帖子.

+--------+--------------+--------------------+
| user_id|       post_id|                text|
+--------+--------------+--------------------+
|67778705|44783131591473|some text...........|
|67778705|44783134580755|some text...........|
|67778705|44783136367108|some text...........|
|67778705|44783136970669|some text...........|
|67778705|44783138143396|some text...........|
|67778705|44783155162624|some text...........|
|67778705|44783688650554|some text...........|
|68950272|88655645825660|some text...........|
|68950272|88651393135293|some text...........|
|68950272|88652615409812|some text...........|
|68950272|88655744880460|some text...........|
|68950272|88658059871568|some text...........|
|68950272|88656994832475|some text...........|
+--------+--------------+--------------------+

Run Code Online (Sandbox Code Playgroud)

有些东西,posts.groupby('user_id').agg(sample('post_id'))但在pyspark中没有这样的功能.

有什么建议？

更新:

这个问题不同于另一个密切相关的问题,分层采样 - 火花采样有两种方式: