是否可以在java.util.logging.Logger生成的日志语句中打印线程名称?一种替代方法是执行以下操作:
logger.info(thread.getName() + " some useful info");
Run Code Online (Sandbox Code Playgroud)
但它是重复的,日志框架应该处理它.
我在Spark 2中有一个数据框,如下所示,用户有50到数千个帖子.我想创建一个新的数据框,其中包含原始数据框中的所有用户,但每个用户只有5个随机抽样的帖子.
+--------+--------------+--------------------+
| user_id| post_id| text|
+--------+--------------+--------------------+
|67778705|44783131591473|some text...........|
|67778705|44783134580755|some text...........|
|67778705|44783136367108|some text...........|
|67778705|44783136970669|some text...........|
|67778705|44783138143396|some text...........|
|67778705|44783155162624|some text...........|
|67778705|44783688650554|some text...........|
|68950272|88655645825660|some text...........|
|68950272|88651393135293|some text...........|
|68950272|88652615409812|some text...........|
|68950272|88655744880460|some text...........|
|68950272|88658059871568|some text...........|
|68950272|88656994832475|some text...........|
+--------+--------------+--------------------+
Run Code Online (Sandbox Code Playgroud)
有些东西,posts.groupby('user_id').agg(sample('post_id'))但在pyspark中没有这样的功能.
有什么建议?
更新:
这个问题不同于另一个密切相关的问题,分层采样 - 火花采样有两种方式:
我还更新了问题的标题以澄清这一点.
我知道Twissandra是使用Cassandra的示例twitter克隆,但我有兴趣看看是否有人共享Cassandra架构不是为了克隆Twitter而是用于存储通过Twitter Streaming API发送的推文?