小编Bru*_*ald的帖子

MySQL行子查询比较问题

我有一个小的mysql表(MySQL版本5.6.23):

+-----------+-----------------+------+-----+---------+----------------+
| Field     | Type            | Null | Key | Default | Extra          |
+-----------+-----------------+------+-----+---------+----------------+
| id        | int(6) unsigned | NO   | PRI | NULL    | auto_increment |
| dividends | float(8,6)      | YES  |     | NULL    |                |
+-----------+-----------------+------+-----+---------+----------------+

Run Code Online (Sandbox Code Playgroud)

我的where子句遵循row-subqueries语法.
如果我做:

SELECT id, dividends FROM test  
  where  (id,dividends) >= (660,0.5);

Run Code Online (Sandbox Code Playgroud)

要么

SELECT id, dividends FROM test 
  where  (id,dividends) >= (660,CAST(0.5 AS DECIMAL(8,6)));

Run Code Online (Sandbox Code Playgroud)

我得到这个结果:

+-----+-----------+
| id  | dividends |
+-----+-----------+
| 660 |  0.500000 | …

Run Code Online (Sandbox Code Playgroud)

mysql sql subquery

Bru*_*ald

2015 03-23

9
推荐指数

1
解决办法

380
查看次数

找到杀死Hadoop作业的用户名

有没有办法找到杀死这份Hadoop工作的用户的名字？
我在群集Hadoop 2.6.0节点上没有root访问权限,因此我只能使用Hadoop命令行工具并仔细检查日志.
我检查了日志并尝试使用mapred job -history [jhist file]但找不到用户名.

hadoop hadoop-yarn hadoop2

Bru*_*ald

2015 12-15

7
推荐指数

1
解决办法

1550
查看次数

在Spark批处理作业中阅读Kafka主题

我正在写一个Spark(v1.6.0)批处理作业,它从Kafka主题中读取.
为此,我可以使用org.apache.spark.streaming.kafka.KafkaUtils#createRDD,我需要设置所有分区的偏移量,还需要将它们存储在某处(ZK？HDFS？),以了解从哪里开始下一个批处理作业.

在批处理作业中从Kafka读取的正确方法是什么？

我也在考虑编写流式作业,它从auto.offset.reset=smallestHDFS 读取并保存检查点,然后在下一次运行中从它开始.

但在这种情况下,我怎样才能获取一次并在第一批后停止流式传输？

scala apache-kafka apache-spark spark-streaming kafka-consumer-api

Bru*_*ald

lucky-day

7
推荐指数

1
解决办法

4605
查看次数

Kafka Streams在HDFS上查找数据

我正在用Kafka Streams(v0.10.0.1)编写一个应用程序,并希望用查找数据丰富我正在处理的记录.此数据(带时间戳的文件)每天(或每天2-3次)写入HDFS目录.

如何在Kafka Streams应用程序中加载它并加入实际KStream？
当新文件到达时,从HDFS重新读取数据的最佳做法是什么？

或者更好地切换到Kafka Connect将KDBka表内容写入Kafka主题并将其写入所有Kafka Streams应用程序实例可以使用的主题？

更新:
正如Kafka Connect所建议的那样.因为查询数据每天在RDBMS中更新,所以我考虑将Kafka Connect作为预定的一次性工作运行,而不是始终保持连接打开.是的,因为语义和保持连接始终打开的开销,并确保它不会被中断..等等.对于我来说,在这种情况下进行预定的提取看起来更安全.

查找数据不大,可以删除/添加/修改记录.我不知道如何总是完全转储到Kafka主题并截断以前的记录.启用日志压缩并为已删除的密钥发送空值可能不起作用,因为我不知道源系统中已删除的内容.另外AFAIK我在压实发生时没有控制权.

hadoop apache-kafka apache-kafka-streams confluent apache-kafka-connect

Bru*_*ald

2016 09-05

6
推荐指数

1
解决办法

708
查看次数

YARN：通过 applicationId 获取容器

我想列出为特定 MR 作业运行容器的节点。
我只有application_id.
是否可以使用Hadoop REST API和/或通过命令行来完成？

hadoop hadoop-yarn

Bru*_*ald

lucky-day

4
推荐指数

2
解决办法

3315
查看次数

Kafka Streams"map-side"加入就像字典查找一样

这个问题是对Kafka Streams的跟进,其中包含有关HDFS的查找数据.我需要加入(如"地图侧"连接)小字典数据到主Kafka流

AFAIK,Kafka Stream实例始终适用于主题的给定分区.如果我想进行查找,我需要为连接键重新分配两个流,以将相关记录放在一起.

如果需要检查多个查找数据,多次来回重新分配的成本是多少？无法将整个查找数据集发送到每个分区,因此当我KTable从查找主题构建一个时,我将在所有Kafka Stream应用程序实例中看到整个数据集.因此,我可以在KStream#transform()方法中进行查找,这将使本地RocksDB存储具有我拥有的所有查找数据.

我想知道哪个选项更合适: