标签: flume

Flume和Sqoop有什么区别?

Flume和Sqoop都用于数据移动,那么它们之间有什么区别?在什么条件下我应该使用Flume还是Sqoop?

hadoop flume sqoop

20
推荐指数
3
解决办法
3万
查看次数

flume vs kafka vs others

可能是之前已经问过这个问题,但我认为考虑到这些技术已经成熟,今天再考虑它是好的.我们希望使用flume,kafka,scribe或其他人之一将流媒体facebook和twitter个人资料信息存储到hbase中,以便稍后进行分析.我们正在为此目的考虑水槽,但我没有与其他技术合作以做出明智的决定.任何可以发光的人都会很棒!非常感谢.

scribe flume

19
推荐指数
1
解决办法
2万
查看次数


在Kafka阅读消息时重新平衡问题

我正在尝试阅读有关Kafka主题的消息,但我无法阅读它.一段时间后该进程被杀死,无需读取任何消息.

这是我得到的重新平衡错误:

[2014-03-21 10:10:53,215] ERROR Error processing message, stopping consumer:  (kafka.consumer.ConsoleConsumer$)
kafka.common.ConsumerRebalanceFailedException: topic-1395414642817-47bb4df2 can't rebalance after 4 retries
    at kafka.consumer.ZookeeperConsumerConnector$ZKRebalancerListener.syncedRebalance(ZookeeperConsumerConnector.scala:428)
    at kafka.consumer.ZookeeperConsumerConnector.kafka$consumer$ZookeeperConsumerConnector$$reinitializeConsumer(ZookeeperConsumerConnector.scala:718)
    at kafka.consumer.ZookeeperConsumerConnector$WildcardStreamsHandler.<init>(ZookeeperConsumerConnector.scala:752)
    at kafka.consumer.ZookeeperConsumerConnector.createMessageStreamsByFilter(ZookeeperConsumerConnector.scala:142)
    at kafka.consumer.ConsoleConsumer$.main(ConsoleConsumer.scala:196)
    at kafka.consumer.ConsoleConsumer.main(ConsoleConsumer.scala)
Consumed 0 messages
Run Code Online (Sandbox Code Playgroud)

我试图跑ConsumerOffsetChecker,这是我得到的错误.我不知道如何解决这个问题.任何人,任何想法?

./kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --zkconnect localhost:9092 --topic mytopic --group  topic_group
Group           Topic                          Pid Offset          logSize         Lag             Owner
Exception in thread "main" org.I0Itec.zkclient.exception.ZkNoNodeException: org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /consumers/
        at org.I0Itec.zkclient.exception.ZkException.create(ZkException.java:47)
        at org.I0Itec.zkclient.ZkClient.retryUntilConnected(ZkClient.java:685)
        at org.I0Itec.zkclient.ZkClient.readData(ZkClient.java:766)
        at org.I0Itec.zkclient.ZkClient.readData(ZkClient.java:761)
        at kafka.utils.ZkUtils$.readData(ZkUtils.scala:459)
        at kafka.tools.ConsumerOffsetChecker$.kafka$tools$ConsumerOffsetChecker$$processPartition(ConsumerOffsetChecker.scala:59)
        at kafka.tools.ConsumerOffsetChecker$$anonfun$kafka$tools$ConsumerOffsetChecker$$processTopic$1.apply$mcVI$sp(ConsumerOffsetChecker.scala:89)
        at kafka.tools.ConsumerOffsetChecker$$anonfun$kafka$tools$ConsumerOffsetChecker$$processTopic$1.apply(ConsumerOffsetChecker.scala:89)
        at kafka.tools.ConsumerOffsetChecker$$anonfun$kafka$tools$ConsumerOffsetChecker$$processTopic$1.apply(ConsumerOffsetChecker.scala:89) …
Run Code Online (Sandbox Code Playgroud)

message-queue flume apache-kafka apache-zookeeper

16
推荐指数
1
解决办法
3万
查看次数

如何有效地将数据从Kafka移动到Impala表?

以下是当前流程的步骤:

  1. Flafka将日志写入HDFS上的"着陆区".
  2. 由Oozie安排的工作将完整文件从着陆区复制到临时区域.
  3. 临时数据由Hive表"架构化",该表使用暂存区域作为其位置.
  4. 来自登台表的记录被添加到永久Hive表(例如insert into permanent_table select * from staging_table).
  5. 来自Hive表的数据在Impala中通过refresh permanent_table在Impala中执行而可用.

现有数据流

我看看我构建的过程并且"闻起来"很糟糕:有太多的中间步骤会影响数据流.

大约20个月前,我看到了一个演示,其中数据从Amazon Kinesis管道流式传输,并且可以近乎实时地被Impala查询.我不认为他们做了一件非常丑陋/错综复杂的事情.有没有更有效的方法将数据从Kafka传输到Impala(可能是可以序列化为Parquet的Kafka消费者)?

我认为"将数据流式传输到低延迟SQL"必定是一个相当常见的用例,所以我很想知道其他人是如何解决这个问题的.

hadoop flume apache-kafka impala

13
推荐指数
1
解决办法
1602
查看次数

如何设置HTTP源以测试Flume设置?

我是Flume和Hadoop的新手.我们正在开发一个BI模块,我们可以在HDFS中存储来自不同服务器的所有日志.

为此,我使用Flume.我刚刚开始尝试.成功创建了一个节点,但现在我愿意设置一个HTTP源和一个接收器,它将通过HTTP将传入的请求写入本地文件.

任何建议?

提前致谢/

java hadoop flume

12
推荐指数
1
解决办法
1万
查看次数

JMeter - 找不到TestPlan类

我有一个简单的水槽设置与HTTP源和接收器将POST请求有效负载写入文件.(这个完整的设置在Linux机器上).

之后,我的任务是对设置进行性能测试.所以我决定使用JMeter(这是我第一次使用它).

所以我在我的Windows机器上创建了一个测试计划(使用GUI),然后将其复制到linux环境中的jmeter/bin文件夹中.

当我尝试破坏它时 -
java -jar ApacheJMeter.jar -n -t flume_http_test.jmx

我收到此错误错误 - jmeter.JMeter:NonGUIDriver中的错误java.lang.RuntimeException:找不到TestPlan类!

有什么建议?

提前致谢

linux jmeter flume

12
推荐指数
1
解决办法
8698
查看次数

Scribe,Flume和Chukwa - 有哪些替代方案?

我想了解这些项目的替代方案,特别是用于聚合来自多个节点(> 500)的日志中的数据,并设计用于低内存/ CPU使用.
我熟悉scribe,flume和chukwa,我认为他们使用了太多的资源(JRE,很多图书馆).

欢迎以低使用率方式聚合来自多个节点的数据的所有意见和建议.

logging flume scribe-server chukwa

11
推荐指数
0
解决办法
4311
查看次数

如何配置Flume来收听web api http请愿

我已经构建了一个在IIS服务器上发布的api Web应用程序,我正在尝试配置Apache Flume来监听web api并保存http请求在HDFS中的响应,这是我需要监听的post方法:

    [HttpPost]
    public IEnumerable<Data> obtenerValores(arguments arg)
    {
        Random rdm = new Random();

        int ano = arg.ano;
        int rdmInt;
        decimal rdmDecimal;

        int anoActual = DateTime.Now.Year;
        int mesActual = DateTime.Now.Month;

        List<Data> ano_mes_sales = new List<Data>();

        while (ano <= anoActual)
        {
            int mes = 1;
            while ((anoActual == ano && mes <= mesActual) || (ano < anoActual && mes <= 12))
            {
                rdmInt = rdm.Next();
                rdmDecimal = (decimal)rdm.NextDouble();
                Data anoMesSales = new Data(ano, mes,(rdmInt * rdmDecimal));
                ano_mes_sales.Add(anoMesSales);

                mes++;
            }
            ano++; …
Run Code Online (Sandbox Code Playgroud)

hadoop hdfs flume asp.net-web-api flume-ng

11
推荐指数
1
解决办法
328
查看次数

如何安装和配置apache flume?

我是Apache Flume的新手.我需要在HDFS集群环境之上安装水槽.我做谷歌,所有人都说使用cloudera发行版,但我需要从源代码安装和配置.

那么有人可以建议我,从哪里开始以及如何定制水槽代理和接收服务?

flume

9
推荐指数
1
解决办法
2万
查看次数