Flume和Sqoop都用于数据移动,那么它们之间有什么区别?在什么条件下我应该使用Flume还是Sqoop?
可能是之前已经问过这个问题,但我认为考虑到这些技术已经成熟,今天再考虑它是好的.我们希望使用flume,kafka,scribe或其他人之一将流媒体facebook和twitter个人资料信息存储到hbase中,以便稍后进行分析.我们正在为此目的考虑水槽,但我没有与其他技术合作以做出明智的决定.任何可以发光的人都会很棒!非常感谢.
我最近发现了许多选项,并且通过成熟度和稳定性进行比较很有趣.
我正在尝试阅读有关Kafka主题的消息,但我无法阅读它.一段时间后该进程被杀死,无需读取任何消息.
这是我得到的重新平衡错误:
[2014-03-21 10:10:53,215] ERROR Error processing message, stopping consumer: (kafka.consumer.ConsoleConsumer$)
kafka.common.ConsumerRebalanceFailedException: topic-1395414642817-47bb4df2 can't rebalance after 4 retries
at kafka.consumer.ZookeeperConsumerConnector$ZKRebalancerListener.syncedRebalance(ZookeeperConsumerConnector.scala:428)
at kafka.consumer.ZookeeperConsumerConnector.kafka$consumer$ZookeeperConsumerConnector$$reinitializeConsumer(ZookeeperConsumerConnector.scala:718)
at kafka.consumer.ZookeeperConsumerConnector$WildcardStreamsHandler.<init>(ZookeeperConsumerConnector.scala:752)
at kafka.consumer.ZookeeperConsumerConnector.createMessageStreamsByFilter(ZookeeperConsumerConnector.scala:142)
at kafka.consumer.ConsoleConsumer$.main(ConsoleConsumer.scala:196)
at kafka.consumer.ConsoleConsumer.main(ConsoleConsumer.scala)
Consumed 0 messages
Run Code Online (Sandbox Code Playgroud)
我试图跑ConsumerOffsetChecker
,这是我得到的错误.我不知道如何解决这个问题.任何人,任何想法?
./kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --zkconnect localhost:9092 --topic mytopic --group topic_group
Group Topic Pid Offset logSize Lag Owner
Exception in thread "main" org.I0Itec.zkclient.exception.ZkNoNodeException: org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /consumers/
at org.I0Itec.zkclient.exception.ZkException.create(ZkException.java:47)
at org.I0Itec.zkclient.ZkClient.retryUntilConnected(ZkClient.java:685)
at org.I0Itec.zkclient.ZkClient.readData(ZkClient.java:766)
at org.I0Itec.zkclient.ZkClient.readData(ZkClient.java:761)
at kafka.utils.ZkUtils$.readData(ZkUtils.scala:459)
at kafka.tools.ConsumerOffsetChecker$.kafka$tools$ConsumerOffsetChecker$$processPartition(ConsumerOffsetChecker.scala:59)
at kafka.tools.ConsumerOffsetChecker$$anonfun$kafka$tools$ConsumerOffsetChecker$$processTopic$1.apply$mcVI$sp(ConsumerOffsetChecker.scala:89)
at kafka.tools.ConsumerOffsetChecker$$anonfun$kafka$tools$ConsumerOffsetChecker$$processTopic$1.apply(ConsumerOffsetChecker.scala:89)
at kafka.tools.ConsumerOffsetChecker$$anonfun$kafka$tools$ConsumerOffsetChecker$$processTopic$1.apply(ConsumerOffsetChecker.scala:89) …
Run Code Online (Sandbox Code Playgroud) 以下是当前流程的步骤:
insert into permanent_table select * from staging_table
).refresh permanent_table
在Impala中执行而可用.我看看我构建的过程并且"闻起来"很糟糕:有太多的中间步骤会影响数据流.
大约20个月前,我看到了一个演示,其中数据从Amazon Kinesis管道流式传输,并且可以近乎实时地被Impala查询.我不认为他们做了一件非常丑陋/错综复杂的事情.有没有更有效的方法将数据从Kafka传输到Impala(可能是可以序列化为Parquet的Kafka消费者)?
我认为"将数据流式传输到低延迟SQL"必定是一个相当常见的用例,所以我很想知道其他人是如何解决这个问题的.
我是Flume和Hadoop的新手.我们正在开发一个BI模块,我们可以在HDFS中存储来自不同服务器的所有日志.
为此,我使用Flume.我刚刚开始尝试.成功创建了一个节点,但现在我愿意设置一个HTTP源和一个接收器,它将通过HTTP将传入的请求写入本地文件.
任何建议?
提前致谢/
我有一个简单的水槽设置与HTTP源和接收器将POST请求有效负载写入文件.(这个完整的设置在Linux机器上).
之后,我的任务是对设置进行性能测试.所以我决定使用JMeter(这是我第一次使用它).
所以我在我的Windows机器上创建了一个测试计划(使用GUI),然后将其复制到linux环境中的jmeter/bin文件夹中.
当我尝试破坏它时 -
java -jar ApacheJMeter.jar -n -t flume_http_test.jmx
我收到此错误错误 - jmeter.JMeter:NonGUIDriver中的错误java.lang.RuntimeException:找不到TestPlan类!
有什么建议?
提前致谢
我想了解这些项目的替代方案,特别是用于聚合来自多个节点(> 500)的日志中的数据,并设计用于低内存/ CPU使用.
我熟悉scribe,flume和chukwa,我认为他们使用了太多的资源(JRE,很多图书馆).
欢迎以低使用率方式聚合来自多个节点的数据的所有意见和建议.
我已经构建了一个在IIS服务器上发布的api Web应用程序,我正在尝试配置Apache Flume来监听web api并保存http请求在HDFS中的响应,这是我需要监听的post方法:
[HttpPost]
public IEnumerable<Data> obtenerValores(arguments arg)
{
Random rdm = new Random();
int ano = arg.ano;
int rdmInt;
decimal rdmDecimal;
int anoActual = DateTime.Now.Year;
int mesActual = DateTime.Now.Month;
List<Data> ano_mes_sales = new List<Data>();
while (ano <= anoActual)
{
int mes = 1;
while ((anoActual == ano && mes <= mesActual) || (ano < anoActual && mes <= 12))
{
rdmInt = rdm.Next();
rdmDecimal = (decimal)rdm.NextDouble();
Data anoMesSales = new Data(ano, mes,(rdmInt * rdmDecimal));
ano_mes_sales.Add(anoMesSales);
mes++;
}
ano++; …
Run Code Online (Sandbox Code Playgroud) 我是Apache Flume的新手.我需要在HDFS集群环境之上安装水槽.我做谷歌,所有人都说使用cloudera发行版,但我需要从源代码安装和配置.
那么有人可以建议我,从哪里开始以及如何定制水槽代理和接收服务?