我正在尝试在没有 cloudera manager 的本地机器(32 位 ubuntu)上安装 cloudera impala(他们不支持 32 位 ubuntu,我也尝试过但失败了)。
我尝试按照以下命令从存储库下载黑斑羚。
$ sudo apt-get install impala-shell
$ sudo apt-get install impala # Binaries for daemons
$ sudo apt-get install impala-server # Service start/stop script
$ sudo apt-get install impala-state-store # Service start/stop script
Run Code Online (Sandbox Code Playgroud)
到这里它工作正常。我的impala/conf/hive-site.xml 看起来像这样
<property>
<name>hive.metastore.local</name>
<value>false</value>
</property>
<property>
<name>hive.metastore.uris</name>
<value>thrift://localhost:9083</value>
</property>
<property>
<name>hive.metastore.client.socket.timeout</name>
<value>3600</value>
<description>MetaStore Client socket timeout in seconds</description>
</property>
Run Code Online (Sandbox Code Playgroud)
我的impala/conf/hdfs-site.xml 看起来像这样。
<property>
<name>dfs.client.read.shortcircuit</name>
<value>true</value>
</property>
<property>
<name>dfs.domain.socket.path</name>
<value>/var/run/hadoop-hdfs/dn._PORT</value>
</property>
<property>
<name>dfs.client.file-block-storage-locations.timeout</name>
<value>3000</value>
</property>
Run Code Online (Sandbox Code Playgroud)
现在,我试图在impala-shell 上连接到本地主机。但是,它给了我这个错误 …
我几乎没有问题iis logs:
1)我注意到很多iis logs包含相同的信息,但行重复,为什么会这样?
2)对于某些行中的相同cookie Asp.net sessionID仍然缺失.例如,如果同一个cookie有5行,那么在前2行中没有,Asp.net sessionid而对于休息3,一切都很好,为什么?
3)有什么方法可以找出用户在上次访问过的页面中花费的时间.原因是,我们在上次访问页面后没有任何DateTime信息?
我正在尝试向本地风暴群集提交一个简单的字数统计拓扑.首先,我尝试使用maven,然后使用storm命令行客户端.我使用eclipse创建了JAR文件.但是,它抛出了主类未找到的异常.谁能告诉我可能是什么问题?我附上下面的代码和例外.
package com.test.newpackage;
import com.test.newpackage.WordReader;
import backtype.storm.Config;
import backtype.storm.LocalCluster;
import backtype.storm.topology.TopologyBuilder;
import backtype.storm.tuple.Fields;
import com.test.newpackage.WordCounter;
import com.test.newpackage.WordNormalizer;
public class TopologyMain {
public static void main(String[] args) throws InterruptedException {
// Topology definition
TopologyBuilder builder = new TopologyBuilder();
builder.setSpout("word-reader", new WordReader());
builder.setBolt("word-normalizer", new WordNormalizer())
.shuffleGrouping("word-reader");
builder.setBolt("word-counter", new WordCounter(), 2).fieldsGrouping(
"word-normalizer", new Fields("word"));
// Configuration
Config conf = new Config();
conf.put("wordsFile", args[0]);
conf.setDebug(false);
// Topology run
conf.put(Config.TOPOLOGY_MAX_SPOUT_PENDING, 1);
LocalCluster cluster = new LocalCluster();
cluster.submitTopology("Getting-Started-Toplogie", conf,
builder.createTopology());
Thread.sleep(1000);
cluster.shutdown();
}
}
package com.test.newpackage; …Run Code Online (Sandbox Code Playgroud) 我正在使用maven构建我的java项目但是无法成功.那么,任何人都可以告诉我pom.xml中构建项目所需的基本标签及其相应的值吗?另外,如何从命令行手动添加风暴依赖项?
我的项目目录结构:
ROOT
|
|----com--->test----->newpackage---->*.class
|--- META-INF------>MANIFEST.MF
|----resource----->words.txt
|----pom.xml
|-----*.jar
Run Code Online (Sandbox Code Playgroud)
最初我尝试了Maven Link并创建了pom.xml这样的:
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0
http://maven.apache.org/xsd/maven-4.0.0.xsd">
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>1.6</version>
<executions>
<execution>
<phase>com.test.newpackage</phase>
<goals>
<goal>shade</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>
Run Code Online (Sandbox Code Playgroud)
但是,之后我使用了mvn package.它抛出这个异常:
[INFO] Scanning for projects...
[INFO] ------------------------------------------------------------------------
[ERROR] FATAL ERROR
[INFO] ------------------------------------------------------------------------
[INFO] Error building POM (may not be this project's POM).
Project ID: unknown
POM Location: /home/naresh/Desktop/SharedFolder/StormEclipse/pom.xml
Reason: Not a v4.0.0 POM. for project unknown at /home/naresh/Desktop/SharedFolder/StormEclipse/pom.xml …Run Code Online (Sandbox Code Playgroud) 我当前正在使用spark处理数据,并且foreach分区打开与mysql的连接,并将其以1000的批数插入到数据库中。如SparkDocumentation所述,默认值为spark.sql.shuffle.partitions200,但我想保持其动态。因此,我该如何计算。因此,既不选择导致性能降低的非常高的值,也不选择导致性能降低的非常小的值OOM。
我在ubuntu机器上使用和gem rails 4.1.8一起从rails中的某个控制器(X)连接到.我已经尝试了许多人建议的下面给出的代码组合.但我在这两种情况下都得到了类似的错误: ruby 2.1.2p95mongo-2.0.4mongo db v3.0.3
require 'mongo'
include Mongo
def mongocon
@db = Mongo::Connection.new("192.168.56.102", 27017).db("convoos")
#@db = MongoClient.new("192.168.56.102", 27017).db("convoos")
end
Run Code Online (Sandbox Code Playgroud)
错误:
uninitialized constant Mongo::Connection
uninitialized constant WorkdbController::MongoClient
Run Code Online (Sandbox Code Playgroud) 正如RabbitMQ文档中提到的那样,tcp连接的成本很高.因此,为此引入了渠道概念.现在我遇到了这个例子.在main()它每次发布消息时都会创建连接.
conn, err := amqp.Dial("amqp://guest:guest@localhost:5672/").它不应该全局声明一次,并且如果连接像singleton对象那样关闭,应该有故障转移机制.如果amqp.Dial是线程安全的,我想它应该是
编辑问题:
我正在以下列方式处理连接错误.我在一个频道上听,并在出错时创建一个新的连接.但是当我杀死现有连接并尝试发布消息时.我收到以下错误.
错误:
2016/03/30 19:20:08 Failed to open a channel: write tcp 172.16.5.48:51085->172.16.0.20:5672: use of closed network connection
exit status 1
7:25 PM
Run Code Online (Sandbox Code Playgroud)
代码:
func main() {
Conn, err := amqp.Dial("amqp://guest:guest@172.16.0.20:5672/")
failOnError(err, "Failed to connect to RabbitMQ")
context := &appContext{queueName: "QUEUENAME",exchangeName: "ExchangeName",exchangeType: "direct",routingKey: "RoutingKey",conn: Conn}
c := make(chan *amqp.Error)
go func() {
error := <-c
if(error != nil){
Conn, err = amqp.Dial("amqp://guest:guest@172.16.0.20:5672/")
failOnError(err, "Failed to connect to RabbitMQ")
Conn.NotifyClose(c)
} …Run Code Online (Sandbox Code Playgroud) 我创建了一个表hivetest,它还在hbase中创建名为'hbasetest'的表.现在我想将'hbasetest'数据复制到另一个具有相同模式的hbase表(比如logdata).那么,任何人都可以帮助我如何在不使用配置单元的情况下将数据从'hbasetest'复制到'logdata'.
CREATE TABLE hivetest(cookie string, timespent string, pageviews string, visit string, logdate string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = "m:timespent, m:pageviews, m:visit, m:logdate")
TBLPROPERTIES ("hbase.table.name" = "hbasetest");
Run Code Online (Sandbox Code Playgroud)
更新的问题:
我已经像这样创建了表logdata.但是,我收到以下错误.
create 'logdata', {NAME => ' m', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '3', COMPRESSION => 'NONE', MIN_VERSIONS =>'0', TTL => '2147483647', BLOCKSIZE=> '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
13/09/23 12:57:19 INFO mapred.JobClient: Task Id : attempt_201309231115_0025_m_000000_0, Status : FAILED
org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 755 actions: org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException: Column family m …Run Code Online (Sandbox Code Playgroud) 我一直在阅读有关此处的分析,它使用net_http_pprof和此处的runtime_pprof 进行了解释。那么,这两者之间有什么区别,哪个应该优先于另一个。并且请不要粘贴给定链接中的概述定义
我正在使用Spark-streaming和RabbitMQ.因此,流工作从RabbitMQ获取数据并应用一些转换和操作.所以,我想知道如何在同一个流上应用多个动作(即计算两个不同的特征集).可能吗?如果是,如何将流对象传递给代码中提到的多个类?
val config = ConfigFactory.parseFile(new File("SparkStreaming.conf"))
val conf = new SparkConf(true).setAppName(config.getString("AppName"))
conf.set("spark.cleaner.ttl", "120000")
val sparkConf = new SparkContext(conf)
val ssc = new StreamingContext(sparkConf, Seconds(config.getLong("SparkBatchInterval")))
val rabbitParams = Map("storageLevel" -> "MEMORY_AND_DISK_SER_2","queueName" -> config.getString("RealTimeQueueName"),"host" -> config.getString("QueueHost"), "exchangeName" -> config.getString("QueueExchangeName"), "routingKeys" -> config.getString("QueueRoutingKey"))
val receiverStream = RabbitMQUtils.createStream(ssc, rabbitParams)
receiverStream.start()
Run Code Online (Sandbox Code Playgroud)
如何从这里处理流:
val objProcessFeatureSet1 = new ProcessFeatureSet1(Some_Streaming_Object)
val objProcessFeatureSet2 = new ProcessFeatureSet2(Some_Streaming_Object)
ssc.start()
ssc.awaitTermination()
Run Code Online (Sandbox Code Playgroud)