看来Hbase RegionServer是单个节点,不像Cassandra那样有复制节点.我知道当一个RegionServer关闭时,HMaster会将崩溃的RS上的区域分配给其他RS.
但是新的RegionServer准备好服务崩溃的区域需要多长时间,如果花了太长时间,客户端不能等待太长时间,客户端会抛出异常甚至丢失的数据,对吧?
我有3个Kafka经纪人在一个孤立的网络区域运行,我的客户端无法直接连接它们,所以我必须使用VIP(虚拟IP)来连接经纪人.
例如:
我的经纪人的IP是:10.5.1.5, 10.5.1.6, 10.5.1.7,
我的VIP的IP是:200.100.1.5, 200.100.1.6, 200.100.1.7,他们一对一配对.
因此,当我指示引导列表为200.100.1.5,群集响应我混合的VIP和Broker ips,例如:10.5.1.5, 10.5.1.6, 200.100.1.5, 200.100.1.6 ...,然后连接失败,因为我的程序无法到达经纪人的IP,只能到达VIP.
我目前的配置如下,它同时响应IP和VIP:
listeners=INTERNAL://:9092,EXTERNAL_PLAINTEXT://:8080
advertised.listeners=EXTERNAL_PLAINTEXT://200.100.1.5:8080,INTERNAL://10.5.1.5:9092
listener.security.protocol.map=INTERNAL:PLAINTEXT,EXTERNAL_PLAINTEXT:PLAINTEXT
inter.broker.listener.name=INTERNAL
Run Code Online (Sandbox Code Playgroud)
我怎样才能让卡夫卡只回复贵宾名单.
我有答案,可能是以下内容:
advertised.listeners=PLAINTEXT://200.100.1.5:8080
listeners=PLAINTEXT://10.5.1.5:9092
And remove the listener.security and inter.broker.
Run Code Online (Sandbox Code Playgroud) 我正在使用Kafka 0.8.0,它是Cloudera版本.当我删除以下主题时:kafka-topics --zookeeper 10.0.0.11:2181/ --delete --topic test
它响应:
Topic test is already marked for deletion.
Run Code Online (Sandbox Code Playgroud)
但之后我重新创建它,它抛出异常如下:
kafka-topics --create --zookeeper 10.0.0.11:2181 --partitions 90 --replication-factor 2 --topic test
Error while executing topic command Topic "test" already exists.
kafka.common.TopicExistsException: Topic "test" already exists.
Run Code Online (Sandbox Code Playgroud)
有什么想法吗?我该如何删除主题及其数据.
我对ES官方文档中的以下配额有一个问题:
But if you give all available memory to Elasticsearch’s heap,
there won’t be any left over for Lucene.
This can seriously impact the performance of full-text search.
Run Code Online (Sandbox Code Playgroud)
如果我的服务器有80G内存,我发出以下命令来启动ES节点:bin/elasticsearch -xmx 30g
这意味着我只给ES 30g内存最大进程.Lucene如何使用左侧50G,因为Lucene在ES过程中运行,它只是过程的一部分.
我尝试将文档更新插入到 Opensearch,这意味着如果不存在 id,它将插入文档,如果 id 已经存在,它将更新文档(不会覆盖)。
例如,如果文档已经在 Opensearch 中{"id":1,"name":"Jack"},当我更新插入时{"id":1,"job":"engineer"}, opensearch 中的文档将变成{"id":1,"name":"Jack","job":"engineer"},而不仅仅是被覆盖。
我尝试使用 doc_as_upsert 进行 python index api,如下所示,但失败了:
pyClient.index(
index = indexName,
body = document,
id = document['id'],
refresh = True,
doc_as_upsert = True
)
Run Code Online (Sandbox Code Playgroud)
文档对象是:{"id":"123","name":"Jack","job":"Engineer"}
对不起,伙计,只是一个简单的问题,但我无法在谷歌上找到确切的问题.关于什么是dfs.replication的问题是什么意思?如果我在hdfs中创建了一个名为filmdata.txt的文件,如果我设置了dfs.replication = 1,那么它是完全一个文件(一个是filmdata.txt)吗?还是主文件(filmdata.txt)hadoop会创建另一个复制文件.不久之后说:如果设置dfs.replication = 1,总共有一个filmdata.txt,或者两个filmdata.txt?提前致谢
我正在使用 python-mysql(MySQLdb) 来查询 Mysql 服务器。游标模块有两种:一种是客户端游标,如:
cursor = db.cursor(MySQLdb.cursors.DictCursor)
Run Code Online (Sandbox Code Playgroud)
另一种是服务器端游标,如:
cursor = db.cursor(MySQLdb.cursors.SSDictCursor)
Run Code Online (Sandbox Code Playgroud)
文档说服务器端游标意味着Mysql会在mysql服务器端缓存一些结果,然后将它们发送到客户端。我对此很困惑,比方说,如果我想杀死一台 mysql 服务器,我可以使用多个服务器端游标,然后 mysql 就会因为内存耗尽而死掉。此外,服务器大小光标有任何意义吗?默认情况下,Mysql 机制是当 mysql 检索到一条记录时,它会立即将其发送给客户端。缓存结果然后将其发送出去是否有意义?
我真的不知道应该使用哪个游标,客户端游标还是服务器端游标?
我正在尝试将二进制数据存储到 Elasticsearch。请教几个问题:
binary patten我可以通过诸如
0000111或 Base64 格式查询二进制列吗?HDFS是否像Cassandra一样具有写入一致性,比如说我写完一个文件到HDFS,什么时候会得到成功的响应,是第一次复制完成还是3次复制完成?(假设rep=3)
我正在使用Kafka模式注册表来生成/使用Kafka消息,例如,我有两个字段均为字符串类型,伪模式如下所示?
{"name": "test1", "type": "string"}
{"name": "test2", "type": "string"}
Run Code Online (Sandbox Code Playgroud)
但是在发送和使用了一段时间之后,我需要修改架构以将第二个字段更改为long类型,然后引发以下异常:
Schema being registered is incompatible with an earlier schema; error code: 409
Run Code Online (Sandbox Code Playgroud)
我很困惑,如果架构注册表无法发展架构升级/更改,那为什么我应该使用架构注册表,或者为什么要使用Avro?
apache-kafka ×3
hadoop ×2
hdfs ×2
avro ×1
confluent ×1
hbase ×1
lucene ×1
mysql ×1
mysql-python ×1
opensearch ×1
python ×1