我是Cassandra的新手,我读过Cassandra鼓励非规范化和重复数据.这让我有点困惑.让我们想象以下场景:
我有一个包含四个表的键空间:A,B,C和D.
CREATE TABLE A (
tableID int,
column1 int,
column2 varchar,
column3 varchar,
column4 varchar,
column5 varchar,
PRIMARY KEY (column1, tableID)
);
Run Code Online (Sandbox Code Playgroud)
让我们假设其他表(B,C,D)具有与表A相同的结构和相同的数据,只有不同的主键,以便响应其他查询.
如果我升级表A中的一行,我如何确保具有相同数据的其他表中的数据的一致性?
我正在使用单个节点Cassandra,我打算运行一些查询以检查响应时间.在某些查询中,执行10次后发生以下错误:
OperationTimedOut: errors = {}, last_host = 127.0.0.1
Run Code Online (Sandbox Code Playgroud)
所以我运行了以下命令:
sudo gedit /usr/bin/cqlsh.py
Run Code Online (Sandbox Code Playgroud)
并更改了cqlsh.py文件:
# cqlsh should run correctly when run out of a Cassandra source tree,
# out of an unpacked Cassandra tarball, and after a proper package install.
cqlshlibdir = os.path.join(CASSANDRA_PATH, 'pylib')
if os.path.isdir(cqlshlibdir):
sys.path.insert(0, cqlshlibdir)
from cqlshlib import cql3handling, cqlhandling, pylexotron, sslhandling
from cqlshlib.displaying import (ANSI_RESET, BLUE, COLUMN_NAME_COLORS, CYAN,
RED, FormattedValue, colorme)
from cqlshlib.formatting import (DEFAULT_DATE_FORMAT, DEFAULT_NANOTIME_FORMAT,
DEFAULT_TIMESTAMP_FORMAT, DateTimeFormat,
format_by_type, format_value_utype,
formatter_for)
from cqlshlib.tracing import print_trace, …Run Code Online (Sandbox Code Playgroud) 我有兴趣在MySQL和Cassandra中基于相同的数据集并仅使用一个节点进行一些性能查询测试
我想要的是检查Cassandra和MySQL中查询的响应时间,以查找不同类型的数据量以及多个数据访问.(试着强调数据库).
有什么更好的方法呢?什么是最合适的基准?
mysql benchmarking performance-testing cassandra database-performance
我创建了一个Cassandra列族,我需要从该列族的CSV文件中加载数据.csv文件的容量为15 Gb.
我正在使用CQL'COPY FROM'命令,但这需要很长时间才能加载数据.从csv文件向Cassandra加载大量数据的最佳/最简单方法是什么?
我有一个包含以下表的RDBMS数据库:
机场(iata PK,机场,城市,州,国家,拉特,长)
cancellation_cause(cod_cancellation PK,description)
Manufaturer(id_manufacturer PK,MANUFACTURER_NAME)
型号(id_model PK,model_name,id_manufacturer FK)
航空公司(airline_code PK,说明)
airplane_type(id_AirplaneType PK,airplane_type)
engine_type(id_engine PK,engine_type)
Aircraft_type(id_aircraft PK,aircraft_type)
飞机(TailNumber PK,id_model FK, id_aircraft FK,airline_code FK,id_AirplaneType FK,id_engine FK, Issue_date,status,year)
飞行(id_flight PK,cod_cancellation FK,TailNumber FK,iata_origin FK,iata_destin FK,Year,Month,DayofMonth,DayofWeek,DepTime,CRSTime,ArrTime,CRSArrTime,FlightNum,AtualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,distance,TaxiIn,TaiOut ,取消,转移)
注意:PK - 主键; FK - 外键
我正在进行RDBMS和Cassandra数据库之间的比较研究.我的目标是将此数据库迁移到Cassandra并在两者中运行一些查询,以便在类似情况下比较两者的性能.
谁能告诉我最好的方法呢?我应该如何在Cassandra中建模数据库?
cassandra ×5
benchmarking ×1
bulk-load ×1
cql3 ×1
csv ×1
duplicates ×1
loaddata ×1
mysql ×1
nosql ×1
performance ×1
python ×1
rdbms ×1
timeout ×1