我在Elasticsearch中有一个小型数据库,出于测试目的,我希望将所有记录拉回来.我试图使用表单的URL ...
http://localhost:9200/foo/_search?pretty=true&q={'matchAll':{''}}
Run Code Online (Sandbox Code Playgroud)
有人可以给我你用来完成这个的URL吗?
database bigdata query-string elasticsearch elasticsearch-dsl
我们想将Hive查询的结果放到CSV文件中.我以为命令看起来应该是这样的:
insert overwrite directory '/home/output.csv' select books from table;
Run Code Online (Sandbox Code Playgroud)
当我运行它时,它表示它已成功完成但我永远找不到该文件.如何找到此文件或者我应该以不同的方式提取数据?
谢谢!
我需要从PG数据库中删除大约200万行.我有一个我需要删除的ID列表.但是,我尝试这样做的任何方式都需要几天时间.
我尝试将它们放在一个表中,并在100个批次中进行.4天后,这仍然在运行,只删除了297268行.(我必须从ID表中选择100个id,删除该列表中的IN,从ids表中删除我选择的100个).
我试过了:
DELETE FROM tbl WHERE id IN (select * from ids)
Run Code Online (Sandbox Code Playgroud)
那也是永远的.很难判断多久,因为我看不到它的进展直到完成,但查询仍然在2天后运行.
当我知道要删除的特定ID时,只需要寻找从表中删除的最有效方法,并且有数百万个ID.
我目前正在使用Pandas和Spark进行数据分析.我发现Dask提供了并行化的NumPy数组和Pandas DataFrame.
Pandas在Python中进行数据分析非常简单直观.但由于系统内存有限,我发现难以在Pandas中处理多个更大的数据帧.
简单回答:
Apache Spark是一个包含分布式计算,SQL查询,机器学习等在JVM上运行的全包框架,通常与Hadoop等其他大数据框架共同部署....通常Dask比Spark更小,重量更轻.
我从http://dask.pydata.org/en/latest/spark.html了解下面的详细信息
我从以下链接了解有关Dask的更多信息 https://www.continuum.io/blog/developer-blog/high-performance-hadoop-anaconda-and-dask-your-cluster
http://dask.pydata.org/en/latest/dataframe-overview.html
限制
Dask.DataFrame不实现整个Pandas接口.期望这样的用户会感到失望.但是,dask.dataframe有以下限制:
感谢Dask开发人员.这似乎是非常有前途的技术.
总的来说,我可以理解Dask比spark更容易使用.Dask与Pandas一样灵活,具有更大的计算能力和更多的CPU.
我理解关于Dask的所有上述事实.
那么,使用Dask大致可以处理多少数据量(以TB为单位)?
我有一个像pg这样的表:
CREATE TABLE t (
a BIGSERIAL NOT NULL, -- 8 b
b SMALLINT, -- 2 b
c SMALLINT, -- 2 b
d REAL, -- 4 b
e REAL, -- 4 b
f REAL, -- 4 b
g INTEGER, -- 4 b
h REAL, -- 4 b
i REAL, -- 4 b
j SMALLINT, -- 2 b
k INTEGER, -- 4 b
l INTEGER, -- 4 b
m REAL, -- 4 b
CONSTRAINT a_pkey PRIMARY KEY (a)
);
Run Code Online (Sandbox Code Playgroud)
以上每行最多可添加50个字节.我的经验是,我需要另外40%到50%的系统开销,甚至没有任何用户创建的索引.所以,每行约75个字节.我将在表中有许多行,可能超过1450亿行,因此该表将推动13-14太字节.我可以使用什么技巧来压缩这个表?我的可能想法如下......
将 …
如何将大型(14 GB)MySQL转储文件导入新的MySQL数据库?
你能否告诉我Apache Spark和AKKA之间的区别,我知道这两个框架都意味着编程分布式和并行计算,但我没有看到它们之间的链接或区别.
此外,我想得到适合他们每个人的用例.
parallel-processing distributed-computing bigdata akka apache-spark
spark.sql.shuffle.partitions和之间有什么区别spark.default.parallelism?
我试图将它们都设置为SparkSQL,但第二阶段的任务编号始终为200.
现在我ResultScanner像这样实现行计数
for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
number++;
}
Run Code Online (Sandbox Code Playgroud)
如果数据达到数百万计算时间很大.我想实时计算我不想使用Mapreduce
如何快速计算行数.
我正在尝试在python中实现具有200k +数据点的1000维数据的算法.我想使用numpy,scipy,sklearn,networkx和其他有用的库.我想执行所有点之间的成对距离等操作,并在所有点上进行聚类.我已经实现了以合理的复杂度执行我想要的工作算法但是当我尝试将它们扩展到我的所有数据时,我用完了ram.我当然这样做,在200k +数据上创建成对距离的矩阵需要很多内存.
接下来是:我真的很想在具有少量内存的糟糕计算机上执行此操作.
有没有可行的方法让我在没有低ram限制的情况下完成这项工作.它需要更长的时间才真正不是问题,只要时间要求不会无限!
我希望能够让我的算法工作,然后在一小时或五个小时后回来,而不是因为它用完了公羊而被卡住了!我想在python中实现它,并能够使用numpy,scipy,sklearn和networkx库.我希望能够计算到我所有点的成对距离等
这可行吗?我将如何解决这个问题,我可以开始阅读哪些内容?
最好的问候//梅斯默
bigdata ×10
apache-spark ×3
hadoop ×3
database ×2
postgresql ×2
python ×2
akka ×1
arrays ×1
dask ×1
hbase ×1
hive ×1
hiveql ×1
mysql ×1
numpy ×1
pandas ×1
performance ×1
query-string ×1
scipy ×1
sql ×1
sql-delete ×1
storage ×1