我是德鲁伊的新手。我已经读过《德鲁伊VS Elasticsearch》,但是我仍然不知道德鲁伊擅长什么。
以下是我的问题:
我有一个具有70个节点的Solr集群。
我在solr中有一个很大的表,其中有10亿行,每行有100个字段。
用户将使用不同的字段组合范围查询(一次查询至少20个组合)来计算客户ID的不重复数量,但是solr的不重复计数算法非常慢并且占用大量内存,因此如果查询结果为超过20万个,solr的查询节点将崩溃。
德鲁伊在数量上是否比solr更好?
我正在开发 AWS Glue 脚本,并且正在尝试使用 Dev Endpoint。我按照向导创建了一个 Dev Endpoint 和一个附加到它的 SageMaker 笔记本。当我打开 SageMaker 笔记本时,它会将我定向到一个名为 Jupyter 的网页。
在 Jupyter 中,我用我的 python 文件创建了几个笔记本。问题是一些共享的 python 文件不能作为模块导入到笔记本中。我收到以下错误:“没有名为 shared.helper Traceback 的模块(最近一次调用):
导入错误:没有名为 shared.helper 的模块
这是我在 Jupyter 笔记本上的项目结构:
my_project/
?
??? scripts/
? ??? a_notebook.ipynb
? ??? b_notebook.ipynb
| ??? c_notebook.ipynb
? ??? __init__.py
? ??? shared/
??? helper.py
??? config.py
??? __init__.py
Run Code Online (Sandbox Code Playgroud)
我尝试了很多我在互联网上搜索的尝试,但都没有奏效。
在 中a_notebook.ipynb,我只是使用import shared.helper as helper,它向我显示了上述错误。
我不知道是否与 AWS Glue 有任何关系?当我从 AWS Glue 控制台下的 Sagemaker 笔记本打开 Jupyter 时。