如何在MongoDB中使用Elasticsearch?

bib*_*vid 138 mongodb elasticsearch

我已经浏览了许多博客和网站,关于为MongoDB配置Elasticsearch以索引MongoDB中的集合,但这些都不是直截了当的.

请向我解释一下安装elasticsearch的一步一步的过程,其中应包括:

  • 组态
  • 在浏览器中运行

我正在使用带有express.js的Node.js,所以请相应帮助.

Don*_*ary 277

这个答案应该足以让您按照本教程使用MongoDB,Elasticsearch和AngularJS构建功能搜索组件.

如果您希望将分面搜索与API中的数据一起使用,那么Matthiasn的BirdWatch Repo就是您可能想要查看的内容.

因此,您可以设置单个节点Elasticsearch"cluster"来索引MongoDB,以便在新的EC2 Ubuntu 14.04实例上的NodeJS,Express应用程序中使用.

确保一切都是最新的.

sudo apt-get update
Run Code Online (Sandbox Code Playgroud)

安装NodeJS.

sudo apt-get install nodejs
sudo apt-get install npm
Run Code Online (Sandbox Code Playgroud)

安装MongoDB - 这些步骤直接来自MongoDB文档.选择您喜欢的任何版本.我坚持使用v2.4.9,因为它似乎是MongoDB-River最新版本支持而没有问题.

导入MongoDB公共GPG密钥.

sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 7F0CEB10
Run Code Online (Sandbox Code Playgroud)

更新您的来源列表.

echo 'deb http://downloads-distro.mongodb.org/repo/ubuntu-upstart dist 10gen' | sudo tee /etc/apt/sources.list.d/mongodb.list
Run Code Online (Sandbox Code Playgroud)

获得10gen包.

sudo apt-get install mongodb-10gen
Run Code Online (Sandbox Code Playgroud)

如果您不想要最新版本,请选择您的版本.如果您在Windows 7或8计算机上设置环境,请远离v2.6,直到它们将其作为服务运行时出现一些错误.

apt-get install mongodb-10gen=2.4.9
Run Code Online (Sandbox Code Playgroud)

更新时,防止更新MongoDB安装版本.

echo "mongodb-10gen hold" | sudo dpkg --set-selections
Run Code Online (Sandbox Code Playgroud)

启动MongoDB服务.

sudo service mongodb start
Run Code Online (Sandbox Code Playgroud)

您的数据库文件默认为/ var/lib/mongo,日志文件为/ var/log/mongo.

通过mongo shell创建数据库并将一些虚拟数据推入其中.

mongo YOUR_DATABASE_NAME
db.createCollection(YOUR_COLLECTION_NAME)
for (var i = 1; i <= 25; i++) db.YOUR_COLLECTION_NAME.insert( { x : i } )
Run Code Online (Sandbox Code Playgroud)

现在将独立的MongoDB转换为副本集.

首先关闭这个过程.

mongo YOUR_DATABASE_NAME
use admin
db.shutdownServer()
Run Code Online (Sandbox Code Playgroud)

现在我们将MongoDB作为服务运行,因此当我们重新启动mongod进程时,我们不会在命令行参数中传入"--replSet rs0"选项.相反,我们将它放在mongod.conf文件中.

vi /etc/mongod.conf
Run Code Online (Sandbox Code Playgroud)

添加这些行,为数据库和日志路径进行子处理.

replSet=rs0
dbpath=YOUR_PATH_TO_DATA/DB
logpath=YOUR_PATH_TO_LOG/MONGO.LOG
Run Code Online (Sandbox Code Playgroud)

现在再次打开mongo shell以初始化副本集.

mongo DATABASE_NAME
config = { "_id" : "rs0", "members" : [ { "_id" : 0, "host" : "127.0.0.1:27017" } ] }
rs.initiate(config)
rs.slaveOk() // allows read operations to run on secondary members.
Run Code Online (Sandbox Code Playgroud)

现在安装Elasticsearch.我只是关注这个有用的要点.

确保安装了Java.

sudo apt-get install openjdk-7-jre-headless -y
Run Code Online (Sandbox Code Playgroud)

现在坚持使用v1.1.x,直到在v1.2.1中修复Mongo-River插件错误.

wget https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.1.1.deb
sudo dpkg -i elasticsearch-1.1.1.deb

curl -L http://github.com/elasticsearch/elasticsearch-servicewrapper/tarball/master | tar -xz
sudo mv *servicewrapper*/service /usr/local/share/elasticsearch/bin/
sudo rm -Rf *servicewrapper*
sudo /usr/local/share/elasticsearch/bin/service/elasticsearch install
sudo ln -s `readlink -f /usr/local/share/elasticsearch/bin/service/elasticsearch` /usr/local/bin/rcelasticsearch
Run Code Online (Sandbox Code Playgroud)

如果您现在仅在单个节点上进行开发,请确保/etc/elasticsearch/elasticsearch.yml启用了以下配置选项:

cluster.name: "MY_CLUSTER_NAME"
node.local: true
Run Code Online (Sandbox Code Playgroud)

启动Elasticsearch服务.

sudo service elasticsearch start
Run Code Online (Sandbox Code Playgroud)

验证它是否正常工作.

curl http://localhost:9200
Run Code Online (Sandbox Code Playgroud)

如果你看到这样的话,那你很好.

{
  "status" : 200,
  "name" : "Chi Demon",
  "version" : {
    "number" : "1.1.2",
    "build_hash" : "e511f7b28b77c4d99175905fac65bffbf4c80cf7",
    "build_timestamp" : "2014-05-22T12:27:39Z",
    "build_snapshot" : false,
    "lucene_version" : "4.7"
  },
  "tagline" : "You Know, for Search"
}
Run Code Online (Sandbox Code Playgroud)

现在安装Elasticsearch插件,以便它可以与MongoDB一起使用.

bin/plugin --install com.github.richardwilly98.elasticsearch/elasticsearch-river-mongodb/1.6.0
bin/plugin --install elasticsearch/elasticsearch-mapper-attachments/1.6.0
Run Code Online (Sandbox Code Playgroud)

这两个插件不是必需的,但它们适用于测试查询和可视化索引的更改.

bin/plugin --install mobz/elasticsearch-head
bin/plugin --install lukas-vlcek/bigdesk
Run Code Online (Sandbox Code Playgroud)

重启Elasticsearch.

sudo service elasticsearch restart
Run Code Online (Sandbox Code Playgroud)

最后索引来自MongoDB的集合.

curl -XPUT localhost:9200/_river/DATABASE_NAME/_meta -d '{
  "type": "mongodb",
  "mongodb": {
    "servers": [
      { "host": "127.0.0.1", "port": 27017 }
    ],
    "db": "DATABASE_NAME",
    "collection": "ACTUAL_COLLECTION_NAME",
    "options": { "secondary_read_preference": true },
    "gridfs": false
  },
  "index": {
    "name": "ARBITRARY INDEX NAME",
    "type": "ARBITRARY TYPE NAME"
  }
}'
Run Code Online (Sandbox Code Playgroud)

检查您的索引是否在Elasticsearch中

curl -XGET http://localhost:9200/_aliases
Run Code Online (Sandbox Code Playgroud)

检查群集运行状况.

curl -XGET 'http://localhost:9200/_cluster/health?pretty=true'
Run Code Online (Sandbox Code Playgroud)

它可能是黄色的,带有一些未分配的碎片.我们必须告诉Elasticsearch我们想要使用什么.

curl -XPUT 'localhost:9200/_settings' -d '{ "index" : { "number_of_replicas" : 0 } }'
Run Code Online (Sandbox Code Playgroud)

再次检查群集运行状况 现在应该是绿色的.

curl -XGET 'http://localhost:9200/_cluster/health?pretty=true'
Run Code Online (Sandbox Code Playgroud)

去玩.

  • @ duck5auce请更新这个答案,它已经过时了.[River已被弃用](https://www.elastic.co/guide/en/elasticsearch/rivers/current/index.html) (8认同)
  • 自duck5auce以来,它已经过了一年的优秀答案.认为人们现在正在使用10gens [mongo-connector] [1]来实时同步MongoDB集群和ElasticSearch.它尾随MongoDB oplog.[1]:https://github.com/10gen-labs/mongo-connector/wiki/Usage%20with%20ElasticSearch (7认同)
  • + 1并且收藏.做得很好. (3认同)

tst*_*rzl 34

当您的操作扩展时,使用river可能会出现问题.在繁重的操作下,River将使用大量的内存.我建议您实现自己的弹性搜索模型,或者如果您使用的是mongoose,您可以将弹性搜索模型构建到其中,或者使用mongoosastic,这实际上是为您做的.

Mongodb River的另一个缺点是你将被困在使用mongodb 2.4.x分支和ElasticSearch 0.90.x. 你会发现你错过了许多非常好的功能,而mongodb河项目并没有产生足够快的可用产品来保持稳定.那说Mongodb River绝对不是我投入生产的东西.它带来的问题多于其价值.它将在重负载下随机丢弃写入,它将消耗大量内存,并且没有设置限制它.另外,河流不会实时更新,它从mongodb读取oplog,这可以延迟更新长达5分钟的经验.

我们最近不得不重写我们项目的很大一部分,因为每周都会出现ElasticSearch出现问题.我们甚至还聘请了Dev Ops顾问,他也同意最好离开River.

更新: Elasticsearch-mongodb-river现在支持ES v1.4.0和mongodb v2.6.x. 但是,您仍然可能在重插入/更新操作时遇到性能问题,因为此插件将尝试读取mongodb的oplogs以进行同步.如果锁定(或锁定)解锁后会有很多操作,您会发现弹性搜索服务器上的内存使用率非常高.如果您计划进行大规模的操作,河流不是一个好选择.ElasticSearch的开发人员仍然建议您使用您的语言的客户端库直接与他们的API通信来管理您自己的索引,而不是使用river.这不是河流的真正目的.Twitter-river是如何使用河流的一个很好的例子.它本质上是从外部源获取数据的好方法,但对于高流量或内部使用而言不是非常可靠.

还要考虑mongodb-river落后于版本,因为它不是由ElasticSearch Organization维护,由第三方维护.在v1.0发布之后,开发在v0.90分支上停留了很长时间,当v1.0的版本发布时,它在弹性搜索发布v1.3.0之前不稳定.Mongodb版本也落后了.当你想要转移到每个版本的更高版本时,你可能会发现自己处于紧张的位置,尤其是在如此繁重的开发中使用ElasticSearch,其中有很多非常期待的功能.保持最新的ElasticSearch非常重要,因为我们非常依赖于不断改进我们的搜索功能,因为它是我们产品的核心部分.

总而言之,如果你自己做的话,你可能会得到更好的产品.它并不难.它只是在您的代码中管理的另一个数据库,它可以轻松地放入现有模型而无需重大重构.

  • Elasticsearch 是一个文档存储数据库,而不是一个关系数据库。在elasticsearch中关联数据并非不可能,但更可能发生非规范化,但可以通过附加逻辑进行管理(有插件)。关联数据的最常见方法(如上面链接中的状态)是在相关文档中存储 ID 引用。确保将此 ID 存储在设置为“not_analyzed”的字段中,否则您将无法查询它,请按照已分析字段的标记化方式进行操作。 (2认同)

小智 5

一旦你想要一个几乎实时的同步和通用的解决方案,River 是一个很好的解决方案。

如果您已经在 MongoDB 中有数据并希望像“一次性”一样轻松地将其发送到 Elasticsearch,您可以在 Node.js https://github.com/itemsapi/elasticbulk 中尝试我的包。

它使用 Node.js 流,因此您可以从支持流的所有内容(即 MongoDB、PostgreSQL、MySQL、JSON 文件等)导入数据

MongoDB 到 Elasticsearch 的示例:

安装软件包:

npm install elasticbulk
npm install mongoose
npm install bluebird
Run Code Online (Sandbox Code Playgroud)

创建脚本即 script.js:

const elasticbulk = require('elasticbulk');
const mongoose = require('mongoose');
const Promise = require('bluebird');
mongoose.connect('mongodb://localhost/your_database_name', {
  useMongoClient: true
});

mongoose.Promise = Promise;

var Page = mongoose.model('Page', new mongoose.Schema({
  title: String,
  categories: Array
}), 'your_collection_name');

// stream query 
var stream = Page.find({
}, {title: 1, _id: 0, categories: 1}).limit(1500000).skip(0).batchSize(500).stream();

elasticbulk.import(stream, {
  index: 'my_index_name',
  type: 'my_type_name',
  host: 'localhost:9200',
})
.then(function(res) {
  console.log('Importing finished');
})
Run Code Online (Sandbox Code Playgroud)

发送您的数据:

node script.js
Run Code Online (Sandbox Code Playgroud)

它不是非常快,但它可以处理数百万条记录(感谢流)。


Abh*_*tti 5

在这里,我发现了另一个将 MongoDB 数据迁移到 Elasticsearch 的好选择。一个 go 守护进程,将 mongodb 实时同步到 elasticsearch。它是蒙斯塔什。出售地点: Monstache

下面的初始设置来配置和使用它。

步骤1:

C:\Program Files\MongoDB\Server\4.0\bin>mongod --smallfiles --oplogSize 50 --replSet test
Run Code Online (Sandbox Code Playgroud)

第2步 :

C:\Program Files\MongoDB\Server\4.0\bin>mongo

C:\Program Files\MongoDB\Server\4.0\bin>mongo
MongoDB shell version v4.0.2
connecting to: mongodb://127.0.0.1:27017
MongoDB server version: 4.0.2
Server has startup warnings:
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten]
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten] ** WARNING: Access control is not enabled for the database.
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten] **          Read and write access to data and configuration is unrestricted.
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten]
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten] ** WARNING: This server is bound to localhost.
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten] **          Remote systems will be unable to connect to this server.
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten] **          Start the server with --bind_ip <address> to specify which IP
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten] **          addresses it should serve responses from, or with --bind_ip_all to
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten] **          bind to all interfaces. If this behavior is desired, start the
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten] **          server with --bind_ip 127.0.0.1 to disable this warning.
2019-01-18T16:56:44.931+0530 I CONTROL  [initandlisten]
MongoDB Enterprise test:PRIMARY>
Run Code Online (Sandbox Code Playgroud)

步骤 3:验证复制。

MongoDB Enterprise test:PRIMARY> rs.status();
{
        "set" : "test",
        "date" : ISODate("2019-01-18T11:39:00.380Z"),
        "myState" : 1,
        "term" : NumberLong(2),
        "syncingTo" : "",
        "syncSourceHost" : "",
        "syncSourceId" : -1,
        "heartbeatIntervalMillis" : NumberLong(2000),
        "optimes" : {
                "lastCommittedOpTime" : {
                        "ts" : Timestamp(1547811537, 1),
                        "t" : NumberLong(2)
                },
                "readConcernMajorityOpTime" : {
                        "ts" : Timestamp(1547811537, 1),
                        "t" : NumberLong(2)
                },
                "appliedOpTime" : {
                        "ts" : Timestamp(1547811537, 1),
                        "t" : NumberLong(2)
                },
                "durableOpTime" : {
                        "ts" : Timestamp(1547811537, 1),
                        "t" : NumberLong(2)
                }
        },
        "lastStableCheckpointTimestamp" : Timestamp(1547811517, 1),
        "members" : [
                {
                        "_id" : 0,
                        "name" : "localhost:27017",
                        "health" : 1,
                        "state" : 1,
                        "stateStr" : "PRIMARY",
                        "uptime" : 736,
                        "optime" : {
                                "ts" : Timestamp(1547811537, 1),
                                "t" : NumberLong(2)
                        },
                        "optimeDate" : ISODate("2019-01-18T11:38:57Z"),
                        "syncingTo" : "",
                        "syncSourceHost" : "",
                        "syncSourceId" : -1,
                        "infoMessage" : "",
                        "electionTime" : Timestamp(1547810805, 1),
                        "electionDate" : ISODate("2019-01-18T11:26:45Z"),
                        "configVersion" : 1,
                        "self" : true,
                        "lastHeartbeatMessage" : ""
                }
        ],
        "ok" : 1,
        "operationTime" : Timestamp(1547811537, 1),
        "$clusterTime" : {
                "clusterTime" : Timestamp(1547811537, 1),
                "signature" : {
                        "hash" : BinData(0,"AAAAAAAAAAAAAAAAAAAAAAAAAAA="),
                        "keyId" : NumberLong(0)
                }
        }
}
MongoDB Enterprise test:PRIMARY>
Run Code Online (Sandbox Code Playgroud)

步骤 4. 下载“ https://github.com/rwynn/monstache/releases ”。解压缩下载并调整 PATH 变量以包含您平台的文件夹路径。转到 cmd 并输入"monstache -v" # 4.13.1 Monstache 使用 TOML 格式进行配置。配置名为 config.toml 的迁移文件

步骤 5。

我的 config.toml -->

mongo-url = "mongodb://127.0.0.1:27017/?replicaSet=test"
elasticsearch-urls = ["http://localhost:9200"]

direct-read-namespaces = [ "admin.users" ]

gzip = true
stats = true
index-stats = true

elasticsearch-max-conns = 4
elasticsearch-max-seconds = 5
elasticsearch-max-bytes = 8000000 

dropped-collections = false
dropped-databases = false

resume = true
resume-write-unsafe = true
resume-name = "default"
index-files = false
file-highlighting = false
verbose = true
exit-after-direct-reads = false

index-as-update=true
index-oplog-time=true
Run Code Online (Sandbox Code Playgroud)

步骤 6。

D:\15-1-19>monstache -f config.toml
Run Code Online (Sandbox Code Playgroud)

蒙斯塔奇奔跑...

在 Elasticsearch 确认迁移的数据

在 Mongo 添加记录

Monstache 捕获事件并将数据迁移到elasticsearch