COM*_*ARD 6 javascript import json mongodb node.js
我在目录"D:/ njs/nodetest1/imports/source1 /"的许多子目录中保存了大约一百万个JSON文件,我想将它们导入到我的mongoDB数据库中的"users"集合中.
以下代码正确遍历文件系统.如您所见,它会读取目录中的每个项目,如果该项目是目录,则会读取其中的每个项目.对于不是目录的每个项目,它在发送保存到函数的变量之前对其执行一些操作.
function traverseFS (path){
var files = fs.readdirSync(path);
for (var i in files){
var currentFile = path + '/' + files[i];
var stats = fs.statSync(currentFile);
if (stats.isFile())
runOnFile(currentFile);
else
traverseFS(currentFile);
}
}
traverseFS("D:/njs/nodetest1/imports/source1/")
Run Code Online (Sandbox Code Playgroud)
接下来,我对代码运行一些操作(见下文).这将读取文件,将其解析为JSON对象,将该对象的两个属性读入变量,在变量"entry"中创建一个对象,并将该变量传递给另一个函数.
function runOnFile(currentFile){
var fileText = fs.readFileSync(currentFile,'utf8');
var generatedJSON = JSON.parse(fileText);
var recordID = generatedJSON.recordID;
var recordText = generatedJSON.recordTexts;
var entry = {recordID:recordID, recordText:recordText};
insertRecord(entry);
}
Run Code Online (Sandbox Code Playgroud)
然后应该使用最终函数将数据插入mongoDB.我认为这是出问题的地方.
function insertRecord(entry){
var MongoClient = mongodb.MongoClient;
var MongoURL = 'mongodb://localhost:27017/my_database_name';
MongoClient.connect(MongoURL, function (err, db) {
var collection = db.collection('users');
collection.insert([entry], function (err, result) {
db.close();
});
});
}
Run Code Online (Sandbox Code Playgroud)
我希望这会运行文件结构,将JSON文件读入对象,然后将这些对象插入到我的mongoDB中.相反,它将第一个文件读入数据库,然后停止/挂起.
笔记:
根据mongodb2.2(最新的)文档,insert不推荐使用
弃用
使用insertOne,insertMany或bulkWrite
所以,简单的答案是很可能改变collection.insert([entry], ...)对collection.insertOne(entry, ...)你就大功告成了.
然后,对于长时间的回答,您说"大约有一百万个json文件",这通常需要一个完全异步的方法,并且开销最小.
示例代码中存在两个(潜在的)瓶颈:
fs.readFileSync,这是一个阻塞操作两者都执行"大约一百万次".当然,导入通常不会一次又一次地进行,并且(希望)不会在需要其性能用于其他重要任务的机器上进行.尽管如此,示例代码仍然可以更加健壮.
考虑使用该glob模块获取json文件列表.
glob('imports/**/*.json', function(error, files) {...})
Run Code Online (Sandbox Code Playgroud)
这样可以轻松地以异步方式为您提供完整的文件列表.
然后考虑只连接一次数据库,插入所有内容并关闭一次.
保持与样本中的步骤大致相同,我建议如下:
var glob = require('glob'),
mongodb = require('mongodb'),
fs = require('fs'),
MongoClient = mongodb.MongoClient,
mongoDSN = 'mongodb://localhost:27017/my_database_name',
collection; // moved this to the "global" scope so we can do it only once
function insertRecord(json, done) {
var recordID = json.recordID || null,
recordText = json.recordText || null;
// the question implies some kind of validation/sanitation/preparation..
if (recordID && recordText) {
// NOTE: insert was changed to insertOne
return collection.insertOne({recordID: recordID, recordText: recordText}, done);
}
done('No recordID and/or recordText');
}
function runOnFile(file, done) {
// moved to be async
fs.readFile(file, function(error, data) {
if (error) {
return done(error);
}
var json = JSON.parse(data);
if (!json) {
return done('Unable to parse JSON: ' + file);
}
insertRecord(json, done);
});
}
function processFiles(files, done) {
var next = files.length ? files.shift() : null;
if (next) {
return runOnFile(next, function(error) {
if (error) {
console.error(error);
// you may or may not want to stop here by throwing an Error
}
processFiles(files, done);
});
}
done();
}
MongoClient.connect(mongoDSN, function(error, db) {
if (error) {
throw new Error(error);
}
collection = db.collection('users');
glob('imports/**/*.json', function(error, files) {
if (error) {
throw new Error(error);
}
processFiles(files, function() {
console.log('all done');
db.close();
});
});
});
Run Code Online (Sandbox Code Playgroud)
注意:您可以收集多个"条目"记录以利用多个插入的性能增益insertMany,但我感觉插入的记录比描述的更复杂,如果处理不当可能会给出一些内存问题.