我使用MySQL和Java来选择大约50000条记录.奇怪的是,当我使用ResultSet和next()方法读取数据时,我看到我的java应用程序的RAM使用量在获取期间增加了.它从255 MB开始,增加到379 MB!我正在使用的代码在这里:
try {
Class.forName("com.mysql.jdbc.Driver");
Connection conn = DriverManager.getConnection("jdbc:mysql://localhost/#mysql50#crawler - used in report?" + "user=root&password=&useUnicode=true&characterEncoding=UTF-8");
Statement st = conn.createStatement();
ResultSet rsDBReader = st.executeQuery("SELECT Id, Content FROM DocsArchive");
while (rsDBReader.next()) {
int docId = rsDBReader.getInt(1);
String content = rsDBReader.getString(2);
. . .
}
rsDBReader.close();
st.close();
conn.close();
} catch (Exception e) {
System.out.println("Exception in reading data: " + e);
}
Run Code Online (Sandbox Code Playgroud)
我确信内存使用是针对ResultSet的,而不是程序的其他部分.在这个程序中,我不需要更新记录,所以我想在完成工作后删除每条记录.我的猜测是,已读取的记录不会被删除,程序也不会释放内存.所以我使用了一些技巧来避免这种情况,例如使用以下代码:
Statement st = conn.createStatement( ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY, ResultSet.CLOSE_CURSORS_AT_COMMIT);
st.setFetchSize(500);
rsDBReader.setFetchSize(500);
Run Code Online (Sandbox Code Playgroud)
但他们并没有改变任何事情.:(
所以我需要一些方法来删除(释放)已读取的行的内存.
另一个有趣的一点是,即使在完成函数并关闭ResultSet,Statement和Connection,并转到程序的其他部分之后,程序内存使用量仍然没有减少! 谢谢
我正在node.js中读取一个文件(300,000行).我想将5,000行的批量发送到另一个应用程序(Elasticsearch)来存储它们.因此,每当我读完5,000行时,我想通过API将它们批量发送到Elasticsearch来存储它们,然后继续读取文件的其余部分并批量发送每5,000行.
如果我想使用java(或任何其他阻塞语言,如C,C++,python等)来执行此任务,我将执行以下操作:
int countLines = 0;
String bulkString = "";
BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("filePath.txt")));
while ((currentLine = br.readLine()) != null) {
countLines++;
bulkString += currentLine;
if(countLines >= 5000){
//send bulkString to Elasticsearch via APIs
countLines = 0;
bulkString = "";
}
}
Run Code Online (Sandbox Code Playgroud)
如果我想用node.js做同样的事情,我会这样做:
var countLines = 0;
var bulkString = "";
var instream = fs.createReadStream('filePath.txt');
var rl = readline.createInterface(instream, outstream);
rl.on('line', function(line) {
if(countLines >= 5000){
//send bulkString to via APIs
client.bulk({
index: 'indexName',
type: 'type',
body: …Run Code Online (Sandbox Code Playgroud) javascript nonblocking batch-processing node.js elasticsearch