提升精神内存泄漏

Question

提升精神内存泄漏

Fel*_*ipe 2 c++ boost memory-leaks boost-spirit

我正在编写一个小程序来处理一个大文本文件并进行一些替换.问题是它永远不会停止分配新的内存,所以最终它会耗尽内存.我已经将它简化为一个简单的程序,只需计算行数(参见下面的代码),同时仍然分配越来越多的内存.我必须承认,我对提升和提升精神知之甚少.你能告诉我我做错了什么吗？太感谢了!

#include <string>
#include <iostream>
#include <boost/spirit/include/lex_lexertl.hpp>
#include <boost/bind.hpp>
#include <boost/ref.hpp>
#include <boost/spirit/include/support_istream_iterator.hpp>

// Token ids
enum token_ids {
    ID_EOL= 100
};

// Token definition
template <typename Lexer>
    struct var_replace_tokens : boost::spirit::lex::lexer<Lexer> {
        var_replace_tokens() {
            this->self.add ("\n", ID_EOL); // newline characters
        }
    };

// Functor
struct replacer {
    typedef bool result_type;
    template <typename Token>
    bool operator()(Token const& t, std::size_t& lines) const  {
        switch (t.id()) {
        case ID_EOL:
            lines++;
            break;  
        }
        return true;
    }
}; 

int main(int argc, char **argv) {
    size_t lines=0;

    var_replace_tokens< boost::spirit::lex::lexertl::lexer< boost::spirit::lex::lexertl::token< boost::spirit::istream_iterator> > > var_replace_functor;

    cin.unsetf(std::ios::skipws);

    boost::spirit::istream_iterator first(cin);
    boost::spirit::istream_iterator last;

    bool r = boost::spirit::lex::tokenize(first, last, var_replace_functor,  boost::bind(replacer(), _1, boost::ref(lines)));

    if (r) {
        cerr<<"Lines processed: "<<lines<<endl;
    }  else {
        string rest(first, last);
        cerr << "Processing failed at: "<<rest<<" (line "<<lines<<")"<<endl;
    }
}

Run Code Online (Sandbox Code Playgroud)

Answer 1

seh*_*ehe 7

行为是设计的.

我:它必须是multi_pass迭代器适配器.由于没有语法精神不知道什么时候可以刷新.[...]

你:就像我所知,istream_iterator它负责读取输入流,而不必将整个流存储到内存中

是.但你没有使用std::istream_iterator.你正在使用Boost Spirit.哪个是解析器生成器.解析器需要随机访问以进行回溯.

Spirit通过使用multi_pass适配器调整输入序列到随机访问序列来支持输入迭代器.这个迭代器适配器存储一个可变大小的缓冲区¹用于回溯目的.某些操作(期望点,总是贪婪的运算符,如Kleene *等)告诉解析器框架什么时候可以安全地刷新缓冲区.

问题:

你没有解析,只是标记化.什么都没告诉迭代器冲洗它的缓冲区.

缓冲区是无限制的,因此内存使用量会增加.当然,这不是泄漏,因为一旦多通道适配迭代器的最后一个副本超出范围,就会释放共享的回溯缓冲区.

解决方案:

最简单的解决方案是使用随机访问源.如果可以,请使用内存映射文件.

其他解决方案将涉及告知多通道适配器冲洗.实现这一目标的最简单方法是使用tokenize_and_parse.即使使用这样的虚假语法*(any_token)也足以说服解析器框架,你不会要求它回溯.

灵感:

在C++中有效地读取非常大的文本文件

答案涉及解析多GiB文件流.比较性能与工具wc -l

¹http ://www.boost.org/doc/libs/1_62_0/libs/spirit/doc/html/spirit/support/multi_pass.html默认情况下它存储共享双端队列.使用dd if=/dev/zero bs=1M | valgrind --tool=massif ./sotest以下命令运行测试一段时间后看到它:

清楚地显示所有的记忆

100.00% (805,385,576B) (heap allocation functions) malloc/new/new[], --alloc-fns, etc.
->99.99% (805,306,368B) 0x4187D5: void boost::spirit::iterator_policies::split_std_deque::unique<char>::increment<boost::spirit::multi_pass<std::istream, boost::spirit::iterator_policies::default_policy<boost::spirit::iterator_policies::ref_counted, boost::spirit::iterator_policies::no_check, boost::spirit::iterator_policies::istream, boost::spirit::iterator_policies::split_std_deque> > >(boost::spirit::multi_pass<std::istream, boost::spirit::iterator_policies::default_policy<boost::spirit::iterator_policies::ref_counted, boost::spirit::iterator_policies::no_check, boost::spirit::iterator_policies::istream, boost::spirit::iterator_policies::split_std_deque> >&) (in /home/sehe/Projects/stackoverflow/sotest)
| ->99.99% (805,306,368B) 0x404BC3: main (in /home/sehe/Projects/stackoverflow/sotest)

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，5 月前
查看次数：	344 次
最近记录：	9 年，5 月前