我正在创建一些函数来做一些事情,比如负数和正数的分离和,kahan,成对和其他东西,其中我从矩阵中获取元素的顺序无关紧要,例如:
template <typename T, int R, int C>
inline T sum(const Eigen::Matrix<T,R,C>& xs)
{
T sumP(0);
T sumN(0);
for (size_t i = 0, nRows = xs.rows(), nCols = xs.cols(); i < nRows; ++i)
for (size_t j = 0; j < nCols; ++j)
{
if (xs(i,j)>0)
sumP += xs(i,j);
else if (xs(i,j)<0) //ignore 0 elements: improvement for sparse matrices I think
sumN += xs(i,j);
}
return sumP+sumN;
}
Run Code Online (Sandbox Code Playgroud)
现在,我想尽可能提高效率,所以我的问题是,如上所述循环遍历每一行的每一列会更好,或者像下面这样做相反:
for (size_t i = 0, nRows = xs.rows(), nCols = xs.cols(); i …Run Code Online (Sandbox Code Playgroud) 对于我正在开发的一个小项目,我一直在通过命令行使用简单的编译.然而,随着它变大,我决定学习并使用autoconf和automake来编译它.
经过一些配置,我成功使用automake构建.但是我注意到输出二进制文件的大小比通过命令行使用g ++大.我尝试使用静态和动态库,结果是一样的.
我也尝试过一个简单的hello世界,而且使用automake比使用命令行编译更大.
所以,我试图运行objdump -h:命令行编译返回27个部分,另一方面,automake编译返回相同的27个部分加上7个部分,称为debug_aranges,debug_info,debug_abbrev,debug_line,debug_loc,debug_ranges.所以我显然认为它与调试有关.
因此,任何人都知道这些部分是什么,如果它们是必要的以及如何摆脱那么所以可执行文件更小以便分发.