小编Mys*_*ial的帖子

常数0.0039215689代表什么？

我一直看到这个常量弹出各种图形头文件

0.0039215689

Run Code Online (Sandbox Code Playgroud)

它似乎与颜色有关吗？

这是Google的第一个热门话题:

void RDP_G_SETFOGCOLOR(void)
{
    Gfx.FogColor.R = _SHIFTR(w1, 24, 8) * 0.0039215689f;
    Gfx.FogColor.G = _SHIFTR(w1, 16, 8) * 0.0039215689f;
    Gfx.FogColor.B = _SHIFTR(w1, 8, 8) * 0.0039215689f;
    Gfx.FogColor.A = _SHIFTR(w1, 0, 8) * 0.0039215689f;
}

void RDP_G_SETBLENDCOLOR(void)
{
    Gfx.BlendColor.R = _SHIFTR(w1, 24, 8) * 0.0039215689f;
    Gfx.BlendColor.G = _SHIFTR(w1, 16, 8) * 0.0039215689f;
    Gfx.BlendColor.B = _SHIFTR(w1, 8, 8) * 0.0039215689f;
    Gfx.BlendColor.A = _SHIFTR(w1, 0, 8) * 0.0039215689f;

    if(OpenGL.Ext_FragmentProgram && (System.Options & BRDP_COMBINER)) {
        glProgramEnvParameter4fARB(GL_FRAGMENT_PROGRAM_ARB, 2, Gfx.BlendColor.R, …

Run Code Online (Sandbox Code Playgroud)

c floating-point constants magic-numbers

cru*_*ush

2014 04-11

308
推荐指数

2
解决办法

2万
查看次数

"int main(){(([[(){})());}"有效的C++是怎样的？

我最近遇到了以下深奥的代码.

int main(){(([](){})());}

Run Code Online (Sandbox Code Playgroud)

按如下方式重新格式化以使其更具可读性:

int main(){
    (([](){})());   //  Um... what?!?!
}

Run Code Online (Sandbox Code Playgroud)

但我无法理解如何(([](){})())有效的代码.

它看起来不像函数指针语法.
它不能是一些运算符重载技巧.代码按原样编译.

谷歌对这种全符号搜索没有多大帮助.但它在Visual Studio 2010中编译并且不输出任何内容.没有错误,也没有警告.所以它看起来像有效的代码.

我从未见过任何在Javascript和C函数指针之外如此奇怪的有效代码.

有人可以解释这是如何有效的C++？

c++ syntax lambda c++11

Mys*_*ial

2018 08-08

264
推荐指数

1
解决办法

1万
查看次数

为什么lambdas可以通过编译器比普通函数更好地优化？

The C++ Standard Library (Second Edition)Nicolai Josuttis 在其着作中指出,编译器可以比普通函数更好地优化lambdas.

此外,C++编译器比普通函数更好地优化lambdas.(第213页)

这是为什么？

我认为在内联时不应该有任何差别.我能想到的唯一原因是编译器可能有一个更好的本地上下文与lambdas,这样可以做出更多假设并执行更多优化.

c++ optimization lambda compiler-optimization c++11

inf*_*inf

2012 12-05

167
推荐指数

2
解决办法

2万
查看次数

为什么带有GCC的x86上的整数溢出会导致无限循环？

以下代码进入GCC的无限循环:

#include <iostream>
using namespace std;

int main(){
    int i = 0x10000000;

    int c = 0;
    do{
        c++;
        i += i;
        cout << i << endl;
    }while (i > 0);

    cout << c << endl;
    return 0;
}

Run Code Online (Sandbox Code Playgroud)

所以这是交易:有符号整数溢出在技术上是未定义的行为.但是x86上的GCC使用x86整数指令实现整数运算 - 它包含溢出.

因此,我本来期望它包装溢出 - 尽管事实上它是未定义的行为.但事实显然并非如此.那么我错过了什么？

我使用以下方法编译:

~/Desktop$ g++ main.cpp -O2

Run Code Online (Sandbox Code Playgroud)

GCC输出:

~/Desktop$ ./a.out
536870912
1073741824
-2147483648
0
0
0

... (infinite loop)

Run Code Online (Sandbox Code Playgroud)

禁用优化后,没有无限循环且输出正确.Visual Studio也正确编译它并给出以下结果:

正确的输出:

~/Desktop$ g++ main.cpp
~/Desktop$ ./a.out
536870912
1073741824
-2147483648
3

Run Code Online (Sandbox Code Playgroud)

以下是一些其他变体:

i *= 2;   //  Also …

Run Code Online (Sandbox Code Playgroud)

c c++ x86 gcc undefined-behavior

Mys*_*ial

2013 01-21

124
推荐指数

5
解决办法

1万
查看次数

numpy怎么能比我的Fortran例程快得多？

我得到一个512 ^ 3数组,表示模拟的温度分布(用Fortran编写).该数组存储在大小约为1/2G的二进制文件中.我需要知道这个数组的最小值,最大值和平均值,因为我很快就需要了解Fortran代码,我决定试一试,并提出了以下非常简单的例程.

  integer gridsize,unit,j
  real mini,maxi
  double precision mean

  gridsize=512
  unit=40
  open(unit=unit,file='T.out',status='old',access='stream',&
       form='unformatted',action='read')
  read(unit=unit) tmp
  mini=tmp
  maxi=tmp
  mean=tmp
  do j=2,gridsize**3
      read(unit=unit) tmp
      if(tmp>maxi)then
          maxi=tmp
      elseif(tmp<mini)then
          mini=tmp
      end if
      mean=mean+tmp
  end do
  mean=mean/gridsize**3
  close(unit=unit)

Run Code Online (Sandbox Code Playgroud)

在我使用的机器上,每个文件大约需要25秒.这让我觉得很长,所以我继续在Python中做了以下事情:

    import numpy

    mmap=numpy.memmap('T.out',dtype='float32',mode='r',offset=4,\
                                  shape=(512,512,512),order='F')
    mini=numpy.amin(mmap)
    maxi=numpy.amax(mmap)
    mean=numpy.mean(mmap)

Run Code Online (Sandbox Code Playgroud)

现在,我预计这会更快,但我真的被吹走了.在相同条件下只需不到一秒钟.平均值偏离我的Fortran例程发现的那个(我也使用128位浮点运行,所以我不知何故更多地信任它),但仅限于第7位有效数字左右.

numpy怎么这么快？我的意思是你必须查看数组的每个条目才能找到这些值,对吧？我在Fortran程序中做了一件非常愚蠢的事情,因为它花了这么长时间吗？

编辑:

要回答评论中的问题:

是的,我也使用32位和64位浮点运行Fortran例程,但它对性能没有影响.
我用过iso_fortran_env它提供128位浮点数.
使用32位浮点数我的意思是相当多,所以精度确实是一个问题.
我以不同的顺序在不同的文件上运行这两个例程,所以缓存在比较中应该是公平的吗？
我实际上试过打开MP,但同时从不同位置的文件中读取.阅读完你的评论和答案后,这听起来真的很愚蠢,它使常规也需要更长的时间.我可能试一试数组操作,但也许甚至不需要.
文件实际上是1/2G大小,这是一个错字,谢谢.
我现在将尝试数组实现.

编辑2:

我实现了@Alexander Vogt和@casey在他们的答案中提出的建议,它的速度一样快,numpy但现在我有一个精确的问题,因为@Luaan指出我可能会得到.使用32位浮点数组,计算出的平均值sum为20%.干

...
real,allocatable :: tmp (:,:,:)
double precision,allocatable :: tmp2(:,:,:)
...
tmp2=tmp
mean=sum(tmp2)/size(tmp)
...

Run Code Online (Sandbox Code Playgroud)

解决了这个问题但增加了计算时间(不是很多,但显着).有没有更好的方法来解决这个问题？我找不到从文件中直接读单打的方法.怎么numpy避免这个？

感谢目前为止所有的帮助.

python arrays performance fortran numpy

use*_*915

2015 11-18

81
推荐指数

2
解决办法

9375
查看次数

如何从C程序获得100%的CPU使用率

这是一个非常有趣的问题,所以让我设置场景.我在国家计算机博物馆工作,我们刚刚设法从1992年开始运行一台Cray Y-MP EL超级计算机,我们真的想看看它有多快!

我们认为最好的方法是编写一个简单的C程序来计算素数,并显示这需要多长时间,然后在快速的现代台式PC上运行程序并比较结果.

我们很快想出了这个代码来计算素数:

#include <stdio.h>
#include <time.h>

void main() {
    clock_t start, end;
    double runTime;
    start = clock();
    int i, num = 1, primes = 0;

    while (num <= 1000) { 
        i = 2; 
        while (i <= num) { 
            if(num % i == 0)
                break;
            i++; 
        }
        if (i == num)
            primes++;

        system("clear");
        printf("%d prime numbers calculated\n",primes);
        num++;
    }

    end = clock();
    runTime = (end - start) / (double) CLOCKS_PER_SEC;
    printf("This machine calculated all %d prime numbers under …

Run Code Online (Sandbox Code Playgroud)

c linux windows performance cray

bag*_*man

2012 02-12

78
推荐指数

4
解决办法

5万
查看次数

这里,矩阵的大小由表示dimension.现在,如果矩阵的大小是2000,运行这段代码需要147秒,而如果矩阵的大小是2048,则需要447秒.所以虽然差别没有.乘法是(2048*2048*2048)/(2000*2000*2000)= 1.073,时间上的差异是447/147 = 3.有人可以解释为什么会发生这种情况吗？我预计它会线性扩展,但这不会发生.我不是要尝试制作最快的矩阵乘法代码,只是试图理解它为什么会发生.

规格:AMD Opteron双核节点(2.2GHz),2G RAM,gcc v 4.5.0

程序编译为 gcc -O3 simple.c

我也在英特尔的icc编译器上运行了这个,并看到了类似的结果.

编辑:

正如评论/答案中所建议的那样,我运行了维度= 2060的代码,需要145秒.

继承完整的计划:

#include <stdlib.h>
#include <stdio.h>
#include <sys/time.h>

/* change dimension size as needed */
const int dimension = 2048;
struct timeval tv; 

double timestamp()
{
        double t;
        gettimeofday(&tv, NULL);
        t = tv.tv_sec + (tv.tv_usec/1000000.0); …

Run Code Online (Sandbox Code Playgroud)

c algorithm performance matrix-multiplication

jit*_*hsk

2012 01-09

74
推荐指数

5
解决办法

1万
查看次数

C++:将一个操作数保存在寄存器中的神秘速度非常快

我一直试图通过计算一个使用以下代码对数组元素进行扩展和求和的例程来了解在L1缓存与内存中使用数组的影响(我知道我应该将结果缩放为' a'在最后;关键是在循环中同时进行乘法和加法 - 到目前为止,编译器还没有想出要将'a'分解出来):

double sum(double a,double* X,int size)
{
    double total = 0.0;
    for(int i = 0;  i < size; ++i)
    {
        total += a*X[i];
    }
    return total;
}

#define KB 1024
int main()
{
    //Approximately half the L1 cache size of my machine
    int operand_size = (32*KB)/(sizeof(double)*2);
    printf("Operand size: %d\n", operand_size);
    double* X = new double[operand_size];
    fill(X,operand_size);

    double seconds = timer();
    double result;
    int n_iterations = 100000;
    for(int i = 0; i < n_iterations; ++i)
    {
        result = …

Run Code Online (Sandbox Code Playgroud)

c c++ optimization performance assembly

Sam*_*zer

2013 03-28

69
推荐指数

3
解决办法

3938
查看次数