标签: amd-processor

如何计算 GPGPU 硬件中的峰值 FLOPS？

我想计算图形硬件的理论峰值性能。嗯，实际上我想了解计算。

以 AMD Radeon HD 6670 为例：AMD 加速并行处理编程指南 ( http://developer.amd.com/download/AMD_Accelerated_Parallel_Processing_OpenCL_Programming_Guide.pdf ) 在第 6-42 页中间告诉我要获取流核心的数量 ( 96），将其乘以每个流核心每个周期的操作数（我们采用单精度 ADD，即 5），然后乘以核心时钟 (800 MHz)。结果是：

96 * 5 FLOPS * 800MHz = 384,000 MFLOPS = 384 GFLOPS

同一份文档在 D-4 页上告诉我，该特定设备的峰值吞吐量为 768 GFLOPS，是我刚刚计算的两倍。维基百科和 AMD 主页的说法相同。

所以我的问题是：我在哪里遗漏了二的因数？

gpu gpgpu opencl amd-processor

Mat*_*fel

2014 11-20

4
推荐指数

1
解决办法

2014
查看次数

Perf 事件：dTLB 加载和 dTLB 存储的含义是什么？

我试图理解性能事件的含义：dTLB 加载和 dTLB 存储？

intel tlb perf amd-processor

ago*_*ood

2019 05-17

4
推荐指数

2
解决办法

3349
查看次数

为什么使用 AVX ymm(m256) 指令比 xmm(m128) 慢约 4 倍

我编写了乘以 arr1*arr2 并将结果保存到 arr3 的程序。

Pseudocode:
arr3[i]=arr1[i]*arr2[i]

Run Code Online (Sandbox Code Playgroud)

我想使用 AVX 指令。我有 m128 和 m256 指令的汇编代码（展开）。结果表明，使用 ymm 比 xmm 慢 4 倍。但为什么？如果延迟相同..

Mul_ASM_AVX proc ; (float* RCX=arr1, float* RDX=arr2, float* R8=arr3, int R9 = arraySize)

    push rbx

    vpxor xmm0, xmm0, xmm0 ; Zero the counters
    vpxor xmm1, xmm1, xmm1
    vpxor xmm2, xmm2, xmm2
    vpxor xmm3, xmm3, xmm3

    mov rbx, r9
    sar r9, 4       ; Divide the count by 16 for AVX
    jz MulResiduals ; If that's 0, then we have only scalar …

Run Code Online (Sandbox Code Playgroud)

x86 assembly sse avx amd-processor

Ale*_*ltz

2020 02-12

4
推荐指数

1
解决办法

303
查看次数

为什么传统模式下的 syscall/sysret 被认为“设计得非常糟糕”？

请参阅https://github.com/torvalds/linux/blob/master/arch/x86/entry/entry_64_compat.S 中的评论

我知道因为 32 位 syscall/sysret 不保存/恢复 ESP，所以有必要在任务门中处理 NMI 以确保良好的堆栈指针。除此之外，操作系统采用它的其他障碍是什么？是否有操作系统支持它或所有操作系统都使用 sysenter/sysexit 在 32 位传统模式下进行快速系统调用？

x86 assembly operating-system system-calls amd-processor

Zux*_*uxy

2020 05-10

4
推荐指数

1
解决办法

85
查看次数

x86-64 处理器的 NUMA 文档？

我已经查找过 X86-64 处理器的 NUMA 文档，不幸的是我只找到了 NUMA 的优化文档。

我想要的是：如何在系统中初始化 NUMA（这包括获取系统的内存拓扑和处理器拓扑）。有谁知道有关 X86-64 AMD 和 Intel 处理器的 NUMA 的好文档吗？

x86-64 intel osdev numa amd-processor

pri*_*ner

2014 11-18

3
推荐指数

1
解决办法

2669
查看次数

使用Nvidia显卡安装AMD OpenCL CPU驱动程序

我已多次看到这个问题,但从未找到Windows的答案.我最近将我的CUDA代码移植到OpenCL.使用ATI卡进行测试时,Catalyst驱动程序包含CPU OpenCL驱动程序,因此我可以在CPU上运行OpenCL代码.使用NVIDIA卡进行测试时,CPU没有驱动程序.

问题是:如何在运行Nvidia卡时安装(和部署)CPU驱动程序？

非常感谢

windows driver nvidia opencl amd-processor

Jul*_*n M

2014 11-20

3
推荐指数

1
解决办法

8083
查看次数

Cl没有成员向量

我正在尝试使用OpenCL的AMD实现编写Hello World应用程序. http://developer.amd.com/tools-and-sdks/heterogeneous-computing/amd-accelerated-parallel-processing-app-sdk/introductory-tutorial-to-opencl/

我设置的目录,LIB,等这里

以下编译:

#include "stdafx.h"
#include <CL/cl.h>

int _tmain(int argc, _TCHAR* argv[])
{
    cl_platform_id test;
    cl_uint num;
    cl_uint ok = 1;
    clGetPlatformIDs(ok, &test, &num);

    return 0;

Run Code Online (Sandbox Code Playgroud)

}

然而,

#include "stdafx.h"

#include <utility>
#include <CL/cl.hpp>


int _tmain(int argc, _TCHAR* argv[])
{
    cl::vector< cl::Platform > platformList;

    return 0;
}

Run Code Online (Sandbox Code Playgroud)

才不是.

我收到以下错误:

Error   1   error C2039: 'vector' : is not a member of 'cl' D:\Documents\Projects\Visual Studio\C++\cl_helloworld\cl_helloworld\cl_helloworld.cpp   12  1   cl_helloworld
Error   2   error C2065: 'vector' : undeclared identifier   D:\Documents\Projects\Visual Studio\C++\cl_helloworld\cl_helloworld\cl_helloworld.cpp   12 …

Run Code Online (Sandbox Code Playgroud)

c++ gpu opencl visual-studio-2012 amd-processor

oti*_*oza

2014 11-19

3
推荐指数

1
解决办法

2234
查看次数

缺少依赖项在Windows 7上安装NumPy 1.9 for Python 3.4.1 32位

我似乎无法在Windows 7 AMD 64位计算机上使用32位的Python 3.4.1获得NumPy 1.9.0.

我下载包,解压缩并运行:

python setup.py install

Run Code Online (Sandbox Code Playgroud)

以下是我在命令shell中获得的消息.

我认为我的问题是我没有带有MLK二进制文件的英特尔机器,因为我有一个AMD处理器.我尝试了很多谷歌搜索结果; 没有快乐.

关于如何成功的任何建议？

F:\Tools\numpy-1.9.0>python setup.py install
Running from numpy source directory.
F:\Tools\python-3.4.1\lib\distutils\dist.py:260: UserWarning: Unknown distribution option: 'test_suite'
  warnings.warn(msg)
non-existing path in 'numpy\\distutils': 'site.cfg'
non-existing path in 'numpy\\f2py': 'docs'
non-existing path in 'numpy\\f2py': 'f2py.1'
F2PY Version 2
blas_opt_info:
blas_mkl_info:
  libraries mkl,vml,guide not found in ['F:\\Tools\\python-3.4.1\\lib', 'C:\\', 'F:\\Tools\\python-3.4.1\\libs']
  NOT AVAILABLE

openblas_info:
  libraries openblas not found in ['F:\\Tools\\python-3.4.1\\lib', 'C:\\', 'F:\\Tools\\python-3.4.1\\libs']
  NOT AVAILABLE

atlas_blas_threads_info:
Setting PTATLAS=ATLAS
  libraries ptf77blas,ptcblas,atlas not found in ['F:\\Tools\\python-3.4.1\\lib', 'C:\\', …

Run Code Online (Sandbox Code Playgroud)

python windows numpy amd-processor

duf*_*ymo

2014 11-19

3
推荐指数

1
解决办法

1万
查看次数