我想编写一个广泛使用BLAS和LAPACK线性代数功能的程序.由于性能是一个问题,我做了一些基准测试,并想知道,如果我采取的方法是合法的.
可以说,我有三位参赛者,他们希望用简单的矩阵矩阵乘法来测试他们的表现.参赛者是:
dot.我为不同的维度实现了矩阵 - 矩阵乘法i.i为5的增量和matricies运行5-500 m1和m2设置了这样的:
m1 = numpy.random.rand(i,i).astype(numpy.float32)
m2 = numpy.random.rand(i,i).astype(numpy.float32)
Run Code Online (Sandbox Code Playgroud)
使用的代码如下所示:
tNumpy = timeit.Timer("numpy.dot(m1, m2)", "import numpy; from __main__ import m1, m2")
rNumpy.append((i, tNumpy.repeat(20, 1)))
Run Code Online (Sandbox Code Playgroud)
有了这个功能
_blaslib = ctypes.cdll.LoadLibrary("libblas.so")
def Mul(m1, m2, i, r):
no_trans = c_char("n")
n = c_int(i)
one = c_float(1.0)
zero = c_float(0.0)
_blaslib.sgemm_(byref(no_trans), byref(no_trans), byref(n), byref(n), byref(n),
byref(one), m1.ctypes.data_as(ctypes.c_void_p), byref(n),
m2.ctypes.data_as(ctypes.c_void_p), byref(n), byref(zero),
r.ctypes.data_as(ctypes.c_void_p), byref(n))
Run Code Online (Sandbox Code Playgroud)
测试代码如下所示:
r = …Run Code Online (Sandbox Code Playgroud) 我刚刚改变了一个我正在编写的程序,将我的数据保存为numpy数组,因为我遇到了性能问题,而且差别很大.它最初运行需要30分钟,现在需要2.5秒!
我想知道它是如何做到的.我认为是因为它消除了对for循环的需要但超出了我的难度.
我正在研究大型矩阵乘法并运行以下实验来形成基线测试:
这是天真的C++实现:
#include <iostream>
#include <algorithm>
using namespace std;
int main()
{
constexpr size_t dim = 4096;
float* x = new float[dim*dim];
float* y = new float[dim*dim];
float* z = new float[dim*dim];
random_device rd;
mt19937 gen(rd());
normal_distribution<float> dist(0, 1);
for (size_t i = 0; i < dim*dim; i++)
{
x[i] = dist(gen);
y[i] = dist(gen);
}
for (size_t row = 0; row < dim; row++)
for (size_t col = 0; col < …Run Code Online (Sandbox Code Playgroud) 是否有可能在索引不是零的情况下启动一个数组... IE你有一个数组a [35],35个元素,现在我想索引说起始100,所以数字将是[100],a [101],...... a [134],这可能吗?
我正在尝试为一块电路板生成一个"存储器映射",我将有一个名为SRAM [10000]的阵列和另一个名为BRAM [5000]的阵列,但在"内存"可视性中它们是连续的,IE BRAM在SRAM之后立即启动,因此如果我尝试指向内存位置11000,我会读它看到它超过10000然后将它传递给bram.
打字时我意识到我可以假设然后从数字中减去10K并将其传递给BRAM,但为了争论,这是否可以将11000传递给BRAM?
感谢您的任何帮助.
更新以修复a [34]到[134]
更新了更多信息:在我将要实现的实际架构中,sram和bram之间可能存在差异,例如地址11008可能在内存映射中不可见,因此编写一个充满内存的巨型数组然后"分区"它会起作用,但我仍然需要做逻辑来确定它是否在"sram和bram"的范围内.这首先是我想要避免的.