标签: julia-gpu

我可以使用Julia来编程我的GPU和CPU吗？

我的系统有显卡.我不玩游戏.

我想编写一些高性能计算的东西以获得乐趣.

我可以使用JULIA lang来利用我的硬件吗？

gpu opencl gpu-programming julia julia-gpu

sur*_*upa

2016 07-10

11
推荐指数

2
解决办法

3534
查看次数

欧几里得距离矩阵之间的最小距离

我有一些代码可以计算一个矩阵中每个笛卡尔坐标与另一个矩阵中其他坐标之间的距离。对于每个坐标，将返回最小距离以及产生最小坐标的索引位置。

function MED3D(m1, m2)
    n1::Int = size(m1,1)
    Dist = SharedArray{Float64}((n1,3))
    @sync @distributed for k in 1:n1
        Dist[k,:] = MD3D(m1[k,:], m2, k)
    end
    return Dist
end

@everywhere function MD3D(v1, m2, k)
    dsum::Float64 = Inf
    dtemp::Float64 = Inf
    i = 0
    for j in 1:size(m2,1)
        @inbounds dtemp = sqrt((v1[1] - m2[j,1]) * (v1[1] - m2[j,1]) + (v1[2] - m2[j,2]) * (v1[2] - m2[j,2]) + (v1[3] - m2[j,3]) * (v1[3] - m2[j,3]))
        if dtemp < dsum
            dsum = dtemp
            i = j
        end …

Run Code Online (Sandbox Code Playgroud)

gpu julia julia-gpu

JJL*_*JJL

2019 10-26

10
推荐指数

1
解决办法

289
查看次数

如何与Julia CUDArt同步？

我刚刚开始使用Julia的CUDArt包来管理GPU计算.我想知道如何确保如果我从gpu(例如使用to_host())中提取数据,而在执行所有必要的计算之前我不这样做.

通过一些实验,似乎to_host(CudaArray)在特定的CudaArray更新时会滞后.那么,或许只是使用它就足以确保安全？但它看起来有点渺茫.

现在,我正在使用该launch()函数来运行我的内核,如包文档中所述.

CUDArt文档给出了一个使用Julia的@sync宏的例子,看起来它可能很可爱.但是出于@sync我的目的,我完成了我的"工作"并准备好在内核启动后立即继续launch(),而不是一旦完成.据我了解的操作launch()- 没有办法改变这个功能(例如,让它等待接收函数的输出"启动").

我怎样才能实现这种同步？

parallel-processing julia julia-gpu

Mic*_*gge

2016 08-22

8
推荐指数

2
解决办法

264
查看次数

朱莉娅"敲定"是什么意思？

我目前正在使用CUDArt包.在加载包含自定义CUDA C内核的ptx模块时,GitHub 文档包含以下代码片段:

md = CuModule("mycudamodule.ptx", false)  # false means it will not be automatically finalized

Run Code Online (Sandbox Code Playgroud)

(原评论)

我试图了解这个false选项究竟是什么意思,以及何时我想/不想使用它.我在SO上发现了这篇文章(在Julia中编写模块finalize方法的正确方法是什么？).它引自Julia文档:

终结者(x,函数)

当没有程序可访问的x引用时,注册要调用的函数f(x).如果x是位类型,则此函数的行为是不可预测的.

我真的不明白这意味着什么,或者甚至这里的最终确定是否与CUDArt示例中提到的相同.例如,x当程序无法访问该参数时,尝试在参数上调用函数是没有意义的 - 这怎么可能呢？因此,我要感谢任何澄清的帮助:

在朱莉娅和朱莉娅"敲定"意味着什么
当我/不想在使用CUDArt导入.ptx模块的上下文中使用它时

gpu julia julia-gpu

Mic*_*gge

2017 05-23

7
推荐指数

1
解决办法

481
查看次数

Julia:在多个GPU上进行并行CUSPARSE计算

我有n单独的GPU,每个都存储自己的数据.我想让他们每个人同时进行一组计算.这里的CUDArt文档描述了使用流来异步调用自定义C内核以实现并行化(另请参见此处的其他示例).使用自定义内核,可以通过stream在CUDArt的launch()函数实现中使用参数来实现.但据我所知,CUSPARSE(或CUBLAS)函数没有类似的流规范选项.

这可能与CUSPARSE一起使用,或者如果我想使用多个GPU,我是否只需要深入到C？

修订后的赏金更新

好的,所以,我现在有一个相对不错的解决方案,最后.但是,我确信它可以通过百万种方式得到改善 - 现在它非常黑客.特别是,我喜欢根据我在这个 SO问题中尝试和写过的解决方案的建议(我从来没有正常工作).因此,我很高兴将赏金奖励给任何有进一步想法的人.

parallel-processing asynchronous julia julia-gpu

Mic*_*gge

2017 05-23

6
推荐指数

1
解决办法

488
查看次数