标签: hpc

MPICH与OpenMPI

有人可以详细说明MPI的OpenMPI和MPICH实现之间的差异吗?哪两个是更好的实现?

hpc mpi openmpi

116
推荐指数
4
解决办法
8万
查看次数

nVidia Quadro和Geforce卡之间的区别?

我不是3D或HPC人员,但我的任务是对可能的HPC应用程序进行一些研究.读取nVidia Quadro和Geforce卡之间的基准,比较和规格,似乎对于类似的代卡:

  • Quadro是Geforce价格的2倍-3倍
  • 硬件方面,差异并不是那么大
  • 在基准测试中(3ds Max,Maya和其他一些)Quadro显卡比Geforce显卡要好得多

有谁知道可以导致这种更好性能的确切和精确的技术差异是什么?我的推测(以及通常可以在网上阅读的内容),因为硬件具有相似的规格,所以它都在驱动程序中.如果是这样的话,Quadro驱动程序提供了哪些功能,3ds Max和其他程序员可以利用这些功能?

当然,我对营销说话不感兴趣:更高的商业价值,专业导向,更好的支持,更好的质量保证等等......

hardware hpc nvidia

72
推荐指数
4
解决办法
23万
查看次数

拥有带有InfiniBand的Windows Azure A8节点支持如何从一个发送N个字节并在另一个上接收?

我喜欢InfiniBand承诺的40Gbit/s网络.我的需求没有映射到具有一个核心节点+从属的MPI模型,如果可能,我宁愿不使用MPI.我需要简单的连接/发送/接收/关闭(或其异步版本)API.然而,在MS Azure文档和 Microsoft HPC Pack文档中,我无法找到任何可以使用InfiniBand作为我的应用程序传输的C/C++或.Net API.所以我的问题很简单,如何使用InfiniBand连接到其他节点并向其发送数据包并在另一端接收?(类似于一些Socket API或类似的东西)

Azure上的ND-SPI或Azure上的DAPL-ND 连接/发送/接收/关闭教程是我正在寻找的.

c++ hpc azure infiniband azure-virtual-network

35
推荐指数
1
解决办法
725
查看次数

英特尔MKL与AMD数学核心库

有没有人有为英特尔数学核心库AMD数学核心库编程的经验?我正在构建一台用于高性能统计计算的个人计算机,并且正在讨论要购买的组件.AMD数学核心库的吸引力在于它是免费的,但我在学术界,所以MKL并不昂贵.但我有兴趣听到以下的想法:

  1. 哪个提供更好的API?
  2. 这平均每美元提供更好的性能,包括许可和硬件成本.
  3. AMCL-GPU,我应该考虑的一个因素?

math optimization hpc intel amd-processor

23
推荐指数
1
解决办法
1万
查看次数

ANT问题:net/sf/antcontrib/antcontrib.properties

我正在尝试将软件安装到我的Debian Lenny服务器上.具体来说,Capture-HPC.我已经设置了VMWare服务器以及所有先决条件.当我在目录中运行ant时,我收到以下错误:

[taskdef] Could not load definitions from resource net/sf/antcontrib/antcontrib.properties. It could not be found.
Run Code Online (Sandbox Code Playgroud)

有人有什么想法导致这个?有关我的安装的详细信息如下:

Apache Ant version 1.7.0 compiled on April 29 2008
Buildfile: build.xml
Detected Java version: 1.6 in: /usr/lib/jvm/java-6-sun-1.6.0.20/jre
Detected OS: Linux
Run Code Online (Sandbox Code Playgroud)

和build.xml文件...

<?xml version="1.0"?>
<project name="CaptureServer" xmlns:ac="antlib:net.sf.antcontrib" default="release" basedir=".">
<taskdef resource="net/sf/antcontrib/antcontrib.properties"/>

<condition property="os" value="unix">
    <os family="unix"/>
</condition>
<condition property="os" value="windows">
    <os family="windows"/>
</condition>

 <property environment="env"/>
 <property name="src" value="."/>
 <property name="build" value="build"/>
 <property name="lib" value="lib"/>
 <property name="release" value="release"/>
 <property name="classpath.build" value=".\lib\junit-4.4.jar"/>
 <property name="classpath.run" value="lib/junit-4.4.jar"/>


 <path id="classpath"> …
Run Code Online (Sandbox Code Playgroud)

java ant debian hpc

23
推荐指数
3
解决办法
5万
查看次数

是否可以通过Golang和CUDA进行高性能计算?

我用谷歌搜索了一段时间,唯一有用的信息是:

  • github.com/barnex/cuda5
  • mumax.github.io/

不幸的是,最新的Arch Linux仅提供CUDA 7.5软件包,因此可能不支持barnex的项目.

Arne Vansteenkiste推荐并发而不是纯Golang或Golang加CUDA.更重要的是,有人说同样的想法是"在GPU上启动goroutine并通过渠道与它通信会不会很酷?".我认为这两个想法都很棒,因为我想尽可能少地改变现有代码,而不是重构整个程序.这个想法是否可行,或者是否有一些文件详细介绍了这个主题?

更新

似乎在Golang中有两个与HPC的绑定:

  • CUDA(<6.0):github.com/barnex/cuda5
  • OpenCL:github.com/rainliu/gocl

他们两个都没有记录,目前我得到的只是Macro13的答案,非常有帮助,但它更多的是关于java.所以请帮我一些Golang的详细资料.谢谢!

cuda hpc go opencl archlinux

22
推荐指数
0
解决办法
1万
查看次数

mpirun - 没有足够的插槽可用

通常当我使用mpirun时,我可以"超载"它,使用的处理器比我的计算机上的处理器多.例如,在我的四核mac上,我可以运行mpirun -np 29 python -c "print 'hey'"没问题.我现在在另一台机器上,这会引发以下错误:

$ mpirun -np 25 python -c "print 'hey'"
--------------------------------------------------------------------------
There are not enough slots available in the system to satisfy the 25 slots 
that were requested by the application:
  python

Either request fewer slots for your application, or make more slots available
for use.
--------------------------------------------------------------------------
Run Code Online (Sandbox Code Playgroud)

为什么不"超频"mpirun在这里工作?有没有办法可以克服此错误消息并使用比可用处理器更多的处理器成功运行?

hpc mpi openmpi

22
推荐指数
2
解决办法
2万
查看次数

使用slurm job id

当我在集群上启动计算时,我通常会有一个单独的程序在最后进行后处理:

sbatch simulation
sbatch --dependency=afterok:JOBIDHERE postprocessing
Run Code Online (Sandbox Code Playgroud)

我想避免错误输入并自动插入好的作业ID.任何的想法?谢谢

linux hpc batch-processing slurm

20
推荐指数
1
解决办法
6419
查看次数

你成功使用过GPGPU吗?

我很想知道是否有人编写了一个利用GPGPU的应用程序,例如使用nVidia CUDA.如果是这样,与标准CPU相比,您发现了哪些问题以及实现了哪些性能提升?

cuda hpc gpgpu

19
推荐指数
4
解决办法
3514
查看次数

以分布式方式枚举组合

我有一个问题,我必须分析500C5组合(255244687600)的东西.将其分布在10个节点的集群中,每个集群每秒处理大约10 ^ 6个组合,这意味着该作业将在大约7个小时内完成.

我遇到的问题是在10个节点上分配255244687600组合.我想给每个节点提供25524468760,但是我使用的算法只能顺序生成组合,我希望能够传递元素集和一系列组合指标,例如,[0 -10 ^ 7),[10 ^ 7,2.0 10 ^ 7)等,并让节点自己找出组合.

我目前使用的算法来自以下内容:

我考虑过使用一个主节点,它枚举每个组合并将工作发送到每个节点.然而,从单个节点迭代组合并来回通信工作所产生的开销是巨大的,并且随后将导致主节点成为瓶颈.

是否有任何良好的组合迭代算法可以实现有效/最佳的分布式枚举?

c++ algorithm distributed hpc combinatorics

16
推荐指数
1
解决办法
587
查看次数