我正在制定客户端提案,他们需要升级其网络基础架构以支持托管ASP.NET应用程序.基本上,我需要估计具有已知用户数量(目前为250)的系统的峰值使用情况.一个简单的答案,如"你需要一个专用的T1线"可能就足够了,但我想有数据支持它.
另一个问题引用了NetLimiter,它看起来很漂亮,可以了解正在使用的内容.
我的一般想法是,我将启动网络应用程序,并使用系统,就像我预期它将在客户使用,真正在一个悠闲的步伐,在一定的时间跨度,然后将带宽使用倍数乘以用户除以时间.
这似乎不是很科学.对提案来说可能已经足够了,但我想看看是否有更好的方法.
我知道有一些可用于测试Web应用程序性能的加载工具,但似乎这些不能准确地模拟用户带宽测试的高峰用户负载(一次太多).
该平台是Windows/ASP.NET,应用程序托管在SharePoint(MOSS 2007)中.
CUDA编程指南指出了这一点
"带宽是性能最重要的门控因素之一.几乎所有对代码的更改都应该在它们如何影响带宽的背景下进行."
它继续计算理论带宽,其大约为每秒数百千兆字节.我不知道为什么可以读/写全局内存的字节数是对内核优化程度的反映.
如果我有一个内核,其在一开始确实对存储在共享存储器和/或寄存器中的数据密集型计算,只用单一的读取,并在从和全局内存到底写出来,肯定是有效带宽将很小,而内核本身可能非常有效.
任何人都能在这种情况下进一步解释带宽吗?
谢谢
我有一个应用程序,可以进行大量的二进制数据加载.我遇到过这样的情况:在加载某些二进制数据期间,不稳定的3G连接可能会间歇性地切断,从而导致问题.
有没有办法,使用模拟器或其他方法来测试低带宽/不稳定的连接方案?
我似乎记得Adobe Flash在他们的测试套件中有带宽模拟器.
我可以跟踪Android设备的整体带宽使用情况.我想知道是否有任何方法或方法,可能是API或类,可以帮助我跟踪每个应用程序或进程的带宽使用情况?
这个问题的原因?我想停止使用太多带宽和耗尽电池的所有那些进程或应用程序.
我们有DSL,我们如何计算可用带宽以便我们可以对数据包进行整形,我们可以假设以太网接口的带宽为100mbps但是,在DSL设备中,列车速率(带宽速率)根据不同而不同情况.如何获得可用带宽率(来自不同的)?有什么方法可以获得可用的带宽值吗?
基本上我希望能够在不到3g的时间内发送几秒延迟的"实时"馈送.如果质量很差,那就没关系.如果需要,我甚至可以使用4位灰度(尽管128-256种颜色更可取).如果有必要,我愿意以> 1fps的速度低至160x120.在这种最笨重的设置中完全未压缩意味着过度饱和的低带宽连接.
我应该简单地将快照视为图像吗?是否有人熟悉Bitmapfactory的功能,以获得最低质量的JPEG?
我应该查看PNG或GIF吗?我的理解是,固体领域最适合这些.我不确定我是否可以依赖固体场而不是天空的很大一部分,因为我希望控制一架发送回"视频"的无人机.具有几秒延迟的虚拟视频很好,甚至更好,因为我预计会丢失并重新获得服务器连接.
我在"3g"上获得128k的信号,但是我不能完全依赖它.我可以做任何必要的解码服务器端 - 这应该不是问题.
所以我问你,Stack,你想通过互联网从你的智能手机上看到,并且不能依赖于良好的连接.你怎么接近它?
如何获取Windows数据,如CPU使用率,物理内存,网络利用率和带宽,类似于我在任务管理器中看到的内容?我正在使用C++.
我已经读过,iperf基本上试图尽可能快地向连接发送尽可能多的信息报告吞吐量.此工具在确定两台机器之间可以提供的链接数据量时特别有用.
是否可以通过发送常规数据来收集相同的结果,就像不测试数据一样?
我想要做的就是这个; 在后台发送数据时,在后台收集统计信息(吞吐量和抖动).
所以有人能告诉我iperf如何计算这两个值吗?
前言:假设我在CUDA中使用NVIDIA GTX480卡.该卡的理论峰值全局内存带宽为177.4 GB/s:384*2*1848/8*1E9 = 177.4 GB/s
384来自内存接口宽度,2来自内存的DDR特性,1848是内存时钟频率(以MHz为单位),8来自我希望在Bytes中获得答案的事实.
可以为共享存储器计算类似的东西:每个存储体4个字节*32个存储体*每个周期0.5个存储体*1400MHz*15个SM = 1,344 GB/s
SM数量的上述因素,即15,因此,为了达到这个最大共享内存带宽,我需要让所有 15个SM读取共享内存.
我的问题:为了达到最大全局内存带宽,只从全局内存中读取一个 SM,或者所有SM是否同时尝试从全局内存中读取?更具体地说,假设我使用一个具有32个线程的块启动内核.然后,如果我在SM-0上有唯一的warp,并且我在内核中所做的所有操作都以合并的方式从全局内存中不间断地读取,那么我将达到177.4 GB/s吗?或者我应该启动至少15个块,每个块有32个线程,以便SM-0到SM-14上的15个warp同时尝试读取?
当务之急可能是运行一个基准测试来解决这个问题.我想知道为什么会发生什么,发生.
我确信之前已经回答了,但我找不到一个好的解释.
我正在编写一个图形程序,其中部分管道正在将体素数据复制到OpenCL页锁定(固定)内存.我发现这个复制程序是一个瓶颈,并对一个简单的性能做了一些测量std::copy.数据是浮点数,我要复制的每个数据块大小约为64 MB.
这是我的原始代码,在任何基准测试尝试之前:
std::copy(data, data+numVoxels, pinnedPointer_[_index]);
Run Code Online (Sandbox Code Playgroud)
data浮点指针在哪里,numVoxels是unsigned int,pinnedPointer_[_index]是引用固定OpenCL缓冲区的浮点指针.
由于我的性能很慢,我决定尝试复制较小的数据部分,看看我得到了什么样的带宽.我使用boost :: cpu_timer进行计时.我已经尝试运行它一段时间以及平均数百次运行,得到类似的结果.以下是相关代码以及结果:
boost::timer::cpu_timer t;
unsigned int testNum = numVoxels;
while (testNum > 2) {
t.start();
std::copy(data, data+testNum, pinnedPointer_[_index]);
t.stop();
boost::timer::cpu_times result = t.elapsed();
double time = (double)result.wall / 1.0e9 ;
int size = testNum*sizeof(float);
double GB = (double)size / 1073741842.0;
// Print results
testNum /= 2;
}
Copied 67108864 bytes in 0.032683s, 1.912315 GB/s
Copied 33554432 bytes in 0.017193s, 1.817568 GB/s
Copied 16777216 …Run Code Online (Sandbox Code Playgroud)