目前正在迪斯科实施PageRank.作为迭代算法,一次迭代的结果用作下一次迭代的输入.
我有一个代表所有链接的大文件,每行代表一个页面,行中的值代表它链接的页面.
对于Disco,我将此文件分成N个块,然后运行MapReduce一轮.结果,我获得了一组(页面,排名)元组.
我想把这个等级提供给下一次迭代.但是,现在我的mapper需要两个输入:图形文件和pageranks.
这似乎比必要的更复杂,并且作为一个非常简单的操作(使用典型的mapreduce算法),似乎我错过了一些可以真正简化方法的Disco.
有什么想法吗?
使用 Visual Studio 2010,我们有一个包含多个网站(不是 Web 应用程序项目)以及命令行和 winforms 项目的解决方案。所有目标都是.Net 2.0。许多项目在网站中都有对 ASMX Web 服务的 Web 引用。
Web 服务经常变化,因此当我们编译所有内容时,我们必须手动遍历所有项目并更新 Web 服务引用。我现在已成功使用disco.exe和wsdl.exe自动化此操作。但我担心 wsdl.exe 生成的代码与 VS 中的 Web 参考的手动更新之间的差异。
wsdl.exe 生成如下代码:
public WebServiceName() {
string urlSetting = System.Configuration.ConfigurationManager.AppSettings["WebServiceName"];
if ((urlSetting != null)) {
this.Url = urlSetting;
}
else {
this.Url = "http://example/webservicename.asmx";
}
}
Run Code Online (Sandbox Code Playgroud)
而VS生成的代码是这样的:
private bool useDefaultCredentialsSetExplicitly;
public WebServiceName() {
this.Url = global::ProjectName.Properties.Settings.Default.ProjectName_WebServiceNameWebService_WebServiceName;
if ((this.IsLocalFileSystemWebService(this.Url) == true)) {
this.UseDefaultCredentials = true;
this.useDefaultCredentialsSetExplicitly = false;
}
else {
this.useDefaultCredentialsSetExplicitly = true; …Run Code Online (Sandbox Code Playgroud) 我尝试使用基本默认设置运行 Disco Diffusion v5,但在尝试创建图像时出现此错误。有谁知道如何解决这一问题?
Starting Run: Horse 02(0) at frame 0
Prepping model...
RuntimeError Traceback (most recent call last)
<ipython-input-20-da8a92ac51ae> in <module>()
148 print('Prepping model...')
149 model, diffusion = create_model_and_diffusion(**model_config)
--> 150 model.load_state_dict(torch.load(f'{model_path}/{diffusion_model}.pt', map_location='cpu'))
151 model.requires_grad_(False).eval().to(device)
152 for name, param in model.named_parameters():
1 frames
/usr/local/lib/python3.7/dist-packages/torch/serialization.py in __init__(self, name_or_buffer)
240 class _open_zipfile_reader(_opener):
241 def __init__(self, name_or_buffer) -> None:
--> 242 super(_open_zipfile_reader, self).__init__(torch._C.PyTorchFileReader(name_or_buffer))
243
244
RuntimeError: PytorchStreamReader failed reading zip archive: failed finding central directory
Run Code Online (Sandbox Code Playgroud) 因此,问题是:1.对于以下问题,mapreduce开销是否过高?有没有人知道每个地图/减少周期(例如迪斯科)需要多长时间才能完成一项非常轻松的工作?2.对于这个问题,mapreduce有更好的替代方案吗?
在地图缩减术语中,我的程序由60个地图阶段和60个减少阶段组成,所有这些阶段需要在1秒内完成.我需要以这种方式解决的问题之一是使用大约64000个变量的最小搜索.用于搜索的粗糙矩阵是块矩阵,沿对角线的1000个块大小为64×64,并且在最右侧和底部具有一行块.最后一部分:块矩阵求逆算法显示了这是如何完成的.可以在一个mapreduce步骤中计算Schur补码S_A和S_D中的每一个.逆的计算又需要一步.
从我迄今为止的研究来看,mpi4py似乎是一个不错的选择.每个流程都可以执行计算步骤,并在每个步骤之后向客户端报告,客户端可以使用新的状态变量向后报告,以便继续循环.这样,过程状态不会丢失,计算可以通过任何更新继续进行. http://mpi4py.scipy.org/docs/usrman/index.html
这个wiki有一些建议,但有没有人对最发达的解决方案有一个方向:http: //wiki.python.org/moin/ParallelProcessing
谢谢 !