小编Ans*_*ari的帖子

Matlab ---将矢量拼接成函数调用的参数

我想将一个向量拼接成一个函数调用,但我找不到这样做的方法.可能吗？

为了扩展我的意思,我们说我们有x长度向量n和f带n参数的函数.我想f(x(1), x(2), ..., x(n))通过调用类似f(x)或类似的东西来打电话f(splice(x)).如果x是单元格数组而不是向量,则调用f(x{:})将获得所需的结果; 只有x向量时才会有一些等价物似乎是合理的.

我希望我缺少一些操作员或功能.我可以打电话y = num2cell(x)跟随f(y{:}),但这不是我正在寻找的.

matlab

zro*_*oth

2012 07-13

14
推荐指数

1
解决办法

2840
查看次数

当更多可用时,Spark仅使用一台工作机器

我正在尝试通过Spark并行化机器学习预测任务.我之前已经成功地使用过Spark多次其他任务,之前并没有遇到过并行化的问题.

在此特定任务中,我的群集有4个工作人员.我在一个带有4个分区的RDD上调用mapPartitions.map函数从磁盘加载一个模型(一个bootstrap脚本分配执行此操作所需的所有内容;我已经验证它存在于每个从属机器上)并对RDD分区中的数据点执行预测.

代码运行,但只使用一个执行程序.其他执行程序的日志说"Shutdown hook called".在不同的代码运行中,它使用不同的机器,但一次只使用一台.

如何让Spark一次使用多台机器？

我通过Zeppelin笔记本在Amazon EMR上使用PySpark.代码片段如下.

%spark.pyspark

sc.addPyFile("/home/hadoop/MyClassifier.py")
sc.addPyFile("/home/hadoop/ModelLoader.py")

from ModelLoader import ModelLoader
from MyClassifier import MyClassifier

def load_models():
    models_path = '/home/hadoop/models'
    model_loader = ModelLoader(models_path)

    models = model_loader.load_models()
    return models

def process_file(file_contents, models):
    filename = file_contents[0]
    filetext = file_contents[1]
    pred = MyClassifier.predict(filetext, models)
    return (filename, pred)

def process_partition(file_list):
    models = load_models()
    for file_contents in file_list:
        pred = process_file(file_contents, models)
        yield pred


all_contents = sc.wholeTextFiles("s3://some-path", 4)
processed_pages = all_contents.mapPartitions(process_partition)
processedDF = processed_pages.toDF(["filename", "pred"])
processedDF.write.json("s3://some-other-path", mode='overwrite')

Run Code Online (Sandbox Code Playgroud)

预期有四个任务,但它们都在同一个执行程序上运行!

我正在运行集群,并且可以在资源管理器中提供可用的日志.我只是不知道在哪里看.

python apache-spark pyspark

Ans*_*ari

2017 10-23

13
推荐指数

1
解决办法

1730
查看次数

使用PHP从1.3GB文本文件中提取文本的最佳方法？

我有一个1.3GB的文本文件,我需要从PHP中提取一些信息.我已经对它进行了研究,并提出了一些不同的方法来做我需要做的事情,但总是稍微澄清一下哪种方法最好或者另一种更好的方法存在我不知道的事情？

我在文本文件中需要的信息只是每行的前40个字符,文件中有大约1700万行.每行40个字符将插入数据库中.

我的方法如下;

// REMOVE TIME LIMIT
set_time_limit(0);
// REMOVE MEMORY LIMIT
ini_set('memory_limit', '-1');
// OPEN FILE
$handle = @fopen('C:\Users\Carl\Downloads\test.txt', 'r');
if($handle) {
    while(($buffer = fgets($handle)) !== false) {
        $insert[] = substr($buffer, 0, 40);
    }
    if(!feof($handle)) {
        // END OF FILE
    }
    fclose($handle);
}

Run Code Online (Sandbox Code Playgroud)

以上是每次读取每行并获取数据,我将所有数据库插入排序,在事务中一次执行50次插入.

下一个方法与上面的方法相同但是file()在执行foreach获取数据之前调用将所有行存储在数组中？我不确定这种方法,因为数组基本上有超过1700万的值.

另一种方法是仅提取文件的一部分,用未使用的数据重写文件,并在执行该部分之后使用header调用重新调用脚本？

在以最快速有效的方式完成这项工作方面,最好的方法是什么？或者有没有更好的方法来解决这个问题？

此外,我计划将此脚本与wamp一起使用,但是在测试中运行它时,即使将脚本时间设置为0,也会导致超时问题.有没有办法可以执行脚本运行而无需通过浏览器访问页面？

php file

Gri*_*iff

2012 06-07

5
推荐指数

1
解决办法

619
查看次数