dan*_*007 6 python mapreduce mrjob
我正在编写一个外部脚本,通过我的笔记本电脑上的Python mrjob模块运行mapreduce作业(不是在Amazon Elastic Compute Cloud或任何大型集群上).
我从mrjob文档中读到,我应该使用MRJob.make_runner()如下从单独的python脚本运行mapreduce作业.
mr_job = MRYourJob(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
...
Run Code Online (Sandbox Code Playgroud)
但是,如何指定要使用的输入文件?我想在我的mapreduce脚本和运行map reduce的其他python脚本所在的目录中使用文件"datalines.txt".此外,我如何指定输出?
我在mrjob文档中找不到允许我指定这些参数的函数.
入门指南建议从stdin或命令行提供的文件中读取输入:
mr_job = MRYourJob(args=["datalines.txt"])
Run Code Online (Sandbox Code Playgroud)