如何从Python指定运行器的输入文件?

dan*_*007 6 python mapreduce mrjob

我正在编写一个外部脚本,通过我的笔记本电脑上的Python mrjob模块运行mapreduce作业(不是在Amazon Elastic Compute Cloud或任何大型集群上).

我从mrjob文档中读到,我应该使用MRJob.make_runner()如下从单独的python脚本运行mapreduce作业.

mr_job = MRYourJob(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
    ...
Run Code Online (Sandbox Code Playgroud)

但是,如何指定要使用的输入文件?我想在我的mapreduce脚本和运行map reduce的其他python脚本所在的目录中使用文件"datalines.txt".此外,我如何指定输出?

我在mrjob文档中找不到允许我指定这些参数的函数.

jfs*_*jfs 5

入门指南建议从stdin或命令行提供的文件中读取输入:

mr_job = MRYourJob(args=["datalines.txt"])
Run Code Online (Sandbox Code Playgroud)