从MRjob的hdfs访问流输出

ton*_*ger 10 python hadoop mapreduce hdfs mrjob

我正在尝试使用Python驱动程序来运行迭代的MRjob程序.退出标准取决于计数器.

工作本身似乎在运行.如果我从命令行运行单个迭代,那么我可以hadoop fs -cat /user/myname/myhdfsdir/part-00000看到单次迭代的预期结果.

但是,我需要使用Python驱动程序来运行代码并从中访问计数器runner.这是因为它是一种迭代算法,需要计数器的值来确定退出标准.

OUTPUT_PATH = /user/myname/myhdfsdir
!hadoop fs -rm -r {OUTPUT_PATH}

from my_custom_MRjob import my_custom_MRjob

mr_job = my_custom_MRjob(args=["localDir/localTextFile.txt", 
                                     "-r", "hadoop", 
                                     "--output-dir=hdfs://"+OUTPUT_PATH, 
                                     "--no-output"])

while True:
    with mr_job.make_runner() as runner:
        print runner.get_opts()
        runner.run()
        with open('localDir/localTextFile.txt', 'w') as f:
            for line in runner.stream_output():
                key,value =  mr_job.parse_output_line(line)
                #
                f.write(key +'\t'+ value +'\n')
        print "End of MRjob iteration. Counters: {}".format(runner.counters())
        # read a particular counter
        # use counter value to evaluate exit criteria
        if exit_criteria_met:
            break
Run Code Online (Sandbox Code Playgroud)

这会产生以下错误:

IOErrorTraceback (most recent call last)
<ipython-input-136-aded8ecaa727> in <module>()
     25         runner.run()
     26         with open('localDir/localTextFile.txt', 'w') as f:
---> 27             for line in runner.stream_output():
     28                 key,value =  mr_job.parse_output_line(line)
     29                 #

/home/myname/.conda/envs/py27/lib/python2.7/site-packages/mrjob/util.pyc in _to_lines(chunks)
    391     leftovers = []
    392 
--> 393     for chunk in chunks:
    394         # special case for b'' standing for EOF
    395         if chunk == b'':

/home/myname/.conda/envs/py27/lib/python2.7/site-packages/mrjob/runner.pyc in cat_output(self)
    555                 yield b''  # EOF of previous file
    556 
--> 557             for chunk in self.fs._cat_file(filename):
    558                 yield chunk
    559 

/home/myname/.conda/envs/py27/lib/python2.7/site-packages/mrjob/fs/composite.pyc in _cat_file(self, path)
     75 
     76     def _cat_file(self, path):
---> 77         for line in self._do_action('_cat_file', path):
     78             yield line
     79 

/home/myname/.conda/envs/py27/lib/python2.7/site-packages/mrjob/fs/hadoop.pyc in _cat_file(self, filename)
    272 
    273         if returncode != 0:
--> 274             raise IOError("Could not stream %s" % filename)
    275 
    276     def mkdir(self, path):

IOError: Could not stream hdfs://hdfs:/user/myname/myhdfsdir/part-00000
Run Code Online (Sandbox Code Playgroud)

特别困惑和令人沮丧的是:hdfs://hdfs:/user/myname/myhdfsdir/part-00000.请注意hdfsURL中存在两个方案,但在第二个hdfs实例中只有一个正斜杠.我试过hdfs://在mrjob args中添加和删​​除文字:"--output-dir=hdfs://"+OUTPUT_PATH.在这两种情况下我都得到相同的错误签名.

如果我以"本地"模式而不是Hadoop运行驱动程序,我没有问题,我没有访问Hadoop引擎的明显且关键的例外.这很好用:

mr_job = my_custom_MRjob(args=["localDir/localTextFile.txt"])
Run Code Online (Sandbox Code Playgroud)

我需要在初始输入文件中读取,始终从本地文件系统读取(即使在Hadoop模式下).然后运行MRjob迭代,其输出将覆盖本地文件系统输入文件.然后从跑步者访问计数器并评估退出标准.如果不满足退出条件,请使用本地文件系统的输入再次运行作业,这次使用从上一次运行更新的本地输入文件.

Den*_*din 1

只要你有一条包含你的道路,hdfs:/你就不会成功,因为那永远不会有效。

在评论中您提到您尝试hdfs://手动添加,这可能是一个很好的技巧,但在您的代码中我没有看到您“清理”错误hdfs:/。因此,即使您添加了正确的前缀,行中的下一件事也将是错误的,并且代码仍然没有机会成功。

所以,请把它清理干净。


实用说明:这个问题是前一段时间提出的,如果软件本身有问题现在可能已经解决了。如果问题仍然存在,则您尝试使用的代码中可能存在一些奇怪的地方。也许可以从可靠来源的一个简单示例开始,以排除这种可能性。