将jupyter笔记本变成python脚本的最佳实践

kur*_*sis 37 python refactoring readability ipython-notebook jupyter

Jupyter(iPython)笔记本当之无愧地被认为是一个很好的工具,用于对代码进行原型设计并以交互方式进行各种机器学习.但是当我使用它时,我不可避免地遇到以下问题:

  • 笔记本电脑很快就变得过于复杂和混乱而无法进行维护和改进,而且我必须制作python脚本;
  • 当涉及到生产代码(例如每天需要重新运行的代码)时,笔记本电脑再次不是最好的格式.

假设我在jupyter中开发了一个整机学习管道,包括从各种来源获取原始数据,清理数据,特征工程和培训模型.现在用高效可读的代码从中制作脚本的最佳逻辑是什么?到目前为止,我曾经用几种方法解决它:

  1. 只需将.ipynb转换为.py,只需稍加修改,就可以将笔记本中的所有管道硬编码为一个python脚本.

    • '+':快
    • ' - ':脏,不灵活,维护不方便
  2. 制作一个包含许多函数的单个脚本(对于每一个或两个单元格大约有1个函数),尝试使用单独的函数组成管道的各个阶段,并相应地命名它们.然后通过指定所有参数和全局常量argparse.

    • '+':使用更灵活; 更可读的代码(如果您正确地将管道逻辑转换为函数)
    • ' - ':通常情况下,管道不能拆分成逻辑上完成的部分,这些部分可以成为函数而代码中没有任何怪癖.所有这些函数通常只需要在脚本中调用一次,而不是在循环,映射等内多次调用.此外,每个函数通常都会获取之前调用的所有函数的输出,因此必须将多个参数传递给每个函数.功能.
  3. 与point(2)相同,但现在将所有函数包装在类中.现在,所有全局常量以及每个方法的输出都可以存储为类属性.

    • '+':您不需要为每个方法传递许多参数 - 所有以前的输出都已存储为属性
    • ' - ':任务的整体逻辑仍未被捕获 - 它是数据和机器学习管道,而不仅仅是类.该类的唯一目标是创建,逐个调用所有方法,然后删除.除此之外,课程实施起来还很长.
  4. 使用多个脚本将笔记本转换为python模块.我没有试过这个,但我怀疑这是解决这个问题的最长方法.

我想,这种整体设置在数据科学家中非常普遍,但令人惊讶的是我无法找到任何有用的建议.

伙计们,请分享您的想法和经验.你有没有遇到过这个问题?你是怎么解决它的?

Rad*_*dek 11

我们遇到了类似的问题.然而,我们使用几个笔记本来对结果进行原型设计,毕竟这些结果也应该成为几个python脚本.

我们的方法是将代码放在一边,这些代码在这些笔记本中重复.我们将它放入python模块,该模块由每个笔记本导入并用于生产.我们不断迭代地改进这个模块,并添加我们在原型设计过程中发现的测试.

然后,笔记本变得非常像配置脚本(我们只是简单地将其复制到最终生成的python文件中)和几个原型设计检查和验证,我们在生产中不需要这些.

最重要的是我们不怕重构:)


Fra*_*anc 9

节省生命:在编写笔记本时,逐步将代码重构为函数,编写一些最小的assert测试和文档字符串.

之后,从笔记本到脚本的重构是很自然的.不仅如此,即使您没有计划将它们变成其他任何东西,它也可以让您在编写长笔记本时更轻松.

具有"最小"测试和文档字符串的单元格内容的基本示例:

def zip_count(f):
    """Given zip filename, returns number of files inside.

    str -> int"""
    from contextlib import closing
    with closing(zipfile.ZipFile(f)) as archive:
        num_files = len(archive.infolist())
    return num_files

zip_filename = 'data/myfile.zip'

# Make sure `myfile` always has three files
assert zip_count(zip_filename) == 3
# And total zip size is under 2 MB
assert os.path.getsize(zip_filename) / 1024**2 < 2

print(zip_count(zip_filename))
Run Code Online (Sandbox Code Playgroud)

将它导出到裸.py文件后,您的代码可能还没有被构建到类中.但它是值得的努力已经重构你的笔记本电脑,其中有一组记录的功能,每一个组简单的点assert声明,可以方便地移动到tests.py与测试pytest,unittest或你有什么.如果它有意义,那么将这些函数捆绑到类的方法之后就很容易了.

如果一切顺利,那么你需要做的就是写你的if __name__ == '__main__':和它的"钩子":如果你正在编写脚本来被终端调用你将要处理命令行参数,如果你正在写一个模块,你想要考虑它的API与 __init__.py文件等.

当然,这取决于预期的用例:将笔记本转换为小脚本与将其转换为完整的模块或包之间存在很大差异.

以下是笔记本到脚本工作流程的一些想法:

  1. 通过GUI将Jupyter Notebook导出到Python文件(.py).
  2. 删除不执行实际工作的"帮助"行:print语句,图表等.
  3. 如果需要,将您的逻辑捆绑到类中.唯一需要的额外重构工作应该是编写类docstrings和属性.
  4. 用脚本编写脚本的入口通道if __name__ == '__main__'.
  5. 将您assert的每个函数/方法的语句分开,并在其中充实最小的测试套件tests.py.