Python脚本可以读取/写入的(CSV)文件大小是否有限制?

sky*_*gle 1 python csv ms-access odbc

明天我将编写一个Python脚本,首先将旧的MS Access数据库中的所有数据检索到CSV文件中,然后进行一些数据清理,整理等工作之后,将数据导入Linux上的mySQL数据库中。

我打算使用pyodbc建立与MS Access数据库的连接。我将在Windows环境中运行初始脚本。

该数据库具有IIRC超过五百万行的数据。我的问题是:

  1. 记录数是否值得关注?(即我会达到一些极限)吗?
  2. 是否有更好的临时数据文件格式(而不是CSV)?

我之所以选择CSv,是因为它非常简单明了(并且我是Python新手)-但我希望听到有人做过类似的事情。

Gle*_*ard 5

只要您正确地进行迭代并且不要尝试将整个文件加载到内存中,csvfile.reader和csvfile.writer的内存使用量就与记录数不成比例。这就是迭代器协议存在的原因之一。同样,csvfile.writer直接写入磁盘。它不受可用内存的限制。您可以使用这些记录处理任意数量的记录,而没有内存限制。

对于简单的数据结构,CSV很好。与XML等更复杂的格式相比,获得快速,渐进式的CSV访问要容易得多(提示:pulldom的速度很慢)。