使用 Python 从二进制文件复制会插入新字节 (?)

Question

使用 Python 从二进制文件复制会插入新字节 (?)

我正在尝试打开由测量设备创建的文件，找到与元数据对应的字节，然后将其他所有内容写入新的二进制文件。（元数据部分不是问题：我知道标题并且可以轻松找到它们。我们不用担心。）

问题是：当我打开文件并将字节写入新文件时，会添加新字节，这会弄乱相关数据。具体来说，每次原始文件中有一个'0A'字节，新文件在它之前就有一个'0D'字节。我经历了几次修改代码以找到问题的迭代。这是最新和最简单的版本，以三种不同的方式产生相同的结果：

import os
import mmap

file_name = raw_input('Name of the file to be edited: ')
f = open(file_name, 'rb') 

#1st try: using mmap, to make the metadata sarch easier
s = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
full_data = s.read(len(s))
with open(os.path.join('.', 'edited', ('[mmap data]' + file_name + '.bin')), 'a') as data_mmap:
    data_mmap.write(full_data)

#2nd try: using bytes, in case mmap was giving me trouble

f_byte = bytes(f.read())
with open(os.path.join('.', 'edited', ('[bytes data]' + file_name + '.bin')), 'a') as data_bytes:
    data_bytes.write(f_byte)

s.close()
f.close()

#3rd try: using os.read/write(file) instead of file.read() and file.write().
from os.path import getsize

o = os.open(file_name,os.O_BINARY)  #only available on Windows
f_os = bytes(os.read(o,getsize(file_name)))
with open(os.path.join('.', 'edited', ('[os data]' + file_name + '.bin')), 'a') as data_os:
    os.write(data_os.fileno(),f_os)

os.close(o)

Run Code Online (Sandbox Code Playgroud)

生成的文件都是相同的（与 HxD 相比）。除了单个新字节之外，它们几乎与原始文件相同。例如，从偏移量 0120 开始，原始文件读取：A0 0A 00 00 而新文件读取：A0 0D 0A 00 ...然后一切都完全相同，直到原始文件中下一次出现 0A，其中再次出现0D 字节出现。

由于代码非常简单，我假设错误来自读取函数（或者可能来自操作系统的一些不可避免的固有行为......我在 Windows 上使用 python 2.7，顺便说一句。）我一开始也怀疑数据格式，但在我看来它应该无关紧要。我只是复制一切，不管价值如何。

我没有找到可以提供帮助的文档，所以......有人知道是什么原因造成的吗？

编辑：顺便说一下，相同的脚本在 Linux 上运行良好。所以虽然这不是一个大问题，但它非常非常烦人。

Answer 1

Ser*_*sta 5

欢迎来到行尾标记的世界！在 Windows 下以文本模式打开文件时，任何原始\n（十六进制 0x0a）都将被写入\r\n（十六进制 0x0d 0x0a）。

幸运的是，它很容易修复：只需以二进制模式打开文件（注意b）：

with open(..., 'ab') as data_...:

Run Code Online (Sandbox Code Playgroud)

不需要的\r将不再打扰您:-)

归档时间：	9 年，9 月前
查看次数：	1194 次
最近记录：	9 年，9 月前