• 5.4 读写字节数据
    • 问题
    • 解决方案
    • 讨论

    5.4 读写字节数据

    问题

    你想读写二进制文件,比如图片,声音文件等等。

    解决方案

    使用模式为 rbwbopen() 函数来读取或写入二进制数据。比如:

    1. # Read the entire file as a single byte string
    2. with open('somefile.bin', 'rb') as f:
    3. data = f.read()
    4.  
    5. # Write binary data to a file
    6. with open('somefile.bin', 'wb') as f:
    7. f.write(b'Hello World')

    在读取二进制数据时,需要指明的是所有返回的数据都是字节字符串格式的,而不是文本字符串。类似的,在写入的时候,必须保证参数是以字节形式对外暴露数据的对象(比如字节字符串,字节数组对象等)。

    讨论

    在读取二进制数据的时候,字节字符串和文本字符串的语义差异可能会导致一个潜在的陷阱。特别需要注意的是,索引和迭代动作返回的是字节的值而不是字节字符串。比如:

    1. >>> # Text string
    2. >>> t = 'Hello World'
    3. >>> t[0]
    4. 'H'
    5. >>> for c in t:
    6. ... print(c)
    7. ...
    8. H
    9. e
    10. l
    11. l
    12. o
    13. ...
    14. >>> # Byte string
    15. >>> b = b'Hello World'
    16. >>> b[0]
    17. 72
    18. >>> for c in b:
    19. ... print(c)
    20. ...
    21. 72
    22. 101
    23. 108
    24. 108
    25. 111
    26. ...
    27. >>>

    如果你想从二进制模式的文件中读取或写入文本数据,必须确保要进行解码和编码操作。比如:

    1. with open('somefile.bin', 'rb') as f:
    2. data = f.read(16)
    3. text = data.decode('utf-8')
    4.  
    5. with open('somefile.bin', 'wb') as f:
    6. text = 'Hello World'
    7. f.write(text.encode('utf-8'))

    二进制I/O还有一个鲜为人知的特性就是数组和C结构体类型能直接被写入,而不需要中间转换为自己对象。比如:

    1. import array
    2. nums = array.array('i', [1, 2, 3, 4])
    3. with open('data.bin','wb') as f:
    4. f.write(nums)

    这个适用于任何实现了被称之为”缓冲接口”的对象,这种对象会直接暴露其底层的内存缓冲区给能处理它的操作。二进制数据的写入就是这类操作之一。

    很多对象还允许通过使用文件对象的 readinto() 方法直接读取二进制数据到其底层的内存中去。比如:

    1. >>> import array
    2. >>> a = array.array('i', [0, 0, 0, 0, 0, 0, 0, 0])
    3. >>> with open('data.bin', 'rb') as f:
    4. ... f.readinto(a)
    5. ...
    6. 16
    7. >>> a
    8. array('i', [1, 2, 3, 4, 0, 0, 0, 0])
    9. >>>

    但是使用这种技术的时候需要格外小心,因为它通常具有平台相关性,并且可能会依赖字长和字节顺序(高位优先和低位优先)。可以查看5.9小节中另外一个读取二进制数据到可修改缓冲区的例子。

    原文:

    http://python3-cookbook.readthedocs.io/zh_CN/latest/c05/p04_read_write_binary_data.html