Python之文件读写详解

日期：2020-06-14 栏目：程序人生浏览：次

文件读写与字符编码

一、I/O操作概述

I/O在计算机中是指Input/Output，也就是Stream(流)的输入和输出。这里的输入和输出是相对于内存来说的，Input Stream（输入流）是指数据从外（磁盘、网络）流进内存，Output Stream是数据从内存流出到外面（磁盘、网络）。程序运行时，数据都是在内存中驻留，由CPU这个超快的计算核心来执行，涉及到数据交换的地方（通常是磁盘、网络操作）就需要IO接口。

那么这个IO接口是由谁提供呢？高级编程语言中的IO操作是如何实现的呢？

操作系统是个通用的软件程序，其通用目的如下：

硬件驱动

进程管理

内存管理

网络管理

安全管理

I/O管理

操作系统屏蔽了底层硬件，向上提供通用接口。因此，操作I/O的能力是由操作系统的提供的，每一种编程语言都会把操作系统提供的低级C接口封装起来供开发者使用，Python也不例外。

二、文件读写实现原理与操作步骤 1. 文件读写实现原理

文件读写就是一种常见的IO操作。那么根据上面的描述，可以推断Python也应该封装操作系统的底层接口，直接提供了文件读写相关的操作方法。事实上，也确实如此，而且Java、PHP等其他语言也是。

那么我们要操作的对象是什么呢？我们又如何获取要操作的对象呢？

由于操作I/O的能力是由操作系统提供的，且现代操作系统不允许普通程序直接操作磁盘，所以读写文件时需要请求操作系统打开一个对象（通常被称为文件描述符--file descriptor, 简称fd），这就是我们在程序中要操作的文件对象。

通常高级编程语言中会提供一个内置的函数，通过接收"文件路径"以及“文件打开模式”等参数来打开一个文件对象，并返回该文件对象的文件描述符。因此通过这个函数我们就可以获取要操作的文件对象了。这个内置函数在Python中叫open(), 在PHP中叫fopen(),

2. 文件读写操作步骤

不同的编程语言读写文件的操作步骤大体都是一样的，都分为以下几个步骤：

1）打开文件，获取文件描述符 2）操作文件描述符--读/写 3）关闭文件

只是不同的编程语言提供的读写文件的api是不一样的，有些提供的功能比较丰富，有些比较简陋。

需要注意的是：文件读写操作完成后，应该及时关闭。一方面，文件对象会占用操作系统的资源；另外一方面，操作系统对同一时间能打开的文件描述符的数量是有限制的，在Linux操作系统上可以通过ulimit -n 来查看这个显示数量。如果不及时关闭文件，还可能会造成数据丢失。因为我将数据写入文件时，操作系统不会立刻把数据写入磁盘，而是先把数据放到内存缓冲区异步写入磁盘。当调用close方法时，操作系统会保证把没有写入磁盘的数据全部写到磁盘上，否则可能会丢失数据。

三、文件打开模式

我们先来看下在Python、PHP和C语言中打开文件的函数定义

Python # Python2 open(name[, mode[, buffering]]) # Python3 open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None) PHP resource fopen ( string $filename , string $mode [, bool $use_include_path = false [, resource $context ]] ) C语言 int open(const char * pathname, int flags);

会发现以上3种编程语言内置的打开文件的方法接收的参数中，除了都包含一个“文件路径名称”，还会包含一个mode参数（C语言的open函数中的flags参数作用相似）。这么mode参数定义的是打开文件时的模式，常见的文件打开模式有：只读、只写、可读可写、只追加。不同的编程语言中对文件打开模式的定义有些微小的差别，我们来看下Python中的文件打开模式有哪些。

文件打开模式描述
r 以只读模式打开文件，并将文件指针指向文件头；如果文件不存在会报错
w 以只写模式打开文件，并将文件指针指向文件头；如果文件存在则将其内容清空，如果文件不存在则创建
a 以只追加可写模式打开文件，并将文件指针指向文件尾部；如果文件不存在则创建
r+ 在r的基础上增加了可写功能
w+ 在w的基础上增加了可读功能
a+ 在a的基础上增加了可读功能
b 读写二进制文件（默认是t，表示文本），需要与上面几种模式搭配使用，如ab，wb, ab, ab+（POSIX系统，包括Linux都会忽略该字符）

思考1： r+、w+和a+都可以实现对文件的读写，那么他们有什么区别呢？

r+会覆盖当前文件指针所在位置的字符，如原来文件内容是"Hello，World"，打开文件后写入"hi"则文件内容会变成"hillo, World"

w+与r+的不同是，w+在打开文件时就会先将文件内容清空，不知道它有什么用

a+与r+的不同是，a+只能写到文件末尾（无论当前文件指针在哪里）

思考2： 为什么要定义这些模式呢？为什么不能像我们用word打开一篇文档一样既可以读，又可以写，还可修改呢？

关于这个问题，我查了很多资料，也没找到很权威的说明。在跟同行朋友交流过程中，发现大家主要有两种观点：

跟安全有关，有这种观点的大部分是做运维的朋友，他们认为这就像linux上的rwx（读、写、执行）权限。

转载注明出处：https://www.heiqu.com/caffdd1e2c46f9d77ff37592b1ed18d3.html

Python之文件读写详解

相关推荐