1、使用文本文件(.txt) 进行数据存取的技巧总结 (相当的经典)由于本帖内容较多,部分转自他人的心得,因此,凡转贴的地方仅用“-转-”标注,原作者略去,在此对所有原作者表示感谢!特别说明:由于大家在 I/O 存取上以 txt 文件为主,且读取比存储更麻烦(存储的话 fwrite, fprintf 基本够用) ,因此下面的讨论主要集中在“txt 文件的读取 ”上。除了标注了“转” 之外,其余心得均出于本人经验之结果,欢迎大家指正、补充。一. 基本知识:-转-1. 二进制文件与文本文件的区别:将文件看作是由一个一个字节(byte) 组成的, 那么文本文件中的每个字节的最高位都是 0,也就是说文本文
2、件使用了一个字节中的七位来表示所有的信息,而二进制文件则是将字节中的所有位都用上了。这就是两者的区别;接着,第二个问题就是文件按照文本方式或者二进制方式打开,两者会有什么不同呢?其实不管是二进制文件也好,还是文本文件也好,都是一连串的0 和 1,但是打开方式不同,对于这些 0 和 1 的处理也就不同。如果按照文本方式打开,在打开的时候会进行 translate,将每个字节转换成 ASCII 码,而以按照二进制方式打开的话,则不会进行任何的 translate;最后就是文本文件和二进制文件在编辑的时候,使用的方式也是不同的。譬如,你在记事本中进行文本编辑的时候,你进行编辑的最小单位是字节(byt
3、e);而对二进制文件进行编辑的话,最小单位则是位(bit),当然我们都不会直接通过手工的方式对二进制文件进行编辑了。从文件编码的方式来看,文件可分为 ASCII 码文件和二进制码文件两种:ASCII 文件也称为文本文件,这种文件在磁盘中存放时每个字符对应一个字节,用于存放对应的 ASCII 码。例如,数 5678 的存储形式为: ASCII 码: 00110101 00110110 00110111 00111000 十进制码: 5 6 7 8 共占用 4 个字节。ASCII 码文件可在屏幕上按字符显示,例如源程序文件就是 ASCII 文件,用DOS 命令 TYPE 可显示文件的内容。由于是按
4、字符显示,因此能读懂文件内容。二进制文件是按二进制的编码方式来存放文件的。例如,数 5678 的存储形式为:00010110 00101110 只占二个字节。二进制文件虽然也可在屏幕上显示,但其内容无法读懂。C 系统在处理这些文件时,并不区分类型,都看成是字符流,按字节进行处理。输入输出字符流的开始和结束只由程序控制而不受物理符号(如回车符)的控制。因此也把这种文件称作“流式文件” 。 2. 文本模式(textmode) 和二进制模式(binarymode)有什么区别 ? 流可以分为两种类型:文本流和二进制流。文本流是解释性的,最长可达 255 个字符,其中回车/换行将被转换为换行符“n”,
5、(如果以“文本“方式打开一个文件,那么在读字符的时候,系统会把所有的“rn“ 序列转成“n“,在写入时把“n“转成“rn“ ) 。二进制流是非解释性的,一次处理一个字符,并且不转换字符。注: n 一般会操作系统被翻译成“行的结束“,即 LF(Line-Feed)r 会被翻译成“ 回车“,即 CR(Cariage-Return)对于文本文件的新行,在 UNIX 上,一般用n(LF)来表示, Mac 上用r(CR)来表示,Windows 上是用nr(CR-LF)来表示。 通常,文本流用来读写标准的文本文件,或者将字符输出到屏幕或打印机,或者接受键盘的输入;而二进制流用来读写二进制文件(例如图形或字
6、处理文档 ),或者读取鼠标输入,或者读写调制解调器。如果用文本方式打开二进制文件,会把“0D 0A”自动变换成“n”来存在内存中。写入的时候反向处理。而二进制方式打开的话,就不会有这个过程。但是,Unicode/UTF/UCS格式的文件,必须用二进制方式打开和读写。-上述基础其实大可以略过,简言之,对用户来说:在 matlab 中存储成为二进制还是文本文件取决于 fopen 的方式,如果用 wt,则存储为文本文件,这样用记事本打开就可以正常显示了;如果用 w 则存储为二进制文件,这样用记事本打开会出现小黑方块,要正常显示的话,可以用写字板或 UltraEdit 等工具打开。二. Matlab
7、的 I/O 文件操作使用技巧和总结:1. Matlab 支持的 I/O 文件(对应“取/存”操作)类型:(所有文件 I/O 程序不需要特殊的工具箱)http:/ 不支持 doc 格式的文档存取(因为 doc 文档包含很多格式控制符) ,请改用 txt 或者 dat 格式)2. Matlab 的 I/O 文件指南:http:/ binary, and MAT files.要得到 MATLAB 中可用来读写各种文件格式的完全函数列表,可以键入以下命令:help iofunMATLAB 中有两种文件 I/O 程序:high level and low level.High level routine
8、s: 包括现成的函数,可以用来读写特殊格式的数据,并且只需要少量的编程。Low level routines: 可以更加灵活的完成相对特殊的任务,需要较多的额外编程。High level routines 包括现成的函数,可以用来读写特殊格式的数据,并且只需要少量的编程。举个例子,如果你有一个包含数值和字母的文本文件(text file)想导入 MATLAB,你可以调用一些 low level routines 自己写一个函数,或者是简单的用 TEXTREAD 函数。使用 high level routines 的关键是:文件必须是相似的(homogeneous),换句话说,文件必须有一致的格
9、式。下面的段落描述一些 high level file I/O routines 并给出一些例子帮助理解概念。LOAD/SAVE主要的 high level file I/O routines 是 LOAD 和 SAVE 函数。LOAD可以读 MAT-file data 或者用空格间隔的格式相似的 ASCII data. SAVE 可以将 MATLAB 变量写入 MAT-file 格式或者空格间隔的 ASCII data。大多数情况下,语法相当简单。下面的例子用到数值由空格间隔的 ASCII file sample_file.txt :1 5 4 16 85 43 2 6 86 8 4 32
10、190 7 8 7 65 9 81 2 3Example:用 LOAD and SAVE 读写数据CODE:% Load the file to the matrix, M :M = load(sample_file.txt) % Add 5 to M :M = M +5 % Save M to a .mat file called sample_file_plus5.mat:save sample_file_plus5 M% Save M to an ASCII .txt file called sample_file_plus5.txt :save sample_file_plus5.tx
11、t M -ascii UIGETFILE/UIPUTFILEUIGETFILE/UIPUTFILE 是基于图形用户界面(GUI)的。会弹出对话框,列出当前目录的文件和目录,提示你选择一个文件。UIGETFILE 让你选择一个文件来写(类似 Windows 另存为选项?)。用 UIGETFILE,可以选择已存在的文件改写,也可以输入新的文件名。两个函数的返回值是所选文件名和路径。Example:用 UIGETFILE 从当前目录选择一个 M-fileCODE:% This command lists all the M-files in the current directory and% re
12、turns the name and path of the selected filefname,pname = uigetfile(*.m,Sample Dialog Box) 注意: UIGETFILE 一次只能选择一个文件。UIIMPORT/IMPORTDATAUIIMPORT 是一个功能强大,易于使用的基于 GUI 的 high level routine,用于读 complex data files。文件也必须是 homogeneous。IMPORTDATA 形成 UIIMPORT 的功能,不打开 GUI。可以将 IMPORTDATA 用于函数或者脚本中,因为在函数或者脚本中基于
13、GUI 的文件导入机制并不理想。下面的例子用到包含几行文件头和文本、数值数据的文件sample_file2.txt :This is a file header.This is file is an example.col1 col2 col3 col4A 1 4 612.000B 1 4 613.000C 1 4 614.000D 1 4 615.000Example: Using IMPORTDATA to read in a file with headers, text, and numeric dataCODE:% This reads in the file sample_file
14、2.txt and creates a% structure D that contains both data and text data.% Note the IMPORTDATA command specifies a white space % as the delimiter of the file, but IMPORTDATA can usually % detect this on its own D = importdata(sample_file2.txt,) % 原文有误?D = importdata(sample_file2.txt)可以通过访问结构 D 的数据和文本域
15、,来看结构 D 中的真实值,例如输入:data = D.datatext = D.textdata可以用 UIIMPORT 读同一个文件并得到同样的结构.注意: 对于 ASCII data, 你必须检验导入向导正确的识别了列分隔符。TEXTREAD/STRREADTEXTREAD 是一个强大的动态 high level routine,设计用来读 ASCII 格式的文本和/或数值数据文件。STRREAD 除是从字符串而不是文件读以外,类似于 TEXTREAD。两个函数可以用许多参数来改变其具体的工作方式,他们返回读入指定输出的数据。他们有效的提供给你一个“两全其美” 的方法,因为他们可以用一个
16、命令读入混合的 ASCII 和数值数据(high level routines 的做法),并且你可以改变他们以匹配你特定的应用(如同 low level routines 做到的)。例子:CODE:Example 1: Using TEXTREAD to read in an entire file into a cell array% This command reads in the file fft.m into the cell array, file file = textread(fft.m,%s,delimiter,n,whitespace,); CODE:Example 2:
17、Using STRREAD to read the words in a line% This command uses the cell array created in Example 1 to % read in each word of line 28 in file to a cell array, wordswords = strread(file28,%s,delimiter,) CODE:Example 3: Using TEXTREAD to read in text and numeric data from a file with headers% This comman
18、d skips the 2 header lines at the top of the file% and reads in each column to the 4 specified outputsc1 c2 c3 c4 = textread(sample_file2.txt,%s %s %s %s,headerlines,2) CODE:Example 4: Using TEXTREAD to read in specific rows of text and numeric data from a file% This command reads in rows B and C of
19、 the file. The headerlines% property is used to move down to the desired starting row and the % read operation is performed 2 times c1 c2 c3 c4 = textread(sample_file2.txt,. %s %s %s %s,2,headerlines,4) CODE:Example 5: Using TEXTREAD to read in only the numeric data from a file containing text and n
20、umbers% This command reads in only the numeric data in the file. The% headerlines property is used to move down to the first row % of interest and the first column of text is ignored with the % * operator c2 c3 c4 = textread(sample_file2.txt,%*s %d %d %f,headerlines,3) DLMREAD/DLMWRITE/CSVREADDLMREA
21、D 和 DLMWRITE 函数能够读写分隔的 ASCII data,而不是用 low level routines。他们比 low level routines 容易使用,Low level routines 用几行代码实现的功能可以用DLMREAD/DLMWRITE 简化成一行。CSVREAD 用来读分隔符是逗号的文件,是 DLMREAD 的特殊情况。当读空格和 Tab 分隔的电子数据表文件时,DLMREAD 特别有用。以sample_file.txt为例:CODE:Example 1: Using DLMREAD to read in a file with headers, text,
22、and numeric data % This reads in the file sample_file2.txt and creates a matrix, D,% with the numeric data this command specifies a white space as the% delimiter of the file D = dlmread(sample_file.txt,) CODE:Example 2: Using DLMREAD to extract the first 3 columns of the last 3 rows% This reads in t
23、he first 3 columns of the last 3 rows of% the data file sample_file.txtinto the matrix, D_partial.% 读文件 sample_file.txt 前 3 列后 3 行,到矩阵 D_partial.D_partial = dlmread(sample_file.txt,2 0 4 2) CODE:Example 3: Using DLMWRITE to write a comma delimited file% This creates a file called partialD.txt that c
24、onsists of % the first 3 columns of the last 3 rows of data where each% element is separated by a comma dlmwrite(partialD.txt,D_partial,) 注意: 保证 DLMREAD and DLMWRITE 指定范围的指标从 0 开始,而不是从 1 开始。WK1READ/WK1WRITEWK1READ 用来读 Lotus123 电子数据表文件的数据;WK1WRITE 用来写矩阵到 Lotus123 电子数据表文件。XLSREADXLSREAD 用来读 Excel 的数值和
25、文本数据。-三. 具体例子分析:Matlab 网站用两个例子非常详尽地介绍了各个命令的基本用法,实际中,面对手头上的数据,如何选用合适的命令呢?以下结合几个示例给出一些总结,大家举一反三就可以了:1. 纯数据(列数相同):源文件:CODE:0 3866.162 2198.938 141.1401 3741.139 2208.475 141.2522 3866.200 2198.936 141.1563 3678.048 2199.191 141.2304 3685.453 2213.726 141.2615 3728.769 2212.433 141.2776 3738.785 2214.38
26、1 141.2567 3728.759 2214.261 141.2288 3748.886 2214.299 141.2439 3748.935 2212.417 141.25310 3733.612 2226.653 141.23611 3733.583 2229.248 141.22312 3729.229 2229.118 141.186解答:对于这个 txt 文件,由于各行列数相同,故简单地使用 load,importdata 均可。2.字段名(中、英文字段均可)+数据:源文件:CODE:CH0 CH1 CH2 CH30.000123 0.000325 0.000378 0.0005
27、980.000986 0.000256 0.000245 0.000698解答:由于是记录的形式,因此各行列数必相同(缺少部分列时请自行在文件中补上 Inf 或 NaN) ,故直接使用 importdata 便可。3.注释(含有独立的数字串)+数据(列数相同):问题:这个文件有 4 列,但前 6 行是文字说明,4 列数字是从第 8 行开始的.现在我想把这个文件的前 2 列和文字说明提出来组成一个新的 dat 文件源文件:CODE:Group 2 12.02.2006 LimeiSamples of datas: 50000CH0 CH1 CH2 CH30.000123 0.000325 0.0
28、00378 0.0005980.000986 0.000256 0.000245 0.000698目标文件:CODE:Group 2 12.02.2006 LimeiSamples of datas: 50000CH0 CH10.000123 0.0003250.000986 0.000256解答:由于注释中含有独立的数字串,且注释部分没有明显的格式,这时候用 importdata, load等高级命令直接读取会失败,用 textread, dlmwrite 等格式化命令也不太合适,因此只能使用低级命令进行读取。 (当然了,可以跳过注释部分直接用高级命令读取数据,即:a b c d = tex
29、tread(filename,%f %f %f %f,headerlines,4); ) 。一个简单的、非通用的包含注释的读取方法如下:-转 -CODE:clc;clear;fid = fopen(exp.txt, r);fid_n=fopen(ex.dat,w);while feof(fid)tline=fgetl(fid);if isempty(tline)if double(tline(1)=48 把所有文件名读取到 list 细胞矩阵中,最后对 filenamei便可得到各文件名。(2) 然后是读取文件名的数据并存储:假设每个文件对应的数据是 m*n 的,则:CODE:k = leng
30、th(filename);Data = zeros(m,n,k);for ii = 1:kData(:,:,ii) = yourreadstyle(filenameii); %yourreadstyle 是对应的文件读取方式的函数end2. 连续读取多个文件的数据,并存放在多个矩阵(以文件名命名)中:假设每个文件对应的数据是 m*n 的,则以上述第二种文件名读取方法为例:CODE:k = length(filename);for ii = 1:kD = yourreadstyle(filenameii);eval(Data_, num2str(ii), = D;);end3. 文件名命名问题:
31、文件名为 abc00001,abc00002,. abc00009,abc00010,. abc00099,abc00100,.abc00879.准备把这些文件名给放到一个数组里面去。解答:CODE:a=cell(879,1);for k=1:879ak = sprintf(%.5d,k);end4. 上述各种文件格式、类型自动识别问题:可以利用正则表达式来处理,使之通用性较强。例如使用以下代码可以自动处理上面提到了例 1 到例 5 各种情形,不过由于存在自动判断,对某些例子(如例 1)效率自然要低一点,而对于另外的例子(如例 3、例 5)效率估计要高一点(少用了一个循环) 。CODE:fun
32、ction data=distilldata_eight(infile)%功能说明:%将保存数据的原始文件中的数值数据读入到一个 data 变量中(自动判断数据行)%使用说明:% infile原始数据文件名;% data=数据变量tmpfile=tmp2.mat;fidin=fopen(infile,r); % 打开原始数据文件(.list)fidtmp=fopen(tmpfile,w); % 创建保存数据文件(不含说明文字)while feof(fidin) % 判断是否为文件末尾tline=fgetl(fidin); % 从文件读入一行文本(不含回车键)if isempty(tline)
33、% 判断是否空行str = 0-9 | . | - | s | e | E; %正则表达式为:该行中是否包含除 - . E e 数字 和 空白字符 外的其他字符start = regexp(tline,str, once);if isempty(start)fprintf(fidtmp,%sn,tline);endendendfclose(fidin);fclose(fidtmp);data=textread(tmpfile);delete(tmpfile)5. 大量数据的读取问题:可以考虑使用循环分批读取(特别是在各数据是独立的时候) ,或者使用稀疏矩阵来实现(对此可以参阅本版精华贴: 原创
34、提高 matlab 运行速度和节省空间的一点心得(之三) ) 。另外,也可参考深入浅出 MATLAB 7_X 混合编程一书第一章6. 读取整个 txt 文件的内容(获得文件中的所有字符):CODE:f = fopen(yourfilename.txt,rt); % t 属性根据需要可省略x = fread(f,*char);fclose(f);7. 把维数不同的矩阵及其变量名保存到一个 txt 文件中,例如 a1 = 123; a2 = 1 2 3;4 5 6 ,希望得到的 txt 文件如下:QUOTE:a1:123a2:1 2 34 5 6如果写入的时候简单一点,则可以采用以下方式,不过读取
35、的时候比较麻烦:CODE:a1=123;a2=1 2 3;4 5 6;fid = fopen(myfile.txt, wt);for i=1:2fprintf(fid, %s: n %sn, a,int2str(i), mat2str(eval(a,int2str(i);endfclose(fid);相反,如果写入的时候复杂一点,则读取的时候会简单一点:CODE:a1=123;a2=1 2 3;4 5 6;fid = fopen(myfile.txt, wt);for i=1:2fprintf(fid, %s: n, a,int2str(i); b = eval(a,int2str(i);fprintf(fid, repmat(%d , 1, size(b,2), n, b);endfclose(fid);Matlab 中文论坛 : www.iLoveM