RTF格式文件大家并不陌生,但RTF文件的编码、解码却很难,因为RTF文件是富文本格式的,即文件中除了包含文本内容,还包含文本的格式信息,而这些信息并没有像后来的docx等采用XML来隔离格式和内容,因此解码很难。
一些仪器的数据报告以RTF格式输出,因为RTF可以使用写字板进行编辑,写字板程序在Windows系统中默认安装,因此输出的RTF格式文件易读写。
解析RTF文件,难以从解码入手,但可以依赖Windows的基础功能实现RTF文本内容的获取,具体而言就是依靠WinForm类库来读取RTF文件内容,当然,此种方式可以读取其中的文本内容,图片、表格样式将被忽略。
以下是示例代码:
RichTextBox rtBox = new RichTextBox();
string s = File.ReadAllText(fileName);
rtBox.Rtf = s;
string plainText = rtBox.Text;
return plainText;