C#编程读取pdf文件

时间:2013-09-20 04:34:42
【文件属性】:

文件名称:C#编程读取pdf文件

文件大小:13.77MB

文件格式:RAR

更新时间:2013-09-20 04:34:42

pdfbox 从pdf文档中抽取Text文本

利用PDFBox的IKVM版本能比较好地从PDF中提取文本 并且能够根据需要显示 行分隔符、字段分隔符、也分隔符等等 便于使用


【文件预览】:
WFAPdf
----WFAPdf()
--------bin()
--------Form1.Designer.cs(2KB)
--------Program.cs(487B)
--------obj()
--------Form1.cs(2KB)
--------WFAPdf.csproj(4KB)
--------Form1.resx(6KB)
--------Properties()
----WFAPdf.suo(15KB)
----WFAPdf.sln(908B)

网友评论

  • 希望能学到有用的知识
  • 希望能抽取到中文内容
  • 试过,pdf里如果是英文 和 有图片 pdfStripper.getText(doc); 报错
  • 只是基本的一个函数用法, 倒出来的数据没有格式,没有办法用哈。
  • 用得上,能够基本完成读取pdf文件的功能。
  • 能够基本完成读取pdf文件的功能,属于基础Demo,适合初学者学习和使用
  • 需要VS2008打开啊 不错 我想再做个PDF内容转图片的程序就好了
  • 用得上,直接读取成文本形式然后再做处理。
  • 不错,就是读出来数字和文档位置有错位+1
  • 可以,蛮简单的
  • 读PDF到程序里,然后写到TXT文件中。完全可行
  • 不知道为什么,我在运行到“string text = pdfStripper.getText(doc);” 就会抛出异常An unhandled exception of type 'System.NullReferenceException' occurred in PDFBox-0.7.3.dll Additional information: Object reference not set to an instance of an object. 有没有谁能知道为什么
  • 还可以吧。
  • 不错,就是读出来数字和文档位置有错位
  • 只能读取文本,适用部分PDF,也不错了
  • 简单明了,很好用,但是只适用部分PDF
  • 还可以,可以满足我的需要
  • 我想读取格式信息,貌似不行
  • 还不错 可以转换成txt,但是如何转成word?
  • 很好的文件。现在正在愁如何将PDF中的图片提取