我们可以根据需要将文档中的文字信息或者图片提取出来

时间:2021-09-11 08:26:15

在图文混排的文档中,我们可以按照需要将文档中的文字信息或者图片提取出来,通过C#代码可以提取WordPDF文件中的文本和图片,那么同样的,我们也可以提取PPT幻灯片傍边的文本和图片。本篇文档将讲述如何使用C#来实现提取PPT文本和图片的操纵。首先也是需要安置组件Spire.Presentation,然后添加引用dll文件到项目中。下面是主要的代码法式。

原文档:


1. 提取文本

法式一:创建一个Presentation实例并加载文档

Presentation presentation = newPresentation(@"C:\Users\Administrator\Desktop\sample.pptx", FileFormat.Pptx2010);

法式二:创建一个StringBuilder东西

StringBuilder sb = newStringBuilder();

法式三:遍历幻灯片及幻灯片中的图形,提取文本内容

 foreach (ISlide slide in presentation.Slides)             {                 foreach (IShape shape in slide.Shapes)                 {                     if (shape isIAutoShape)                     {                         foreach (TextParagraph tp in (shape asIAutoShape).TextFrame.Paragraphs)                         {                             sb.Append(tp.Text +Environment.NewLine);                         }                     }                 }             }

法式四:写入Txt文档

File.WriteAllText("target.txt", sb.ToString()); Process.Start("target.txt");



2. 提取图片 

这里提取图片有两种情况,一种是提取整个文档中的所有图片,此外一种是只提取文档中某一特定幻灯片中的图片。

 2.1提取所有图片

法式一:初始化一个Presentation类实例,并加载文档

Presentation ppt = newPresentation(); ppt.LoadFromFile(@"C:\Users\Administrator\Desktop\sample.pptx");

法式二:遍历文档中图片,提取图片并生存

for (int i = 0; i <ppt.Images.Count; i++)  {      Image image = ppt.Images[i].Image;      image.Save(string.Format(@"..\..\Images{0}.png", i));  }

提取的图片已生存到项目文件夹下


2.2.提取特定幻灯片中的图片

法式一:创建一个Presentation类实例,并加载文档

Presentation PPT = newPresentation(); PPT.LoadFromFile(@"C:\Users\Administrator\Desktop\sample.pptx");

法式二:获取第三张幻灯片,提取并生存图片

int i = 0; foreach (IShape s inPPT.Slides[2].Shapes) {     if (s isSlidePicture)     {         SlidePicture ps = s asSlidePicture;        ps.PictureFill.Picture.EmbedImage.Image.Save(string.Format("{0}.png", i));         i++;     }     if (s isPictureShape)     {         PictureShape ps = s asPictureShape;         ps.EmbedImage.Image.Save(string.Format("{0}.png", i));         i++;     } }

提取的第三张幻灯片中的图片已生存至指定位置