C# 使用Microsoft Office Document Imaging(MODI) 识别 图片中的文字(OCR) - 隐客

时间:2024-02-22 09:27:36

今天才知道有这个东西,于是查了一下资料,发现真是个好东西,不过等真正用起来,才发现问题重重

一、我安装的office2010,已经没这玩意了。按照微软的建议,利用office2007安装包来单独安装了这个组件。

(后来在csdn上发现有人分离出来了MODI的安装包,但我没有测试,不知可用否)

二、在win7 系统上跑,会报错,而且错误写的并不详细,后来查了一下资料,说是要安装office2007 sp2 ,我去。。。。

后来在一个贴子的回复中,看到说,需要将项目生成设置成32位系统才行,我试了一下,果然可以了,评论永远都是亮点

三、如果图片的格式和扩展名不一致,则会报错,同时图片高度和宽图不能太小,小了也会报错。

四、通过代码中的一些内容可以发现,MODI其实相当的粗糙,并不能算是专业的组件。目前好像一定要通过文件才能读取,直接传一个image的参数是没有的,而且识别完了之后好像一直占用该图片文件,没有办法,只能用以下办法强制处理了。

md.Close(false);
md = null;
GC.Collect();

五、识别率其实真的不怎么样,我通过调整图片中文字的大小,还有字体,可以达到比较高的识别率。

六、做这个的目的,就是为了获取某个软件界面上的一些内容,没有办法,用金山词霸都取不到,我想还是算了,真的是绕了好大一个弯子。。。。