复杂验证码识别问题

时间:2022-09-25 09:02:03
先上图
复杂验证码识别问题
复杂验证码识别问题
复杂验证码识别问题
复杂验证码识别问题
像这种的验证码如何识别
给个思路也给分!

26 个解决方案

#1


本来是用OCR技术的,但是为了防止你这种人呢,
所以加了模糊出理,OCR就不好用了

最后的解决方法就只能是人工识别。

#2


引用 1 楼 rtdb 的回复:
本来是用OCR技术的,但是为了防止你这种人呢,
所以加了模糊出理,OCR就不好用了

最后的解决方法就只能是人工识别。

 。。。。。

#3


up!来个搞这个的

#4


识别不了!作为人,我都识别不了2和4。

#5


我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。

#6


我表示我的眼睛都识别不出来

#7


引用 5 楼 caozhy 的回复:
我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。


既然电脑无法识别,那怎么判断验证码的输入是否正确呢???

#8


引用 7 楼 wangdahu888 的回复:
Quote: 引用 5 楼 caozhy 的回复:

我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。


既然电脑无法识别,那怎么判断验证码的输入是否正确呢???


这个很简单,可以设定一个容错率。也就是让多个不同用户输入相同的文本去比较。从概率上说,错的一样的概率是很低的。一般让你识别两个单词,一个是机器生成的,那个才是真正起到验证码作用的。

#9


引用 5 楼 caozhy 的回复:
我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。



我只是好奇,第一个识别图片的人,计算机怎么知道验证码对不对呢?
还是在同一瞬间,有许多人同时在识别这个验证码,然后根据概率来决定正确的文本?

#10


引用 9 楼 liucqa 的回复:
Quote: 引用 5 楼 caozhy 的回复:

我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。



我只是好奇,第一个识别图片的人,计算机怎么知道验证码对不对呢?
还是在同一瞬间,有许多人同时在识别这个验证码,然后根据概率来决定正确的文本?


呵呵,是先画上去再做模糊处理的

#11


引用 9 楼 liucqa 的回复:
Quote: 引用 5 楼 caozhy 的回复:

我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。



我只是好奇,第一个识别图片的人,计算机怎么知道验证码对不对呢?
还是在同一瞬间,有许多人同时在识别这个验证码,然后根据概率来决定正确的文本?


不用同一时间,只要让不同用户交替识别就可以了。

#12


引用 5 楼 caozhy 的回复:
我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。
这个典故流弊啊

#13


引用 5 楼 caozhy 的回复:
我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。

这个逆天了

#14


up!还有能给点提示的没有!

#15


我觉得我应该把这个故事说的更详细一点,以下文字来源网上:


老网民们大概都记得,刚开始上网的时候,是不存在验证码(captcha)这么一种东西的。这造成的结果是,垃圾评论和垃圾邮件可以轻松通过任何一个网站的注册程序,通过各种方式轰炸人民群众的眼球。

 最先想要解决这一问题的是雅虎——作为互联网时代早期最重要的免费邮件提供商,他们一方面要解决用户们每天遇到的数以百计的垃圾邮件轰炸,另一方面,他们自己的免费邮箱,恰恰又是垃圾邮件的最爱——耗费无数资源所阻止的垃圾邮件,都来自于自己的服务器。这让雅虎开始认真考虑如何解决人机辨识问题。

 他们找到一位当时刚刚21岁的天才——Luis von Ahn。 而Luis Von Ahn给出的方案,就是这个让人民群众微微皱眉,但是让计算机耸肩挠头的验证码。计算机辨识技术还很落后,对于经过扭曲、污染的文字,无法辨识。而人类却可以轻松认出这些文字。这是一个简单而巧妙的设计,计算机先是产生一个随机的字符串,然后用程序把这个字符串的图像进行随机的污染,扭曲,再显示给显示器前的人或者机器。凡是能够辨识这些字符的,即为人类。

 故事还没完,Luis Von Ahn是那种追求完美的科学家。当全世界数以十亿计的人每天都会浪费几秒钟的时间参与辨认文字这一简单活动的时候,他开始思考,其中浪费的人脑智力是否能得到更好的应用呢?Luis Von Ahn的最终设计是,让人们用这些脑力解决一些计算机无法解决的“图书数字化”。

 在计算机时代以前,印刷术已经存在了数百年,但这些印刷术所产生的书本和报纸等等,对于计算机来说都是模拟信号,仅以图像的形式存在,而非以数字化的形式存在。但是,早期的印刷术并不精确,文字大小不一,形象有差别。而且因为印刷品年代久远,拥有各种细微的缺损和污染。这对人眼来说不是什么大问题,但对计算机来说就麻烦了。

 因此,2002年,luis Von Ahn开始让captcha引用各种无法被计算机辨识的文字图像,目前,已经有上万网站采用他的新一代captcha。每天帮助辨识数以百万计的古老文档。问题在于,对于最初的capcha来说,计算机实际上是知道答案的。而Luis希望人们辨识的文字,计算机实际上是不知道答案的,那如何能验证返回的答案到底是不是真的呢?

 解决这个问题的方法依然体现了Luis一贯的简洁和优美,他让人们每次辨识两个,而非一个验证码,其中一个来自于计算机随机生成的字符串,而另一个则是从文档中选取的计算机不认识的字符图像。只要人们对前一个字符串给出的答案是正确的,那么就判定,人们对后一个验证码的辨识是正确的。

 用这一方法,luis的captcha2.0 已经帮助完成了整个纽约时报130年的报纸存档数字化——这一本可能花费无数时间和资源的工程,在几个月之内就由各位网友们完成了。

#16


引用 5 楼 caozhy 的回复:
我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。



他们应该去找 苹果,苹果手机都支持 手写输入的,即使你写的再烂 它的识别率依然很高!

#17


问题在于,对于最初的capcha来说,计算机实际上是知道答案的。而Luis希望人们辨识的文字,计算机实际上是不知道答案的,那如何能验证返回的答案到底是不是真的呢?
解决这个问题的方法依然体现了Luis一贯的简洁和优美,他让人们每次辨识两个,而非一个验证码,其中一个来自于计算机随机生成的字符串,而另一个则是从文档中选取的计算机不认识的字符图像。只要人们对前一个字符串给出的答案是正确的,那么就判定,人们对后一个验证码的辨识是正确的。


http://www.guokr.com/post/17836/

#18


引用 16 楼 chenlunmy006 的回复:
Quote: 引用 5 楼 caozhy 的回复:

我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。



他们应该去找 苹果,苹果手机都支持 手写输入的,即使你写的再烂 它的识别率依然很高!


手写输入和文字识别完全是不同的。手写输入额外能得知笔顺(尽管手写输入为逆笔顺做了容错,但是笔顺对于识别文字的意义仍然是重要的),手写输入是一个可以自学习的系统,用户不断地纠正它,这样首先输入可以针对特定的人改进识别能力,手写输入不存在文字拆分的问题。等等。

#19


复杂验证码识别问题找找有没有模糊复原的算法  或者试试这个 http://www.dama2.com/

#20


觉得苹果或者那一家公司的技术领先世界只是业余大众的一种误解。事实上,还没有哪家公司能直接将实验室的成果立刻变成产品的。苹果说白了,也就是一个整合技术的创意公司而已。它用的技术,其实也是很保守的。

#21


为了防止你这类人,我做的验证码还要扭曲贴近。。。

#22


引用 19 楼 zhuankeshumo 的回复:
复杂验证码识别问题找找有没有模糊复原的算法  或者试试这个 http://www.dama2.com/


这人工识别的钱不好赚啊,还3秒,还96%准确性。

lz的这个我3秒连50%都悬。

#23


引用 22 楼 caozhy 的回复:
Quote: 引用 19 楼 zhuankeshumo 的回复:

复杂验证码识别问题找找有没有模糊复原的算法  或者试试这个 http://www.dama2.com/


这人工识别的钱不好赚啊,还3秒,还96%准确性。

lz的这个我3秒连50%都悬。
除了最后一个其他3个都好确认  如果可以把模糊效果处理掉就好办了

#24


引用 22 楼 caozhy 的回复:
Quote: 引用 19 楼 zhuankeshumo 的回复:

复杂验证码识别问题找找有没有模糊复原的算法  或者试试这个 http://www.dama2.com/


这人工识别的钱不好赚啊,还3秒,还96%准确性。

lz的这个我3秒连50%都悬。
应该是先人工识别 训练识别率 

#25


图2和图4,作为人类我觉得我很难识别出来。
这样的识别码单纯用程序差不多没什么办法破解。

但并不代表无法破解。

你可以把他们当做旧报纸上的字,按照yahoo的方法全部识别出来,这样就破解掉了。

前提是你要有yahoo那么多的用户。

#26


引用 楼主 chenlunmy006 的回复:
先上图
复杂验证码识别问题
复杂验证码识别问题
复杂验证码识别问题
复杂验证码识别问题
像这种的验证码如何识别
给个思路也给分!

以前到是可以做出来,网上一大把,但是加上噪点和横条,实在不知道怎么去掉。
目测第二张图我都识别不了,别指望机器了。LZ可以看看《图形学》,或许对你有帮助~~~

#1


本来是用OCR技术的,但是为了防止你这种人呢,
所以加了模糊出理,OCR就不好用了

最后的解决方法就只能是人工识别。

#2


引用 1 楼 rtdb 的回复:
本来是用OCR技术的,但是为了防止你这种人呢,
所以加了模糊出理,OCR就不好用了

最后的解决方法就只能是人工识别。

 。。。。。

#3


up!来个搞这个的

#4


识别不了!作为人,我都识别不了2和4。

#5


我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。

#6


我表示我的眼睛都识别不出来

#7


引用 5 楼 caozhy 的回复:
我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。


既然电脑无法识别,那怎么判断验证码的输入是否正确呢???

#8


引用 7 楼 wangdahu888 的回复:
Quote: 引用 5 楼 caozhy 的回复:

我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。


既然电脑无法识别,那怎么判断验证码的输入是否正确呢???


这个很简单,可以设定一个容错率。也就是让多个不同用户输入相同的文本去比较。从概率上说,错的一样的概率是很低的。一般让你识别两个单词,一个是机器生成的,那个才是真正起到验证码作用的。

#9


引用 5 楼 caozhy 的回复:
我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。



我只是好奇,第一个识别图片的人,计算机怎么知道验证码对不对呢?
还是在同一瞬间,有许多人同时在识别这个验证码,然后根据概率来决定正确的文本?

#10


引用 9 楼 liucqa 的回复:
Quote: 引用 5 楼 caozhy 的回复:

我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。



我只是好奇,第一个识别图片的人,计算机怎么知道验证码对不对呢?
还是在同一瞬间,有许多人同时在识别这个验证码,然后根据概率来决定正确的文本?


呵呵,是先画上去再做模糊处理的

#11


引用 9 楼 liucqa 的回复:
Quote: 引用 5 楼 caozhy 的回复:

我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。



我只是好奇,第一个识别图片的人,计算机怎么知道验证码对不对呢?
还是在同一瞬间,有许多人同时在识别这个验证码,然后根据概率来决定正确的文本?


不用同一时间,只要让不同用户交替识别就可以了。

#12


引用 5 楼 caozhy 的回复:
我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。
这个典故流弊啊

#13


引用 5 楼 caozhy 的回复:
我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。

这个逆天了

#14


up!还有能给点提示的没有!

#15


我觉得我应该把这个故事说的更详细一点,以下文字来源网上:


老网民们大概都记得,刚开始上网的时候,是不存在验证码(captcha)这么一种东西的。这造成的结果是,垃圾评论和垃圾邮件可以轻松通过任何一个网站的注册程序,通过各种方式轰炸人民群众的眼球。

 最先想要解决这一问题的是雅虎——作为互联网时代早期最重要的免费邮件提供商,他们一方面要解决用户们每天遇到的数以百计的垃圾邮件轰炸,另一方面,他们自己的免费邮箱,恰恰又是垃圾邮件的最爱——耗费无数资源所阻止的垃圾邮件,都来自于自己的服务器。这让雅虎开始认真考虑如何解决人机辨识问题。

 他们找到一位当时刚刚21岁的天才——Luis von Ahn。 而Luis Von Ahn给出的方案,就是这个让人民群众微微皱眉,但是让计算机耸肩挠头的验证码。计算机辨识技术还很落后,对于经过扭曲、污染的文字,无法辨识。而人类却可以轻松认出这些文字。这是一个简单而巧妙的设计,计算机先是产生一个随机的字符串,然后用程序把这个字符串的图像进行随机的污染,扭曲,再显示给显示器前的人或者机器。凡是能够辨识这些字符的,即为人类。

 故事还没完,Luis Von Ahn是那种追求完美的科学家。当全世界数以十亿计的人每天都会浪费几秒钟的时间参与辨认文字这一简单活动的时候,他开始思考,其中浪费的人脑智力是否能得到更好的应用呢?Luis Von Ahn的最终设计是,让人们用这些脑力解决一些计算机无法解决的“图书数字化”。

 在计算机时代以前,印刷术已经存在了数百年,但这些印刷术所产生的书本和报纸等等,对于计算机来说都是模拟信号,仅以图像的形式存在,而非以数字化的形式存在。但是,早期的印刷术并不精确,文字大小不一,形象有差别。而且因为印刷品年代久远,拥有各种细微的缺损和污染。这对人眼来说不是什么大问题,但对计算机来说就麻烦了。

 因此,2002年,luis Von Ahn开始让captcha引用各种无法被计算机辨识的文字图像,目前,已经有上万网站采用他的新一代captcha。每天帮助辨识数以百万计的古老文档。问题在于,对于最初的capcha来说,计算机实际上是知道答案的。而Luis希望人们辨识的文字,计算机实际上是不知道答案的,那如何能验证返回的答案到底是不是真的呢?

 解决这个问题的方法依然体现了Luis一贯的简洁和优美,他让人们每次辨识两个,而非一个验证码,其中一个来自于计算机随机生成的字符串,而另一个则是从文档中选取的计算机不认识的字符图像。只要人们对前一个字符串给出的答案是正确的,那么就判定,人们对后一个验证码的辨识是正确的。

 用这一方法,luis的captcha2.0 已经帮助完成了整个纽约时报130年的报纸存档数字化——这一本可能花费无数时间和资源的工程,在几个月之内就由各位网友们完成了。

#16


引用 5 楼 caozhy 的回复:
我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。



他们应该去找 苹果,苹果手机都支持 手写输入的,即使你写的再烂 它的识别率依然很高!

#17


问题在于,对于最初的capcha来说,计算机实际上是知道答案的。而Luis希望人们辨识的文字,计算机实际上是不知道答案的,那如何能验证返回的答案到底是不是真的呢?
解决这个问题的方法依然体现了Luis一贯的简洁和优美,他让人们每次辨识两个,而非一个验证码,其中一个来自于计算机随机生成的字符串,而另一个则是从文档中选取的计算机不认识的字符图像。只要人们对前一个字符串给出的答案是正确的,那么就判定,人们对后一个验证码的辨识是正确的。


http://www.guokr.com/post/17836/

#18


引用 16 楼 chenlunmy006 的回复:
Quote: 引用 5 楼 caozhy 的回复:

我可以负责任地说,这超出了业界一流水平的能力范围。

这里可以给你讲一个典故。美国国会图书馆有很多书籍,他们想把这些书籍做成电子版本,但是苦于难以识别,非常头痛。他们找了yahoo,yahoo高手如云,但是也没有辙,因为一些旧版书字迹模糊,而且字体也不是标准字体。但是yahoo不愧是yahoo,他们想了一招,解决了这个问题,就是使用人肉识别。你会说,这点子我也能想到啊。且慢,yahoo想到的办法,是利用其每天上亿的访问量,将无法识别的文本切割做成验证码,让每天登录的用户识别。虽然每个用户只识别了1、2个单词,但是每天加起来总数是惊人的,于是这些书籍全部都识别出来了。

我讲这个典故的意思就是告诉你,不要觉得计算机科学的能力是无穷的。其实文本识别还远远达不到人的水平。



他们应该去找 苹果,苹果手机都支持 手写输入的,即使你写的再烂 它的识别率依然很高!


手写输入和文字识别完全是不同的。手写输入额外能得知笔顺(尽管手写输入为逆笔顺做了容错,但是笔顺对于识别文字的意义仍然是重要的),手写输入是一个可以自学习的系统,用户不断地纠正它,这样首先输入可以针对特定的人改进识别能力,手写输入不存在文字拆分的问题。等等。

#19


复杂验证码识别问题找找有没有模糊复原的算法  或者试试这个 http://www.dama2.com/

#20


觉得苹果或者那一家公司的技术领先世界只是业余大众的一种误解。事实上,还没有哪家公司能直接将实验室的成果立刻变成产品的。苹果说白了,也就是一个整合技术的创意公司而已。它用的技术,其实也是很保守的。

#21


为了防止你这类人,我做的验证码还要扭曲贴近。。。

#22


引用 19 楼 zhuankeshumo 的回复:
复杂验证码识别问题找找有没有模糊复原的算法  或者试试这个 http://www.dama2.com/


这人工识别的钱不好赚啊,还3秒,还96%准确性。

lz的这个我3秒连50%都悬。

#23


引用 22 楼 caozhy 的回复:
Quote: 引用 19 楼 zhuankeshumo 的回复:

复杂验证码识别问题找找有没有模糊复原的算法  或者试试这个 http://www.dama2.com/


这人工识别的钱不好赚啊,还3秒,还96%准确性。

lz的这个我3秒连50%都悬。
除了最后一个其他3个都好确认  如果可以把模糊效果处理掉就好办了

#24


引用 22 楼 caozhy 的回复:
Quote: 引用 19 楼 zhuankeshumo 的回复:

复杂验证码识别问题找找有没有模糊复原的算法  或者试试这个 http://www.dama2.com/


这人工识别的钱不好赚啊,还3秒,还96%准确性。

lz的这个我3秒连50%都悬。
应该是先人工识别 训练识别率 

#25


图2和图4,作为人类我觉得我很难识别出来。
这样的识别码单纯用程序差不多没什么办法破解。

但并不代表无法破解。

你可以把他们当做旧报纸上的字,按照yahoo的方法全部识别出来,这样就破解掉了。

前提是你要有yahoo那么多的用户。

#26


引用 楼主 chenlunmy006 的回复:
先上图
复杂验证码识别问题
复杂验证码识别问题
复杂验证码识别问题
复杂验证码识别问题
像这种的验证码如何识别
给个思路也给分!

以前到是可以做出来,网上一大把,但是加上噪点和横条,实在不知道怎么去掉。
目测第二张图我都识别不了,别指望机器了。LZ可以看看《图形学》,或许对你有帮助~~~