问了 Gemini 1.5 Pro 五个问题,找到了初遇ChatGPT的感觉

时间:2024-03-18 13:51:46

一个月前(2月15日),Sora和 Gemini 1.5 同时推出,这个故事很多人都听过了,Google 被冠以 AI 界汪峰的名头。

人们纷纷震惊于 Sora 的强大,讨论 Sora 是不是世界模型。而 Gemini 1.5 的第一个模型 Gemini 1.5 Pro 在发布后没多久就逐渐无人问津了。

当时 Gemini 1.5 Pro 只开放了 Waitlist,一直没能上手测倒是成了一块心病。

最近 Gemini 1.5 Pro 迎来一波大规模开放测试,当时排队的基本都能使用了,有些没有邮件通知,朋友们都可去看看。

链接 :https://aistudio.google.com/

图片

Gemini 1.5 Pro 最大的特点就是10M 上下文与多模态理解相互搭配,实现超强的检索和学习能力,我们也就围绕这两点,问了他五个问题

问题一:88 万字的《三体》,后续故事怎么发展?

我们向Gemini提供了长达约88万字的科幻小说《三体》,它可以根据小说的题材重新编写一版新的小说大纲,从背景设定、主要人物、情节梗概、主题设定到小说结局它可以非常有逻辑地完成。

另外对于《三体》的开放式结局它也可以继续扩写,在充分地满足大家的各种想象的同时又不脱离原著。

图片

问题二:20篇论文,哪篇更有价值?

我们选取了20篇神经网络相关的英文学术文章。Gemini 不仅能够对各种细节问题对答如流,而且还能够非常有条理有逻辑地整理出最具参考价值的学术论文。

各位研究学者们再也不用熬夜看文献写报告了!你们的头发有救啦!

图片

问题三:我该怎么学习 JavaScript?

我试着用两个功能时想到,上传一本课本岂不妙哉!这技术能读懂全书,大学党考试周还愁啥!直接1对1辅导到手。

下面我直接上传了《JavaScript高级程序设计(第4版)》,Gemini 还帮我搞了个大纲和学习建议,真懂我们。不仅考试的时候能天天陪着你,指导复习,还能出套带答案的期末题,老师们可能得偷偷珍藏。

图片

图片

逐渐成型的生态

上传了个 Open AI 机器人的视频到 Gemini,它不仅快速总结出来,准确度还挺高;还把视频里的英文字幕翻译成了中文。

为测深度理解,让它找视频里机器人递苹果的画面,它真找到了!

好奇它能不能辨认手绘,我画了个苹果试试。一开始,它认出苹果,但装作没在视频里看见过。我一逼问,它才勉强承认,还不忘找借口,吐槽我画的苹果和视频里的完全不像!

图片

问题五:什么?Sora 是 Google 出品的?

本次测试可以看出 Gemini 能够对视频画面进行精确的解读,但是当我问到它对 Sora 的了解时,它却说 Sora 是 Google 训练的模型。

总的来说它具有一定的逻辑能力和常识的,同样似乎没有联网能力,不能获取近期发生的事件。

图片

整体使用下来,我能看到它 10M 上下文的潜力,能让人发出“啊?这样也可以的?”的惊呼。就好像是第一次使用 ChatGPT 的那种感觉。

但也能看到它也存在很多瑕疵,比如老生常谈的幻觉问题,不能被 Sora 抢了风头就说 Sora 是自家兄弟吧。

而且这次大规模开放也导致算力不足,很多问题都回答的非常“懒惰”,只能提示“继续”让他继续回答,但也效果不好。在他人演示中 60 分钟的视频可以很好的理解,但在实际测试中,超过 30 分钟的视频,就会经常出现超时未响应的情况。尽管 Token 长度允许,但算力也分配不过来了。越短的视频,它处理的也就越好。

目前不支持联网,也无法读取视频链接,只能说是尝鲜试用。

最近 Google 也发布了 Gemini 1.5 的详细介绍文档:

https://arxiv.org/ftp/arxiv/papers/2403/2403.05530.pdf

里面展示了一个非常有意思的场景:

测试人员将一本Kalamang语言的参考语法书、一个双语词汇表(字典),以及大约400句额外的句子喂给了 Gemini 1.5 Pro,这些素材总共大约有250K tokens。

这个任务的挑战在于,Kalamang语是一种只有不到200个使用者的濒危语言,在模型的训练数据中几乎没有出现,因此 Gemini 1.5 Pro 必须依赖于上下文中给出的数据进行学习,来给出答案。

最终的结论是:

  • Gemini 1.5 Pro在半本书的设置下,其表现远远超过了GPT-4 Turbo和Claude 2.1。当给予整本书的上下文时,Gemini 1.5 Pro的表现进一步提升。在Kalamang到英语的翻译中,Gemini 1.5 Pro的人类评估得分为4.16(满分6分),而在英语到Kalamang的翻译中,得分为5.38。与此相比,人类语言学习者的得分分别为5.52和5.60。虽然不如人类学者,但也遥遥领先同行竞争对手了。

图片

期待赶紧给 Gemini 1.5 模型更新到 Gemini 的消费级产品中,作为 Gemini Advance会员已经迫不及待的想要使用它的完整版了。