超越GPT-4!谷歌发布最强多模态大模型—Gemini造福AI未来

更新时间:2023-12-09 18:51:01 作者:有品生活网

谷歌近日发布了最强大的多模态大模型Gemini,其性能超越了GPT-4,引发了AI领域的广泛关注和期待。作为一种多模态大模型,Gemini不仅能够处理文本,还能够同时处理图像、语音和视频等多种模态的信息。这一突破性技术将为人工智能领域带来巨大的变革,为各行各业带来更智能和高效的解决方案,为AI未来发展描绘了更加辉煌的景象。

12月7日凌晨,谷歌在官网发布了全新最强多模态大模型——Gemini。

据悉,Gemini有Ultra、Pro、Nano三个版本,可自动生成文本、代码、总结内容等,并能理解图片、音频和视频内容。在MMLU、DROP 、HellaSwag、GSM8K等主流评测中,Gemini Ultra的能力全面超越了OpenAI的GPT-4和GPT-4 V。

值得一提的是Gemini Ultra在MMLU中的得分为90%,这也是第一个在MMLU上超越人类专家的大模型。

目前,谷歌已经公布了Gemini的论文,从12月13日起提供Gemini Pro的API。Ultra版本还在安全、功能优化中,很快会开放使用。

用户可以在谷歌的类ChatGPT产品Bard中体验Gemini Pro版本模型,支持中文。

Bard地址:https://bard.google.com/chat

论文地址:https://goo.gle/GeminiPaper

Gemini Pro的API地址:https://cloud.google.com/vertex-ai

Gemini简单介绍

Gemini一共有三个版本,Ultra是功能最强版,可用于超复杂的推理、理解,但AI算力消耗也非常大;

Pro的参数只有Ultra的一半,性能却很好适用于大规模应用部署;Nano是轻量级模型,适用于移动设备和个人、小规模部署。

Gemini介绍

技术架构方面,Gemini模型的基础架构建立在Transformer编码器结构之上,采用了多层自注意力和前馈神经网络来建模序列依赖性。不同的是Gemini采用了多查询注意力机制,这也是处理复杂长文本的关键所以。

传统的Transformer结构采用单查询注意力机制,即查询-键值对的拼接对于每个位置都是独一无二的。但是对于很长的序列,这将带来很大计算成本。

Gemini采用了多查询注意力机制,其基本思路是对序列的每个位置,不再使用唯一的查询向量,而是使用一组查询向量。

具体来说,模型首先将输入序列的每个位置编码成多组查询向量。然后,将这些查询向量并行地与键值对进行批量注意力运算,得到多个注意力结果。

此外,Gemini模型还使用了类似WordPiece的SentencePiece算法对输入序列进行字粒级别分词,可以支持多种语言同时节约算力资源。

在训练数据方面,Gemini使用来自网络文本、图书和代码的大量数据进行预训练。在数据采样前开发人员进行了严格的数据筛选,除去了暴力、虚假、歧视等有害内容。

Gemini的各种能力

理解文本、图片、音频

Gemini模型经过海量数据训练,可以很好识别和理解文本、图像、音频等内容,并可以回答复杂主题相关的问题。所以,非常擅长解释数学和物理等复杂学科的推理任务。

生成代码

Gemini可以生成和理解Python、Java、C++和Go等主流代码。Gemini Ultra在多个编码基准测试中表现出色,包括HumanEval,这是评估编码任务性能的重要行业标准。

谷歌还基于Gemini模型开发了专业的代码模型AlphaCode 2。与前一代相比,AlphaCode 2的性能提升了至少50%以上。

复杂推理

Gemini的多模态功能,使其能在视觉理解、文本生成等方面有非常强的功能。例如,从数十万字的小说中整理出重要观点;

从200页的金融报告中找出最有价值的内容。这对于金融、科技、医疗的科研和业务人员来说帮助巨大。

支持Bard

目前,谷歌的Bard已经集成了Gemini Pro模型,「AIGC开放社区」体验了一下,其图片理解和文本生成能力比之前强很多,尤其是代码生成和审查能力很出色。

Gemini全面超越GPT-4

谷歌在MMLU、DROP 、HellaSwag、GSM8K等主流评测中,将Gemini与OpenAI的GPT-4和GPT-4 V进行深度评测。

测试数据显示,Gemini Ultra的性能超过了大型语言模型研究和开发中广泛使用的32个学术基准中的30个,也是第一个在MMLU上超过人类专家的大模型。

此外,Gemini Nano型模型在移动设备上展现卓越的自然语言处理能力。尤其是在针对性任务微调后,在阅读理解和摘要生成等任务上胜过其他同规模模型。

谷歌首席执行官Sundar Pichai表示,Gemini是我们迄今为止最强大和最通用的模型,在许多领先的基准测试中表现非常出色。

第一个版本的Gemini针对不同尺寸进行了优化,这适用于不同的人群和行业。Ultra、Pro和Nano是Gemini的第一批模型,也是我们成立Google DeepMind的愿景的第一次实现。非常兴奋,未来我们会持续发布更多强大的模型。

本文素材来源谷歌官网、Gemini论文,如有侵权请联系删除

END

以上就是超越GPT-4!谷歌发布最强多模态大模型—Gemini造福AI未来的相关介绍,希望能对你有帮助,如果您还没有找到满意的解决方式,可以往下看看相关文章,有很多超越GPT-4!谷歌发布最强多模态大模型—Gemini造福AI未来相关的拓展,希望能够找到您想要的答案。

为您推荐

硬盘分区软件哪个好?当然是易我分区大师!

说实在的,小编用过电脑系统自带的分区工具——磁盘管理来进行分区。但是操作有点复杂,小编在操作前忘记了备份分区中的文件,结果分区完成后,文件都不见了,甚是痛苦。说到硬盘分区软件哪个好...

2023-11-07 16:05

换笔记本电脑怎么转移资料?

之前因为不需要出差,所以一直用的是台式电脑。公司一台,家里一台,家里的那台电脑上也保存了很多重要文件,这一下换了笔记本电脑了,上面什么东西都没,突然之间他还不知道怎么工作了,所以想...

2023-11-02 18:04

揭秘苹果iOS 17.2.3:续航提升震撼,信号强劲,极致优化大揭秘

近日,苹果公司发布了最新的iOS 17 2 3系统更新,引起了广大苹果用户的关注。据官方揭秘,这次系统更新主要集中在续航方面的提升,信号的强劲以及极致优化。这一消息令人震撼,让

2023-11-23 19:50

mac word恢复|mac word丢失文件怎么恢复?

可是,我们在Mac系统中也会遇到word丢失文件的情况。mac word丢失文件可以恢复吗?关于mac word丢失文件的问题,我们首先需要了解Word文件丢失的情况有哪些?才能做...

2023-10-21 15:04

跨界王者登场!vivo X Fold 3真机图曝光,打通苹果生态系统?

伴随着跨界王者的登场,vivo X Fold 3真机图曝光,引发了广泛关注。这款折叠屏手机不仅在设计上更加精致,而且还具备了更加强大的性能和功能。有消息称,vivo X Fold 3或许

2024-03-30 19:21

iPhone手机怎么把三张图片拼成一张

品牌型号:iPhone13 pro 系统:IOS15 4 以iPhone13 pro为例,iPhone是不能拼图的。但可以使用第三方软件美图秀秀

2023-08-05 17:15