水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

牛到成功工作室

20年证券投资经验,擅长把...


骑牛看熊

拥有10多年的证券从业投资...


牛牛扫板

高准确率的大盘预判。热点龙...


风口财经

重视风口研究,擅长捕捉短线...


短线荣耀

主攻短线热点龙头为主,坚持...


牛市战车

投资策略:价值投资和成长股...


妖股刺客

职业研究15年,对心理分析...


投资章鱼帝

把握市场主线脉动和龙头战法...


股市人生牛股多

20多年金融经验,工学学士...


蒋家炯

见证A股5轮牛熊,98年始...


banner

banner

谷歌Gemini模型发布,AI进入多模态时代

吉祥三哥炒家   / 2023-12-11 16:34 发布

一、事件

谷歌宣布发布新一代大模型Gemini,再次引发市场对人工智能产业的持续关注。Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,在性能上是第一个在MMLU上超越人类专家的模型。模型根据体量大小分为Gemini Ultra、Gemini Pro、以及Gemini Nano三个版本,支持在云端以及边缘测运行。同时谷歌同步发布最新版本的计算芯片TPU v5p,相较上一代TPU v4性价比提升2.3倍。多模态Gemini模型的正式发布,一方面可以拓宽应用场景的拓展,另一方面能够带来算力需求的持续升级。持续看好后续AI产业的前景,认为后续GPT-5等模型的发布亦将带来更多的催化。

二、简介

多模态 AI 合并了许多数据模态,例如文本、照片、视频和音频,以提供对场景的更透彻的理解。多模式 AI 的目标是从多个来源编译数据,以支持更准确和可信的决策。多模式 AI 可以通过融合多种模式并为消费者提供更自然、更直观的技术参与方式来提高机器学习模型的效力。

多模态 AI 的优势在于它能够超越单模态数据的限制,并提供对困难情况的更全面理解。多模态人工智能 (AI) 有能力改变人们在现实世界中与技术互动和决策的方式,并在医疗保健、交通、教育、营销和娱乐等一系列行业中应用。

根据谷歌披露,Gemini是基于Transformer decoder构建的多模态模型,其性能较原有的单一模型更为全面,支持32K的contex长度。根据公司披露,Gemini Ultra 在大型语言模型 (LLM) 研发中使用的 32 个广泛使用的学术基准中的 30 个方面,其性能超过了当前最先进的结果。

Gemini Ultra 的得分为 90.0%,是第一个在 MMLU(大规模多任务语言理解)方面优于人类专家的模型,横向对比来看多个任务性能超过GPT-4。在公司披露的技术文档中,Gemini能够实现图标理解与格式转换、基于图片的多个问答、文生图、图片理解与推理、几何问题求解、图片信息关联、基于图片以及提示词的问答、梗图理解、图片逻辑解释、代码生成、数学问题求解、表格转换及计算、复杂图片生成、视频理解等功能。

三、需求

如今,单模态数据在实际应用中存在局限性,需要采用多模态 AI。举个例子,一辆只有摄像头系统的自动驾驶汽车很难在弱光下识别行人。

如果加上激光雷达、雷达和 GPS 就可以完美解决这些问题,可以为车辆提供更全面的周围环境图像,从而使驾驶更安全、更可靠。为了更透彻地理解复杂事件,融合多种感官至关重要。文本、照片、视频和音频都可以使用多模态 AI 进行组合,以更全面地了解情况。

例如,多模态人工智能可以使用来自多个来源的患者信息,包括电子健康记录、医学成像和测试结果,来编制更全面的患者档案。这可以帮助医疗保健从业者改善患者的治疗效果和决策制定。金融、交通、教育和娱乐只是已经使用多模态人工智能的几个行业。多模式 AI 在金融行业中用于评估和理解来自多个来源的市场数据,以便发现趋势并做出明智的投资决策。

自动驾驶汽车的准确性和可靠性在交通领域通过多模式 AI 得以提高。多模态 AI 用于教育,通过结合评估、学习分析和社交互动等多种来源的信息,为学生量身定制学习体验。通过结合音频、视觉和触觉输入,Multimodal AI 被用于娱乐行业,以创造更加身临其境和引人入胜的体验。

四、展望

谷歌在发布会上表示,目前,Gemini的初始版本已在Bard(12月6日)中提供,开发人员版本将于12月13日通过Google Cloud的API提供。根据谷歌的计划, Bard 将使用 Gemini Pro 的微调版本进行更高级的推理、计划、理解等。谷歌还将 Gemini 引入 Pixel,Pixel 8 Pro 是第一款搭载 Gemini Nano 的智能手机。

在接下来的几个月里,Gemini 将出现在谷歌体系内更多产品和服务中,如搜索、广告、Chrome 和 Duet AI。在当前的搜索场景中,Gemini能够降低大约40%的延迟。对整个产业来讲,谷歌产品化、商业化的推进亦将带来行业整体的变化,同时伴随GPT-5等模型的推出,预计将看到:1)多模态模型带来的算力需求增长以及 2)越来越多的AI场景与产品的出现。

1702283717853.png