一、大模型人工智能的前沿大模型通常指的是大规模的人工智能模型 是一种基于深度学习技术 具有海量参数、强大的学习能力和泛化能力 能够处理和生成多种类型数据的人 工智能模型。通常说的大模型的“大”的特点体现在1、参数数量庞大2、训练数据量大3、计算资源需求高。大模型的设计和训练旨在提供更强大、 更准确的模型性能 以应对更复杂、 更庞大的数据集或任务。 大模型通常能够学习到更细微的模式和规律 具有更强的泛化能力和表达能力。人工智能与大模型的关系人工智能包含了机器学习 机器学习包含了深度学习 深度学习可以采用不同的模型 其中一种模型是预训练模型 预训练模型包含了预训练大模型可以简称为“大模型” 预训练大模型包含了预训练大语言模型可以简称为“大语言模 型” 预训练大语言模型的典型代表包括OpenAI的GPT和百度的文心ERNIE ChatGPT是基于GPT开发的大模型产品 文心一言是基于文心ERNIE开发的大模型产品大模型的分类大模型的基本原理大模型是基于Transformer架构的 这种架构是一种专门用于自然语言处理的“编码-解码器”架构。 在训练过程中 大模型将输入的单词以向量的形式传递给神经网络 然后通过网络的编码解码以及自注意力机制 建立起每个单词之间联系的权 重。大模型的核心能力在于将输入的每句话中的每个单词与已经编码在模型中的单词进行相关性的计算 并把相关性又编码 叠加在每个单词中。 这样 大模型能够更好地理解和生成自然文本 同时还能够表现出一定的逻辑思维和推理能力二、大模型产品ChatGPT是一种由OpenAI训练的大语言模型。 它是基于Transformer架构 经过大量文本数据训练而成 能够生成自然、流畅的语言 并具备回答问题、 生成文本、 语言翻译等多种功能。ChatGPT的应用范围广泛 可以用于客服、 问答系统、 对话生成、文本生成等领域。 它能够理解人类语言 并能够回答各 种问题 提供相关的知识和信息。 与其他聊天机器人相比 ChatGPT具备更强的语言理解和生成能力 能够更自然地与人 类交流 并且能够更好地适应不同的领域和场景。ChatGPT的训练数据来自互联网上的大量文本 因此 它能够涵盖多种Gemini是谷歌发布的大模型 它能够同时处理多种类型的数据和任务 覆盖文本、 图像、 音频、 视频等多个领域。 Gemini采用了全新的架构 将多模态编码器和多模态解码器两个主要组件结合在一起 以提供最佳结果。Gemini包括三种不同规模的模型Gemini Ultra、 Gemini Pro和Gemini Nano 适用于不同任务和设备。 2023年12月6日Gemini的初始版本已在Bard中提供 开发人员版本可通过Google Cloud的API获得。Gemini可以应用于Bard和Pixel 8Pro智能手机。 Gemini的应用范围广泛 包括问题回答、 摘要生成、 翻译、字幕生成、 情感分析等任务。 然而 由于其复杂 性和黑箱性质 Gemini的可解释性仍然是一个挑战2024年2月16日 OpenAI再次震撼全球科技界 发布了名为Sora的文本生成视频大模型 只需输入文本就能自动生成视频。 这一技术的诞生不仅标志着人工智能在视频生成领域的重大突破 更引发了关于人工智 能发展对人类未来影响的深刻思考。 随着Sora的发布 人工智能似乎正 式踏入了通用人工智能AGI Artificial General Intelligence 的时代。AGI是指能够像人类一样进行各种智能活动的机器智能 包括理解语言、 识别图像、 进行复杂推理等。 Sora大模型能够直接输出长达60秒的视频 并且视频中包含了高度细致的背景、 复杂的多角度镜头 以及富有情感 的多个角色。 这种能力已经超越了简单的图像或文本生成 开始触及到 视频这一更加复杂和动态的媒介。 这意味着人工智能不仅在处理静态信息上越来越强大 而且在动态内容的创造上也展现出了惊人的潜力Sora根据文本自动生成的视频画面 一位戴着墨镜、 穿着皮衣的时尚女子走在雨后夜晚的东京市区 街道上 抹了鲜艳唇彩的唇角微微翘起 即便带着墨 镜也能看到她的微笑 地面的积水映出了她的身影和 灯红酒绿的霓虹灯 热闹非凡的唐人街正在进行舞龙 表演 熙熙攘攘的人群目光都聚焦在跃动的彩龙身上 整个环境的喜庆氛围仿佛令人身临其境国内的大模型产品三、大模型的应用领域大模型的应用领域非常广泛 涵盖了自然语言处理、 计算机视觉、 语音识别、 推荐系统、 医疗健康、 金融风控、 工业制造、生物信息学、 自动驾驶、 气候研究等多个领域四、高校本地部署DeepSeek大模型DeepSeek满血版R1 参数高达6710亿 671B 相当于一个 “超级大脑” 能处理复杂数学题、 编程、 长文本分析等高难度 任务。 部署本地DeepSeek- R1 671B 满血版模型 支持校园办公自动化、 科研项目辅助、 学术资源分析等多领域应用2025年2月19日 郑州大学国家超级计算中心、 计算机与人工智能学院、 信息化办公室携手攻坚 成功在超算中心设备上部署本 地化“满血版” DeepSeek-R1大模型 671B 。在多个关键应用领域 DeepSeek-R1大模型展现出强大的实力郑州大学DeepSeek-R1系列大模型正在对接学校统一身份认证平台 近期将面向全校师生开放试用。同时 将根据学校各学科具体需求与硬件条件 以具体化、 针对性、 私有化、 学科专用或实验室专用的方式将进一步 将70B、 32B、 14B、 8B、 7B等不同版本的DeepSeek-R1大模型部署到学科内部 并接入本地知识库如学术资源、 课程资源、 实验数据等 后期学校将根据具体需求及资源占用情况提供差异化服务 构建 “A I 学科 ”垂直领域解 决方案 为学科交叉创新发展提供有力支撑五、基于大模型的智能体过去的嵌入式工具型 AI助手型工具 例如siri、小度、小愛音箱 只完成和人之间的问答会话。目前各类 AI Copilot 不再是机械地完成人类指令 而是可以参与人类工作流 为诸如编写代码、策划活动、优化流程等事项提供建议与人类协同。AI Agent 的工作仅需给定一个目标 它就能够针对目标独立思考并做出行动 它会根据给定任务详细拆解出每一步的计划步骤依靠来自外界的反馈和自主思考 自己给自己创建 prompt 来实现目标。2025年2月3日 OpenAI发布了一款新的智能体产品——Deep Research。 Deep Research由OpenAI o3模 型的一个版本提供支持 该模型针对网页浏览和数据分析进行了优化 它利用推理来搜索、 解释和分析互联网上 的大量文本、 图像和PDF 并根据需要根据遇到的信息做出调整。 Deep Research具有以下四大核心技术【案例】 上海海事大学超级智能体采取自建大模型引用AI服务模式 A I编排流程使多个智能体综合协作 由一颗大脑 LLM 进行自主支配运行 能够根据人的 要求 自主判断、 决策、 分解子任务 自行与业务系统、 专业知识库、 海事垂直大模型及互联网交互分析 构建校级统一AI服务 平台 最终输出任务结果 从而助学、 助教、 助研、 助管和助国际交流篇幅有限仅展示了部分内容。