借助 Gemma 4,将业界领先的 Agent Skills 引入端侧
作者 / Google AI Edge 团队前不久Google DeepMind 推出了 Gemma 4这是一系列业界领先的开放模型重塑了端侧 AI 的可能性。Gemma 4 已通过 Apache 2.0 许可发布为开发者提供了强大的端侧 AI 开发工具包。借助 Gemma 4您将不再局限于简单的聊天机器人而是可以构建直接在本地设备上运行的智能体和自主 AI 应用场景。Gemma 4 支持多步规划、自主行动、离线代码生成甚至音视频处理且无需专门的微调。同时该模型原生支持 140 多种语言旨在服务全球开发者与用户。△ Gemma 4 具备卓越的视觉处理能力并原生支持 140 多种语言我们很高兴地宣布Gemma 4 强大的端侧能力现已正式开放体验您可以通过全新的 AICore 开发者预览版访问 Android 内置的 Gemma 4 模型或借助 Google AI Edge 在移动端、桌面端和边缘设备上构建具有智能体能力的应用内体验。在本篇文章中我们将向您展示如何通过 Google AI Edge Gallery 和 LiteRT-LM 快速上手 Google AI Edge。AICore 开发者预览版https://developers.google.com/ml-kit/genai/aicore-dev-previewGoogle AI Edgehttps://ai.google.dev/edgeGoogle AI Edge Galleryhttps://github.com/google-ai-edge/galleryLiteRT-LMhttps://ai.google.dev/edge/litert-lm/overview在 Google AI Edge Gallery 中探索 Gemma 4 的 Agent SkillsGoogle AI Edge Gallery 已在 iOS 和 Android 上线让您可以构建并测试完全在端侧运行的 AI 体验。我们非常高兴地宣布推出 Agent Skills这是首批完全在端侧运行多步自主智能体工作流的应用之一。在 Gemma 4 的驱动下Agent Skills 可以:扩充知识库: Gemma 4 可以通过调用各种 Skills访问其初始训练数据之外的信息从而实现智能体增强型体验。例如您可以构建一个查询维基百科的技能让智能体能够查询并解答各类百科常识。△ 检索维基百科或其他知识库生成丰富的交互式内容: 将段落或视频转化为用于学习的精简摘要或学习闪卡或将数据转化为交互式的可视化视图或图表。例如您可以创建一个 Skill根据用户的语音输入自动总结并展示每日睡眠时长和情绪趋势。△ 生成图标、学习闪卡及其他可视化视图拓展 Gemma 4 的核心能力: 将 Gemma 4 与其他模型 (如文本转语音、图像生成或音乐合成模型) 进行集成。例如您可以利用 Skills为照片配上与氛围完美契合的音乐。△ 与其他模型集成以合成音乐和理解图像打造全面的端到端体验: 用户无需在多个应用之间切换只需通过与 Gemma 4 对话即可管理复杂的工作流并构建自己的应用。为了直观展示这一能力我们构建了一个可以描述并播放动物叫声的可运行应用。△ 构建多步工作流和端到端体验iOShttps://apps.apple.com/us/app/google-ai-edge-gallery/id6749645337Androidhttps://play.google.com/store/apps/details?idcom.google.ai.edge.galleryhlen_US想要亲身体验 Gemma 4 E2B 和 E4B 模型的实际表现请立即探索 Google AI Edge Gallery 应用。在应用内借助我们提供的指南您可以轻松地开始实验并创建您的专属 Skills。我们迫不及待地想看到您构建的作品欢迎在 GitHub Discussion 中分享您的 Skills!Google AI Edge Gallery 应用https://github.com/google-ai-edge/gallery我们提供的指南https://github.com/google-ai-edge/gallery/tree/main/skillsDiscussionhttps://github.com/google-ai-edge/gallery/discussions/categories/skills借助 LiteRT-LM 实现 Gemma 4 的跨设备部署对于希望在应用内或更广泛的设备上部署 Gemma 4 的开发者LiteRT-LM 提供了卓越的性能能够覆盖各类硬件生态。LiteRT-LM 在 LiteRT 的基础上增加了生成式 AI 专用库而 LiteRT 已凭借其高性能库 XNNPack 和 ML Drift 深受数百万 Android 和端侧开发者的信赖。LiteRT-LM 构建于此技术栈之上并通过以下新特性增强了模型性能:极小的内存占用: 得益于 LiteRT 对 2-bit 和 4-bit 权重的支持以及内存映射 (mmap) 的逐层嵌入技术在某些设备上运行 Gemma 4 E2B 的内存占用仅需不到 1.5 GB。约束解码: 每次都能获得结构化、可预测的输出确保您的 AI 驱动型应用和工具调用脚本在生产环境中保持稳定。动态上下文: 能够灵活地在 CPU 和 GPU 上处理单一模型并支持动态上下文长度让您可以充分利用 Gemma 4 的 128K 上下文窗口。LiteRT-LMhttps://ai.google.dev/edge/litert-lm/overviewLiteRThttps://ai.google.dev/edge/litert为了支持智能体用例所需的超长上下文LiteRT-LM 利用前沿的 GPU 优化技术在不到 3 秒的时间内即可处理跨越 2 个不同 Skills 的 4,000 个输入 token。LiteRT-LM 还将较小规格的 Gemma 4 模型带到了物联网和边缘设备并在多种平台上展现出引人注目的性能。其中包括 Raspberry Pi 5在 CPU 上运行时其预填充 (prefill) 速度达到 133 token/秒解码 (decode) 速度为 7.6 token/秒而 Qualcomm Dragonwing IQ8 上的 NPU 加速则将性能提升至更令人惊叹的 3,700 预填充 token/秒和 31 解码 token/秒。准备好开始了吗请查阅 LiteRT-LM 文档以获取完整指南和特定设备的性能指标。您还可以查看 Gemma 4 E2B 和 Gemma 4 E4B 的独立 Model Card。LiteRT-LM 文档https://ai.google.dev/edge/litert-lm/overviewGemma 4 E2Bhttps://huggingface.co/litert-community/gemma-4-E2B-it-litert-lmGemma 4 E4Bhttps://huggingface.co/litert-community/gemma-4-E4B-it-litert-lm全平台运行Gemma 4 现已发布并实现了前所未有的广泛平台支持:移动端: 支持 Android 和 iOS 的 CPU/GPU 运行。开发者还可以通过 Android AICore 在系统层面访问并部署 Android 内置且经过优化的 Gemma 4 模型。桌面端与 Web 端: 在 Windows、Linux 和 macOS (通过 Metal) 上拥有流畅性能并支持由 WebGPU 驱动的原生浏览器执行。物联网与机器人技术: 我们将 Gemma 4 带到了 Raspberry Pi 5以及赋能 Arduino VENTUNO Q 的 Qualcomm Dragonwing IQ8 处理器等端侧。我们还推出了全新的 Python 包和 CLI 工具让您在控制台中体验 Gemma 变得前所未有的简单并为物联网设备上基于 Gemma 的 Python 流水线提供支持。litert-lm CLI 已在 Linux、macOS 和 Raspberry Pi 上可用开发者无需编写任何代码即可尝试最新的 Gemma 4 模型能力。该 CLI 现已支持工具调用为 Google AI Edge Gallery 中的 Agent Skills 提供支持。LiteRT-LM 的 Python bindings 提供了从 Python 深度定制设备端大模型流水线的灵活性。借助我们的指南在终端中开始使用 LiteRT-LM 非常简单。指南http://ai.google.dev/edge/litert-lm/cli端侧智能体体验的时代已经到来我们希望您已准备好在端侧开启构建之旅。无论您在何种设备上进行开发请通过 Google AI Edge Gallery 中的 Agent Skills 示例以及 LiteRT-LM 入门指南开启您的旅程。我们迫不及待地想看到您的作品Agent Skills 示例https://github.com/google-ai-edge/gallery/tree/main/skillsLiteRT-LM 入门指南https://ai.google.dev/edge/litert-lm/overview欢迎您关注 谷歌开发者 微信公众号及时了解更多开发技术和产品更新等资讯动态