快速体验：Xinference-v1.17.1在Jupyter中加载Phi-3-mini模型，5分钟出结果

张

张建站

2026/5/9 14:16:52

10分钟阅读

快速体验Xinference-v1.17.1在Jupyter中加载Phi-3-mini模型5分钟出结果1. 准备工作与环境检查1.1 启动Xinference镜像在CSDN星图镜像广场中找到并启动xinference-v1.17.1镜像后系统会自动为你准备好Jupyter Lab环境。Xinference已经预装完成无需额外配置。首先我们验证环境是否就绪!xinference --version预期输出xinference 1.17.11.2 启动本地推理服务在Jupyter中执行以下命令启动服务!nohup xinference-local --host 127.0.0.1 --port 9997 --log-level WARNING /tmp/xinference.log 21 !sleep 3 # 等待服务启动为什么需要nohup因为Jupyter的cell执行完毕后会终止进程使用nohup可以让服务在后台持续运行。2. 加载Phi-3-mini模型2.1 初始化客户端from xinference.client import Client client Client(http://127.0.0.1:9997)2.2 一键加载模型Phi-3-mini是一个轻量级但性能优秀的模型特别适合快速体验model_uid client.launch_model( model_namephi-3-mini, model_size_in_billions3.8, quantizationq4_k_m # 推荐量化方式 ) print(f模型UID: {model_uid})加载时间参考首次加载约20-30秒后续加载仅需3-5秒3. 快速测试模型效果3.1 基础对话测试from openai import OpenAI client_oai OpenAI( base_urlhttp://127.0.0.1:9997/v1, api_keynot-needed ) response client_oai.chat.completions.create( modelmodel_uid, messages[ {role: system, content: 你是一个乐于助人的AI助手}, {role: user, content: 用简单的话解释什么是机器学习} ], temperature0.3, max_tokens100 ) print(response.choices[0].message.content)预期输出示例机器学习是让计算机从数据中自动学习规律和模式而不需要明确编程的方法。就像教小孩通过例子学习而不是死记硬背规则一样。3.2 代码生成测试response client_oai.chat.completions.create( modelmodel_uid, messages[ {role: user, content: 用Python写一个计算斐波那契数列的函数} ], temperature0.1, # 降低随机性确保代码准确 max_tokens200 ) print(response.choices[0].message.content)预期输出示例def fibonacci(n): 计算斐波那契数列的第n项 if n 0: return 0 elif n 1: return 1 else: a, b 0, 1 for _ in range(2, n1): a, b b, a b return b4. 实用技巧与优化4.1 提高响应速度# 使用stream模式获取即时响应 stream client_oai.chat.completions.create( modelmodel_uid, messages[{role: user, content: Python中如何反转列表}], streamTrue ) for chunk in stream: if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end)4.2 保存模型状态# 保存模型配置 config_path /tmp/phi3_config.json client.export_model(model_uid, config_path) print(f配置已保存至: {config_path}) # 下次启动时恢复 # !xinference-local --model-config-path /tmp/phi3_config.json5. 常见问题解决服务启动失败检查端口是否被占用!lsof -i :9997查看日志!cat /tmp/xinference.log | tail -20模型加载缓慢确保网络连接正常尝试更小的量化版本quantizationq3_k_m内存不足关闭其他不必要的模型重启Jupyter内核释放内存6. 总结与下一步通过本教程你已经成功启动了Xinference服务加载了Phi-3-mini模型进行了基础对话和代码生成测试学习了性能优化技巧下一步建议尝试加载其他模型如qwen2或llama-3探索嵌入模型bge-m3的使用结合LangChain构建更复杂的应用获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

VisionPro脚本进阶：巧用代码动态管理复杂数据结构输入输出

1. VisionPro脚本中动态管理数据结构的必要性在自动化视觉检测项目中，我们经常需要处理各种非标准数据类型。比如检测电路板时需要传递二维坐标矩阵，或者读取动态变化的配置文件路径。VisionPro虽然提供了基础数据类型的快捷添加方式，但遇到…...

2026/4/1 14:35:52 阅读更多 →

Plumbum管道与重定向完全教程：构建复杂Shell命令链

Plumbum管道与重定向完全教程：构建复杂Shell命令链【免费下载链接】plumbum Plumbum: Shell Combinators 项目地址: https://gitcode.com/gh_mirrors/pl/plumbum Plumbum是一个强大的Python库，它让您在Python中编写shell脚本般简洁的代码&#x…...

2026/4/1 14:34:42 阅读更多 →

Continue深度解析：基于源码控制的AI代码检查技术实现与性能调优

Continue深度解析：基于源码控制的AI代码检查技术实现与性能调优【免费下载链接】continue ⏩ Source-controlled AI checks, enforceable in CI. Powered by the open-source Continue CLI 项目地址: https://gitcode.com/GitHub_Trending/co/continue 核心…...

2026/4/1 14:34:37 阅读更多 →

ColorControl：一键掌控多设备显示与智能控制的终极方案

ColorControl：一键掌控多设备显示与智能控制的终极方案【免费下载链接】ColorControl Easily change NVIDIA display settings and/or control LG TVs 项目地址: https://gitcode.com/gh_mirrors/co/ColorControl ColorControl 是一个专注于显示参数优化与智…...

2026/5/8 2:36:29 阅读更多 →

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程 1. 安装Taotoken CLI工具 Taotoken CLI工具提供两种安装方式。对于需要频繁使用CLI的场景，推荐全局安装： npm install -g taotoken/taotoken若只需临时使用或避免全局依赖，可通…...

2026/5/9 12:07:00 阅读更多 →

C语言固件完整性保护全栈方案（含国密SM4+可信执行环境TEE落地代码）

更多请点击： https://intelliparadigm.com 第一章：Shell脚本的基本语法和命令 Shebang 与执行方式每个可执行 Shell 脚本的第一行应以 Shebang（ #!/bin/bash）开头，用于指定解释器路径。保存为 hello.sh 后&#xf…...

2026/5/7 11:30:49 阅读更多 →

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由 1. 准备工作在开始集成 Taotoken 之前，需要确保您的开发环境已满足以下条件。Node.js 版本建议使用 18.x 或更高 LTS 版本。通过运行 node -v 可以检查当前版本。如果尚未安装 openai 包，可以…...

2026/5/8 6:34:49 阅读更多 →