快速体验:Xinference-v1.17.1在Jupyter中加载Phi-3-mini模型,5分钟出结果
快速体验Xinference-v1.17.1在Jupyter中加载Phi-3-mini模型5分钟出结果1. 准备工作与环境检查1.1 启动Xinference镜像在CSDN星图镜像广场中找到并启动xinference-v1.17.1镜像后系统会自动为你准备好Jupyter Lab环境。Xinference已经预装完成无需额外配置。首先我们验证环境是否就绪!xinference --version预期输出xinference 1.17.11.2 启动本地推理服务在Jupyter中执行以下命令启动服务!nohup xinference-local --host 127.0.0.1 --port 9997 --log-level WARNING /tmp/xinference.log 21 !sleep 3 # 等待服务启动为什么需要nohup因为Jupyter的cell执行完毕后会终止进程使用nohup可以让服务在后台持续运行。2. 加载Phi-3-mini模型2.1 初始化客户端from xinference.client import Client client Client(http://127.0.0.1:9997)2.2 一键加载模型Phi-3-mini是一个轻量级但性能优秀的模型特别适合快速体验model_uid client.launch_model( model_namephi-3-mini, model_size_in_billions3.8, quantizationq4_k_m # 推荐量化方式 ) print(f模型UID: {model_uid})加载时间参考首次加载约20-30秒后续加载仅需3-5秒3. 快速测试模型效果3.1 基础对话测试from openai import OpenAI client_oai OpenAI( base_urlhttp://127.0.0.1:9997/v1, api_keynot-needed ) response client_oai.chat.completions.create( modelmodel_uid, messages[ {role: system, content: 你是一个乐于助人的AI助手}, {role: user, content: 用简单的话解释什么是机器学习} ], temperature0.3, max_tokens100 ) print(response.choices[0].message.content)预期输出示例机器学习是让计算机从数据中自动学习规律和模式而不需要明确编程的方法。就像教小孩通过例子学习而不是死记硬背规则一样。3.2 代码生成测试response client_oai.chat.completions.create( modelmodel_uid, messages[ {role: user, content: 用Python写一个计算斐波那契数列的函数} ], temperature0.1, # 降低随机性确保代码准确 max_tokens200 ) print(response.choices[0].message.content)预期输出示例def fibonacci(n): 计算斐波那契数列的第n项 if n 0: return 0 elif n 1: return 1 else: a, b 0, 1 for _ in range(2, n1): a, b b, a b return b4. 实用技巧与优化4.1 提高响应速度# 使用stream模式获取即时响应 stream client_oai.chat.completions.create( modelmodel_uid, messages[{role: user, content: Python中如何反转列表}], streamTrue ) for chunk in stream: if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end)4.2 保存模型状态# 保存模型配置 config_path /tmp/phi3_config.json client.export_model(model_uid, config_path) print(f配置已保存至: {config_path}) # 下次启动时恢复 # !xinference-local --model-config-path /tmp/phi3_config.json5. 常见问题解决服务启动失败检查端口是否被占用!lsof -i :9997查看日志!cat /tmp/xinference.log | tail -20模型加载缓慢确保网络连接正常尝试更小的量化版本quantizationq3_k_m内存不足关闭其他不必要的模型重启Jupyter内核释放内存6. 总结与下一步通过本教程你已经成功启动了Xinference服务加载了Phi-3-mini模型进行了基础对话和代码生成测试学习了性能优化技巧下一步建议尝试加载其他模型如qwen2或llama-3探索嵌入模型bge-m3的使用结合LangChain构建更复杂的应用获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。