RK3588 NPU边缘计算实战：YOLOv5与LLM性能测试

张

张建站

2026/5/4 22:44:00

10分钟阅读

1. 项目概述在嵌入式AI领域Rockchip RK3588 SoC凭借其6 TOPS算力的NPU和Mali-G610 GPU成为了边缘计算的热门选择。我们最近使用Mixtile Blade 3这款搭载RK3588芯片的单板计算机配备32GB内存进行了一系列AI和LLM大语言模型的基准测试。这款pico-ITX规格的开发板不仅具备强大的计算能力还拥有丰富的接口配置非常适合作为边缘AI设备的核心。硬件选择提示当处理计算机视觉和LLM任务时大内存容量如32GB能显著提升批量推理性能特别是在处理高分辨率图像或大型语言模型时。2. 硬件配置与系统准备2.1 Mixtile Blade 3开箱与组装拆开Mixtile寄送的两个包装盒第一个盒子装有Blade 3单板计算机第二个则是配套的金属外壳。这款SBC最引人注目的特点是其底部覆盖的巨型散热片这确保了RK3588在无风扇设计下也能稳定运行。接口配置亮点包括双2.5G以太网口双HDMI接口一进一出双USB Type-C接口30针GPIO扩展头U.2边缘连接器支持PCIe Gen3x4和SATA 3.0组装过程需要注意移除原装散热片安装U.2转M.2适配器将主板放入CNC铝合金外壳使用硅胶导热垫固定顶盖金属外壳兼作散热器2.2 Ubuntu系统配置Mixtile Blade 3预装Ubuntu 22.04系统但我们也测试了通过RKDevTool或microSD卡刷写新系统的标准流程。由于板载只有两个USB-C接口一个已被电源占用必须使用USB扩展坞连接键鼠。系统存储配置如下$ sudo fdisk -l Disk /dev/mmcblk0: 116.48 GiB # 板载eMMC Disk /dev/nvme0n1: 232.89 GiB # 通过U.2连接的NVMe SSD $ free -m Mem: 31787 # 确认32GB内存可用3. NPU性能测试RKNPU2实战3.1 YOLOv5模型部署我们使用Rockchip官方提供的RKNPU2工具链测试NPU性能。首先从GitHub克隆rknn-toolkit2仓库然后编译YOLOv5示例cd rknn-toolkit2/rknpu2/examples/rknn_yolov5_demo/ ./build-linux_RK3588.sh clean编译过程会检测OpenCV等依赖项最终生成可执行文件和配套的RKNN模型文件yolov5s-640-640.rknn。3.2 静态图像推理测试运行测试命令./rknn_yolov5_demo model/RK3588/yolov5s-640-640.rknn model/man.jpg关键性能指标首次推理耗时25.523ms10次平均耗时18.621ms等效帧率54 FPS与RK35680.8 TOPS NPU对比硬件平台首次推理平均推理Mixtile Blade 325.52ms18.62msYY356878.92ms69.71ms3.3 RKNN基准测试运行官方benchmark工具得到更精确的测量./rknn_benchmark yolov5s-640-640.rknn man.jpg结果显示平均推理速度达63.123 FPS验证了该硬件完全能满足实时物体检测需求。4. 实时视频流处理为了测试实际应用场景我们配置了RTSP视频流处理管道4.1 MediaMTX服务器部署从GitHub安装MediaMTX RTSP服务器修改配置文件mediamtx.ymlpaths: cam: runOnInit: ffmpeg -f v4l2 -framerate 24 -video_size 640x640 -i /dev/video1 -vcodec h264 -f rtsp rtsp://localhost:$RTSP_PORT/$MTX_PATH runOnInitRestart: yes4.2 视频流AI处理运行视频版YOLOv5检测./rknn_yolov5_video_demo model/RK3588/yolov5s-640-640.rknn rtsp://127.0.0.1:8554/cam 264实测性能处理延迟18-23ms支持多物体实时追踪人、猫、杯子等系统资源占用稳定5. LLM在RK3588上的实践5.1 环境准备由于NPU的LLM支持尚未完善我们转而利用Mali-G610 GPU进行加速。通过Docker快速部署预构建的LLM环境docker run --rm -it --privileged docker.io/milas/mlc-llm:redpajama-3b5.2 模型性能对比我们测试了不同规模的量化模型模型名称参数量内存占用推理速度RedPajama-INCITE-Chat-3B3B~4GB8-10 tok/sLlama-2-7b-chat-hf7B~10GB3-5 tok/sLlama-2-13b-chat-hf13B~20GB1-2 tok/s示例问答测试human: 解释为什么绝缘体中的自由电子不能跃迁到导带 bot: 绝缘体中的电子处于较低能级与导带之间存在较大的禁带宽度...5.3 优化建议使用4-bit量化模型平衡精度与速度对于13B以上模型建议启用swap空间通过--privileged参数确保GPU加速可用监控内存使用watch -n 1 free -m6. 性能分析与优化6.1 硬件资源监控使用以下工具实时监控# NPU使用率 cat /sys/kernel/debug/rknpu/load # GPU负载 cat /sys/class/misc/mali0/device/utilization # 温度监测 sensors6.2 常见问题排查问题1NPU驱动加载失败解决方法# 重新加载内核模块 sudo modprobe -r rknpu sudo modprobe rknpu问题2Docker容器无法访问GPU确保安装最新版Docker20.10添加用户到docker组使用--privileged参数问题3LLM响应速度慢优化措施改用更小的模型如3B参数降低量化精度q4f16→q8f16关闭无关进程释放内存7. 应用场景建议基于测试结果Mixtile Blade 3非常适合以下场景工业视觉检测24/7稳定运行智能零售分析多摄像头接入边缘语音助手本地LLM部署教育机器人实时交互对于需要更高LLM性能的场景建议等待NPU的LLM支持完善考虑外接PCIe加速卡使用模型蒸馏技术减小参数量8. 开发心得在实际测试中我们总结了这些经验RKNN模型转换时使用--outputs参数明确指定输出节点能提升推理效率对于视频流处理硬编码H.264比软件编码节省30% CPU资源LLM推理时设置OMP_NUM_THREADS8能更好利用CPU多核长期运行AI任务时建议在金属外壳加装散热风扇这套系统的优势在于其平衡的性能和功耗表现特别是在连续运行计算机视觉任务时NPU的能效比尤为突出。不过对于LLM应用目前GPU方案的功耗相对较高期待未来NPU支持的改进。

别再只会画圆了！OpenLayers 6.x 实战：手把手教你绘制扇形、半圆与空心圆环（附完整代码）

OpenLayers 6.x 高级图形绘制实战：从扇形到复杂几何体的工程化实现在监控系统可视化项目中，我们常需要在地图上精确呈现摄像头视场角、重点监测区域等特殊图形。传统方案往往止步于基础圆形和矩形绘制，而真实业务场景需要更丰富的几何表达—…...

2026/5/4 22:43:32 阅读更多 →

Java ZGC深度解析（从ZAddress到Colored Pointers全链路拆解）

更多请点击： https://intelliparadigm.com 第一章：Java ZGC深度解析（从ZAddress到Colored Pointers全链路拆解） ZGC（Z Garbage Collector）是 JDK 11 引入的低延迟垃圾收集器，其核心创新在于**着…...

2026/5/4 22:42:11 阅读更多 →

用ModelSim仿真验证你的FFT设计：从DDS信号生成到频谱分析的完整流程

用ModelSim构建FFT验证闭环：从DDS信号生成到频谱分析的实战指南在数字信号处理领域，快速傅里叶变换（FFT）是实现频域分析的核心算法。对于FPGA开发者而言，如何在仿真环境中验证FFT IP核的功能正确性，是项目…...

2026/5/4 22:39:43 阅读更多 →

ColorControl：一键掌控多设备显示与智能控制的终极方案

ColorControl：一键掌控多设备显示与智能控制的终极方案【免费下载链接】ColorControl Easily change NVIDIA display settings and/or control LG TVs 项目地址: https://gitcode.com/gh_mirrors/co/ColorControl ColorControl 是一个专注于显示参数优化与智…...

2026/5/3 0:11:20 阅读更多 →

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程 1. 安装Taotoken CLI工具 Taotoken CLI工具提供两种安装方式。对于需要频繁使用CLI的场景，推荐全局安装： npm install -g taotoken/taotoken若只需临时使用或避免全局依赖，可通…...

2026/5/3 0:15:20 阅读更多 →

C语言固件完整性保护全栈方案（含国密SM4+可信执行环境TEE落地代码）

更多请点击： https://intelliparadigm.com 第一章：Shell脚本的基本语法和命令 Shebang 与执行方式每个可执行 Shell 脚本的第一行应以 Shebang（ #!/bin/bash）开头，用于指定解释器路径。保存为 hello.sh 后&#xf…...

2026/5/4 17:36:57 阅读更多 →

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由 1. 准备工作在开始集成 Taotoken 之前，需要确保您的开发环境已满足以下条件。Node.js 版本建议使用 18.x 或更高 LTS 版本。通过运行 node -v 可以检查当前版本。如果尚未安装 openai 包，可以…...

2026/5/4 5:56:10 阅读更多 →