onnx之fp16转换，int8量化

张

张建站

2026/5/21 3:59:52

10分钟阅读

FP16 vs INT8一、概述与本质区别1.1 核心差异对比表维度FP16 转换INT8 量化本质精度转换浮点→浮点数据压缩浮点→整数是否需要校准❌ 不需要✅ 必须需要是否需要缩放因子❌ 不需要✅ 需要scale zero_point数据范围~6e-8 到 65504-128 到 127 或 0 到 255精度损失小0.1-1%中等1-3%模型大小压缩比2x4x推理速度提升1.5-2x2-4x硬件要求支持FP16的GPU支持INT8的NPU/GPU二、FP16 转换完整过程数学原理FP16 转换的本质是IEEE 754 标准的精度降级FP32 格式32位 ┌───────┬─────────┬────────────────────┐ │ 符号位 │ 指数位 │ 尾数位 │ │ 1位 │ 8位 │ 23位 │ └───────┴─────────┴────────────────────┘ FP16 格式16位 ┌───────┬─────────┬────────────────────┐ │ 符号位 │ 指数位 │ 尾数位 │ │ 1位 │ 5位 │ 10位 │ └───────┴─────────┴────────────────────┘ 转换公式 FP16 round(FP32) 到最近的 FP16 可表示值三、INT8 量化完整过程数学原理INT8 量化需要将浮点数映射到整数空间量化公式 q round((x / scale) zero_point) 反量化公式 x_approx (q - zero_point) * scale 其中 - x: FP32 值 - q: INT8 量化值-128 到 127 或 0 到 255 - scale: 缩放因子浮点数 - zero_point: 零点整数对应 FP32 的 0四、FP16 vs INT8 关键差异对比# FP16 转换数据流简单直接 FP32 → 位转换 → FP16 无中间步骤 # INT8 量化数据流需要校准 FP32 → [校准阶段] → 确定 scale/zero_point → 量化 → INT8 ↓ 收集统计信息 ↓ 计算最优参数 ↓ KL散度优化五、选择指南5.1 何时选择 FP16def choose_fp16(): FP16 适用场景 conditions [ ✓ GPU 支持 FP16 计算, ✓ 需要保持高精度1% 以内精度损失, ✓ 不需要校准数据, ✓ 快速实现一行代码, ✓ 模型较小或对速度要求不是极致 ] for cond in conditions: print(cond) print(\n推荐场景: 计算机视觉分类、检测等追求精度优先)5.2 何时选择 INT8def choose_int8(): INT8 适用场景 conditions [ ✓ 需要极致压缩4x 压缩比, ✓ 有代表性校准数据, ✓ 可以接受 1-3% 精度损失, ✓ 部署到 NPU 或支持 INT8 的硬件, ✓ 需要最大推理速度 ] for cond in conditions: print(cond) print(\n推荐场景: 移动端部署、边缘设备、实时推理)六、总结特性FP16 转换INT8 量化转换方式直接位转换量化映射校准需求无必须有数据依赖无依赖校准数据分布参数优化无scale, zero_point, 截断阈值算法复杂度O(1)O(n) 需要遍历数据精度损失位宽截断量化截断压缩比2x4x速度提升1.5-2x2-4x实现难度极低中等一句话总结FP16 是无校准的精度降级INT8 是需要校准数据的压缩量化。FP16 像把照片从高清转为标清INT8 像把照片转为黑白像素画。

AI写专著必备攻略：专业工具推荐，轻松开启学术专著创作之旅

学术专著写作困境与AI工具解决方案学术专著的严谨性，离不开大量资料和数据的支持。资料的搜集和数据整合，往往是写作过程中最为繁琐和耗时的环节。研究者必须全面检索国内外的前沿文献，以确保这些文献的权威性和相关性，同时还要…...

2026/3/31 14:15:20 阅读更多 →

手把手教你用AI超分镜像：低清图片3倍放大，细节修复超简单

手把手教你用AI超分镜像：低清图片3倍放大，细节修复超简单 1. 为什么你需要这个AI超分工具？ 你是不是也遇到过这些头疼的情况？ 翻出十几年前的老照片，想打印出来，却发现画面模糊得像蒙了一层雾。从网上下…...

2026/3/31 14:15:14 阅读更多 →

Vue3 + WangEditor v5实战：手把手教你封装一个可复用的自定义样式插件（附源码）

Vue3 WangEditor v5插件封装实战：打造企业级富文本样式解决方案在当今前端开发领域，富文本编辑器的深度定制已成为提升产品体验的关键环节。WangEditor作为国内广受欢迎的富文本编辑器，其v5版本基于Slate.js重构，提供了更强大的…...

2026/3/31 14:14:43 阅读更多 →

app扫描wifi的时候需要打开GPS定位----否则扫不到

这是很奇怪的一个事情，wifi和定位有什么关系？但是就是要打开。...

2026/5/18 6:22:28 阅读更多 →

AMD Ryzen调试神器SMUDebugTool：免费开源工具让你的处理器性能飞起来！

AMD Ryzen调试神器SMUDebugTool：免费开源工具让你的处理器性能飞起来！ 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tab…...

2026/5/19 8:13:30 阅读更多 →

Midjourney抽象表现主义风格迁移全链路（从梵高笔触到AI熵增美学的底层逻辑解密）

更多请点击： https://intelliparadigm.com 第一章：Midjourney抽象表现主义风格迁移全链路（从梵高笔触到AI熵增美学的底层逻辑解密） 抽象表现主义并非仅关乎色彩与笔触的失控，而是神经感知系统在高维特征空间中对抗坍缩…...

2026/5/19 8:47:40 阅读更多 →

2026届毕业生推荐的AI科研方案实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 处在学术研究的起始阶段，开题报告的撰写常常令好多研究生以及青年学者觉得麻烦&…...

2026/5/18 10:49:06 阅读更多 →