【导语4月29日品玩消息Hugging Face近日开源smol - audio代码库为开发者提供本地音频模型二次开发与部署脚手架推动前沿音频模型快速迭代与应用落地。】开源smol - audio搭建音频模型开发部署脚手架Hugging Face正式开源的smol - audio代码库其主要目的是为开发者提供一套完整的本地音频模型二次开发与部署的脚手架。这意味着开发者能够借助该代码库更高效地进行音频模型的开发和部署工作。内置微调脚本支持主流语音大模型该工具库内置了完善的微调脚本并且原生支持Whisper、Parakeet、Voxtral及Granite Speech等主流语音大模型。这使得开发者在使用这些主流模型时可以利用微调脚本进行更精准的模型调整。同时针对Audio Flamingo 3smol - audio提供了全量参数微调及LoRA参考微调的完整代码实现为开发者在该模型的微调方面提供了更多选择和便利。集成模型实现跨模态检索功能在应用层面smol - audio集成了Dia - 1.6B对话级文本转语音模型这为语音交互等应用场景提供了有力支持。此外它还接入了Meta的PE - AV模型支持开箱即用的视频与音频到文本的双向跨模态检索功能大大拓展了音频模型在跨媒体领域的应用范围。编辑观点smol - audio代码库的开源为音频模型开发带来新助力丰富的功能和广泛的模型支持有望加速前沿音频技术的落地应用。