1. 环境准备从零搭建Fish-speech开发环境第一次接触Fish-speech时我也被复杂的依赖关系搞得头大。后来发现只要按照正确顺序安装整个过程其实比想象中简单。Windows环境下最麻烦的就是CUDA配置这里我会把踩过的坑都告诉你。先说说硬件要求。虽然Fish-speech官方没有明确说明但实测下来NVIDIA显卡是刚需显存最好8GB以上我用RTX 3060跑得很流畅。CPU反而要求不高i5十代以上就够用。硬盘空间建议预留20GB主要是模型文件比较占地方。软件环境方面强烈推荐使用Anaconda管理Python环境。去年我试过用原生Python安装结果被各种依赖冲突折磨了整整两天。Anaconda的隔离环境能完美解决这个问题。记得安装时一定要勾选Add to PATH选项否则后面会遇到一堆命令找不到的问题。2. 关键步骤详解手把手安装指南2.1 Anaconda环境配置下载Anaconda时有个小技巧官网默认显示的是Python 3.11版本但Fish-speech目前对3.10支持最好。别担心安装完成后我们可以自由创建任意Python版本的环境。我建议下载2023.03版本的Anaconda这个版本比较稳定。安装完成后在开始菜单找到Anaconda Prompt用管理员身份运行。输入以下命令创建专属环境conda create -n fish-speech python3.10 conda activate fish-speech这里有个细节要注意创建环境时加个-n参数指定环境名这样后面切换时不会和其他项目冲突。我见过有人直接用base环境安装结果把其他项目的依赖全搞乱了。2.2 PyTorch与CUDA的完美搭配PyTorch安装是最容易出错的地方。去年帮同事调试时发现不同版本的PyTorch对CUDA要求差异很大。Fish-speech v1.5最佳搭配是pip3 install torch2.4.1 torchvision0.19.1 torchaudio2.4.1 --index-url https://download.pytorch.org/whl/cu121这个组合我实测过十几次从没出过错。关键点在于cu121这个后缀它表示需要CUDA 12.1驱动支持。如果你已经安装了其他版本的CUDA建议先卸载干净再安装12.1版本。3. CUDA配置避坑指南3.1 正确安装CUDA Toolkit很多教程只告诉你要安装CUDA却不说明具体版本。我在三个不同设备上测试发现CUDA 12.1和12.8都能用但12.1更稳定。下载时注意选择exe [local]安装包网络安装经常中途失败。安装时一定要选自定义安装默认安装会塞给你一堆用不到的组件。只需要勾选CUDA → Development ToolsCUDA → Runtime Libraries其他组件如Nsight、Visual Studio集成都可以不装节省磁盘空间。3.2 环境变量设置技巧安装完成后在cmd输入nvcc --version检查是否成功。如果提示命令不存在八成是环境变量没配置好。需要手动添加两个路径将C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1\bin加入PATH新建系统变量CUDA_PATH值为C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1这里有个隐藏坑点有些杀毒软件会阻止修改系统环境变量。如果设置后还是不生效可以尝试重启电脑或暂时关闭杀毒软件。4. 模型下载与推理实战4.1 加速下载模型文件官方提供了两种下载方式我强烈推荐使用镜像站下载。直接运行set HF_ENDPOINThttps://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5这个命令我用百兆宽带测试下载速度能稳定在10MB/s左右。如果中途断网了也不用担心huggingface-cli支持断点续传重新运行命令会自动继续下载。4.2 四种推理方式对比Fish-speech提供了多种推理方式各有优劣命令行推理适合批量处理文本HTTP API方便集成到其他系统GUI界面对新手最友好WebUI功能最全面新手可以从WebUI开始体验python -m tools.run_webui --llama-checkpoint-path checkpoints/fish-speech-1.5 --decoder-checkpoint-path checkpoints/fish-speech-1.5/firefly-gan-vq-fsq-8x1024-21hz-generator.pth --decoder-config-name firefly_gan_vq启动成功后在浏览器访问127.0.0.1:7860就能看到操作界面。第一次加载模型可能需要几分钟耐心等待就好。我测试过生成一段10秒的语音在RTX 3060上耗时约3秒效果相当不错。