Unsloth : 2x plus rapide, 70% moins de mémoire
Unsloth s'impose comme le framework de référence pour le fine-tuning accessible. Il booste les performances de Hugging Face Transformers de 2,5x sur GPU NVIDIA grâce à des kernels GPU optimisés.
Mémoire requise :
- Minimum : 3 Go VRAM
- QLoRA (4-bit) : Réduit la mémoire de 75%
- Modèle 3B : 8 Go VRAM suffisent
- Qwen3-14B : Tient sur une Tesla T4 16 Go
LoRA vs QLoRA
LoRA (Low-Rank Adaptation) gèle les poids du modèle et entraîne de petites matrices additionnelles en 16-bit. Le résultat : un adapter de ~100 Mo au lieu de plusieurs Go.
QLoRA combine LoRA avec la quantification 4-bit. Avec les "dynamic 4-bit quants" d'Unsloth, la perte de précision est largement récupérée.
Hyperparamètres recommandés
| Paramètre | Valeur |
|---|---|
| Learning rate | 2e-4 (LoRA) / 5e-6 (RL) |
| Epochs | 1-3 |
| LoRA rank | 16 ou 32 |
| LoRA alpha | = rank |
| Batch size | 2 |
| Gradient accumulation | 8 |
Pipeline complet vers Ollama
- Installer Unsloth (Colab gratuit ou local)
- Choisir le modèle : Llama 3.1, Mistral, Phi-3, Gemma, Qwen3
- Préparer le dataset : Format Alpaca, ChatML ou custom
- Entraîner avec les hyperparamètres ci-dessus
- Sauvegarder l'adapter LoRA (~100 Mo)
- Exporter en GGUF pour Ollama
- Créer le Modelfile (auto-généré par Unsloth)
- Déployer :
ollama create mon-modele -f Modelfile
Hardware supporté
- Consumer : GeForce RTX (3060 et +)
- Pro : RTX PRO workstations
- Enterprise : DGX Spark (128 Go unified memory, modèles 30B+)
Cas d'usage
- Ajouter des connaissances domaine-spécifiques
- Améliorer la précision sur du code
- Adapter le ton et la personnalité
- Créer des agents spécialisés