Fine-tuning local avec Unsloth + Ollama : le guide complet

Unsloth : 2x plus rapide, 70% moins de mémoire

Unsloth s'impose comme le framework de référence pour le fine-tuning accessible. Il booste les performances de Hugging Face Transformers de 2,5x sur GPU NVIDIA grâce à des kernels GPU optimisés.

Mémoire requise :

Minimum : 3 Go VRAM
QLoRA (4-bit) : Réduit la mémoire de 75%
Modèle 3B : 8 Go VRAM suffisent
Qwen3-14B : Tient sur une Tesla T4 16 Go

LoRA vs QLoRA

LoRA (Low-Rank Adaptation) gèle les poids du modèle et entraîne de petites matrices additionnelles en 16-bit. Le résultat : un adapter de ~100 Mo au lieu de plusieurs Go.

QLoRA combine LoRA avec la quantification 4-bit. Avec les "dynamic 4-bit quants" d'Unsloth, la perte de précision est largement récupérée.

Hyperparamètres recommandés

Paramètre	Valeur
Learning rate	`2e-4` (LoRA) / `5e-6` (RL)
Epochs	1-3
LoRA rank	16 ou 32
LoRA alpha	= rank
Batch size	2
Gradient accumulation	8

Pipeline complet vers Ollama

Installer Unsloth (Colab gratuit ou local)
Choisir le modèle : Llama 3.1, Mistral, Phi-3, Gemma, Qwen3
Préparer le dataset : Format Alpaca, ChatML ou custom
Entraîner avec les hyperparamètres ci-dessus
Sauvegarder l'adapter LoRA (~100 Mo)
Exporter en GGUF pour Ollama
Créer le Modelfile (auto-généré par Unsloth)
Déployer : ollama create mon-modele -f Modelfile

Hardware supporté

Consumer : GeForce RTX (3060 et +)
Pro : RTX PRO workstations
Enterprise : DGX Spark (128 Go unified memory, modèles 30B+)

Cas d'usage

Ajouter des connaissances domaine-spécifiques
Améliorer la précision sur du code
Adapter le ton et la personnalité
Créer des agents spécialisés

Fine-tuning local avec Unsloth + Ollama : le guide complet

Unsloth : 2x plus rapide, 70% moins de mémoire

LoRA vs QLoRA

Hyperparamètres recommandés

Pipeline complet vers Ollama

Hardware supporté

Cas d'usage

Sources

Rédigé par

Paul Forcadel

Parcourir par catégorie

Newsletter

Suivez-nous