Ollama désormais plus performant sur Apple Silicon

Ollama 0.19 booste les LLM en local sur Mac avec MLX, performances, cache optimisé et support NVFP4 pour rapprocher dev local et production.
Ollama 0.19 accélère fortement sur Mac Apple Silicon avec MLX
Ollama passe un cap important avec sa version 0.19 en preview. Jusqu’ici basé sur llama.cpp et GGML, le moteur bascule sur MLX, le framework maison d’Apple pensé pour exploiter à fond l’architecture mémoire unifiée des puces Apple Silicon.
Concrètement, on n’est pas sur une petite optimisation. On change de catégorie en termes de perfs.
Des gains de vitesse qui changent vraiment l’expérience
Sur les puces M5, M5 Pro et M5 Max, Ollama exploite mieux les GPU et les Neural Accelerators.
Résultat, deux métriques clés explosent :
- Temps avant le premier token nettement réduit
- Vitesse de génération quasiment doublée
Sur Qwen3.5-35B :
- Prefill, 1810 tokens par seconde contre 1154 avant
- Decode, 112 tokens par seconde contre 58
On est proche d’un x2 réel. Et ça, en local, sans infra cloud.
NVFP4, la quantisation qui rapproche le local de la prod
Deuxième évolution intéressante, le support du format NVFP4.
L’idée est simple :
- Réduire la mémoire et la bande passante
- Garder une qualité de sortie stable
Ce qui est vraiment malin, c’est l’alignement avec les standards utilisés côté cloud. De plus en plus de providers tournent déjà en NVFP4.
Conséquence directe, vous avez beaucoup moins d’écart entre :
- vos tests en local
- votre comportement en production
Et ça, c’est exactement ce qui manquait jusqu’ici.
Un cache enfin pensé pour les vrais usages
Le cache a été sérieusement revu, et c’est probablement le changement le plus sous-estimé.
- Cache partagé entre conversations
- Checkpoints intelligents dans le prompt
- Éviction plus fine, qui garde les préfixes communs
Si vous utilisez des agents ou des gros system prompts, typiquement avec Claude Code, le gain est immédiat.
Avant, tout repartait quasiment de zéro à chaque requête. Maintenant, vous capitalisez réellement sur le contexte.
Concrètement, pour qui c’est utile
Si vous faites de l’inférence locale sérieuse, c’est clairement pour vous.
Cas typique :
- dev avec agent IA
- génération de code
- workflows offline
Avec Ollama en backend, vous pouvez lancer directement :
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
Mais il faut être lucide :
- Mac Apple Silicon obligatoire
- 32 Go de mémoire unifiée minimum, sinon la différence n'est pas flagrante
Mon avis
C’est un vrai changement technique.
Le passage à MLX permet enfin d’exploiter correctement le hardware Apple, et le support NVFP4 réduit l’écart entre local et cloud, ce qui était un frein énorme dans les workflows sérieux.
Si vous bossez avec des LLM en local sur Mac, vous avez clairement intérêt à tester cette version. Les gains sont suffisamment importants pour changer votre manière de travailler au quotidien.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture dans la rubrique News

