Ollama désormais plus performant sur Apple Silicon

Ollama désormais plus performant sur Apple Silicon
Alexandre P. dans News - mis à jour le 04-04-2026

Ollama 0.19 booste les LLM en local sur Mac avec MLX, performances, cache optimisé et support NVFP4 pour rapprocher dev local et production.

Ollama 0.19 accélère fortement sur Mac Apple Silicon avec MLX

Ollama passe un cap important avec sa version 0.19 en preview. Jusqu’ici basé sur llama.cpp et GGML, le moteur bascule sur MLX, le framework maison d’Apple pensé pour exploiter à fond l’architecture mémoire unifiée des puces Apple Silicon.

Concrètement, on n’est pas sur une petite optimisation. On change de catégorie en termes de perfs.

Des gains de vitesse qui changent vraiment l’expérience

Sur les puces M5, M5 Pro et M5 Max, Ollama exploite mieux les GPU et les Neural Accelerators.

Résultat, deux métriques clés explosent :

  • Temps avant le premier token nettement réduit
  • Vitesse de génération quasiment doublée

Sur Qwen3.5-35B :

  • Prefill, 1810 tokens par seconde contre 1154 avant
  • Decode, 112 tokens par seconde contre 58

On est proche d’un x2 réel. Et ça, en local, sans infra cloud.

NVFP4, la quantisation qui rapproche le local de la prod

Deuxième évolution intéressante, le support du format NVFP4.

L’idée est simple :

  • Réduire la mémoire et la bande passante
  • Garder une qualité de sortie stable

Ce qui est vraiment malin, c’est l’alignement avec les standards utilisés côté cloud. De plus en plus de providers tournent déjà en NVFP4.

Conséquence directe, vous avez beaucoup moins d’écart entre :

  • vos tests en local
  • votre comportement en production

Et ça, c’est exactement ce qui manquait jusqu’ici.

Un cache enfin pensé pour les vrais usages

Le cache a été sérieusement revu, et c’est probablement le changement le plus sous-estimé.

  • Cache partagé entre conversations
  • Checkpoints intelligents dans le prompt
  • Éviction plus fine, qui garde les préfixes communs

Si vous utilisez des agents ou des gros system prompts, typiquement avec Claude Code, le gain est immédiat.

Avant, tout repartait quasiment de zéro à chaque requête. Maintenant, vous capitalisez réellement sur le contexte.

Concrètement, pour qui c’est utile

Si vous faites de l’inférence locale sérieuse, c’est clairement pour vous.

Cas typique :

  • dev avec agent IA
  • génération de code
  • workflows offline

Avec Ollama en backend, vous pouvez lancer directement :

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

Mais il faut être lucide :

  • Mac Apple Silicon obligatoire
  • 32 Go de mémoire unifiée minimum, sinon la différence n'est pas flagrante

Mon avis

C’est un vrai changement technique.

Le passage à MLX permet enfin d’exploiter correctement le hardware Apple, et le support NVFP4 réduit l’écart entre local et cloud, ce qui était un frein énorme dans les workflows sérieux.

Si vous bossez avec des LLM en local sur Mac, vous avez clairement intérêt à tester cette version. Les gains sont suffisamment importants pour changer votre manière de travailler au quotidien.

#ollama#llm#apple#silicon#macbook

user picture

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.