Ollama désormais plus performant sur Apple Silicon

Alexandre P. dans News - mis à jour le 05-04-2026

Ollama 0.19 booste les LLM en local sur Mac avec MLX, performances, cache optimisé et support NVFP4 pour rapprocher dev local et production.

Ollama 0.19 accélère fortement sur Mac Apple Silicon avec MLX

Ollama passe un cap important avec sa version 0.19 en preview. Jusqu’ici basé sur llama.cpp et GGML, le moteur bascule sur MLX, le framework maison d’Apple pensé pour exploiter à fond l’architecture mémoire unifiée des puces Apple Silicon.

Concrètement, on n’est pas sur une petite optimisation. On change de catégorie en termes de perfs.

Des gains de vitesse qui changent vraiment l’expérience

Sur les puces M5, M5 Pro et M5 Max, Ollama exploite mieux les GPU et les Neural Accelerators.

Résultat, deux métriques clés explosent :

Temps avant le premier token nettement réduit
Vitesse de génération quasiment doublée

Sur Qwen3.5-35B :

Prefill, 1810 tokens par seconde contre 1154 avant
Decode, 112 tokens par seconde contre 58

On est proche d’un x2 réel. Et ça, en local, sans infra cloud.

NVFP4, la quantisation qui rapproche le local de la prod

Deuxième évolution intéressante, le support du format NVFP4.

L’idée est simple :

Réduire la mémoire et la bande passante
Garder une qualité de sortie stable

Ce qui est vraiment malin, c’est l’alignement avec les standards utilisés côté cloud. De plus en plus de providers tournent déjà en NVFP4.

Conséquence directe, vous avez beaucoup moins d’écart entre :

vos tests en local
votre comportement en production

Et ça, c’est exactement ce qui manquait jusqu’ici.

Un cache enfin pensé pour les vrais usages

Le cache a été sérieusement revu, et c’est probablement le changement le plus sous-estimé.

Cache partagé entre conversations
Checkpoints intelligents dans le prompt
Éviction plus fine, qui garde les préfixes communs

Si vous utilisez des agents ou des gros system prompts, typiquement avec Claude Code, le gain est immédiat.

Avant, tout repartait quasiment de zéro à chaque requête. Maintenant, vous capitalisez réellement sur le contexte.

Concrètement, pour qui c’est utile

Si vous faites de l’inférence locale sérieuse, c’est clairement pour vous.

Cas typique :

dev avec agent IA
génération de code
workflows offline

Avec Ollama en backend, vous pouvez lancer directement :

ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4

Mais il faut être lucide :

Mac Apple Silicon obligatoire
32 Go de mémoire unifiée minimum, sinon la différence n'est pas flagrante

Mon avis

C’est un vrai changement technique.

Le passage à MLX permet enfin d’exploiter correctement le hardware Apple, et le support NVFP4 réduit l’écart entre local et cloud, ce qui était un frein énorme dans les workflows sérieux.

Si vous bossez avec des LLM en local sur Mac, vous avez clairement intérêt à tester cette version. Les gains sont suffisamment importants pour changer votre manière de travailler au quotidien.

FAQ

Est-ce que ces améliorations fonctionnent sur tous les Mac Apple Silicon ?

Non, les gains les plus significatifs sont mesurés sur les puces M5, M5 Pro et M5 Max. Il faut également au moins 32 Go de mémoire unifiée pour que la différence soit vraiment perceptible au quotidien.

Pourquoi le passage à MLX change autant les performances ?

MLX est conçu par Apple spécifiquement pour l'architecture mémoire unifiée de ses puces, ce qui permet d'exploiter pleinement le GPU et les Neural Accelerators. Avec llama.cpp, ce potentiel matériel était partiellement laissé de côté.

C'est quoi concrètement le format NVFP4 et pourquoi ça m'intéresse ?

C'est un format de quantisation qui réduit la consommation mémoire tout en préservant la qualité des sorties. L'avantage principal est qu'il est déjà utilisé par de nombreux providers cloud, donc vos tests en local collent beaucoup mieux à ce que vous obtiendrez en production.

Le nouveau cache change quelque chose pour les agents IA ?

Oui, c'est probablement le changement le plus utile pour ce cas d'usage. Le cache est maintenant partagé entre conversations et conserve les préfixes communs, ce qui évite de tout recalculer à chaque requête quand vous utilisez de gros system prompts.

Ollama 0.19 est-il stable pour une utilisation quotidienne ?

La version est encore en preview, donc il vaut mieux la tester sur des workflows non critiques avant de l'adopter définitivement, même si les gains annoncés sont substantiels.

#ollama#llm#apple#silicon#macbook

Alexandre P.

Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.

Mes recommandations

QRGen

Générez vos QRcode sur mesure avec ou sans logo.

Poursuivre la lecture

Utiliser un combo RAM/VRAM pour faire de l'IA

Dev

#llm#ram#vram

Utiliser un combo RAM/VRAM pour faire de l'IA

Tester un mix RAM et VRAM pour exécuter des LLM avec Ollama, limites réelles, latence GPU CPU et pourquoi cette approche low cost déçoit sans NPU.

Je clone la voix de Cartman avec Python, PyTorch et TTS

On va apprendre à utiliser Text-To-Speech en Python pour cloner une voix. Ceci est un exemple avec les samples et le résultat pour que vous puissiez voir à quel point les outils IA d'aujourd'hui sont puissants.

Alexandre P.

17 May 2026