Hunyuan OCR, un OCR monolithique puissant

Retour d'expérience sur la puissante OCR de Tencent: Hunyuan OCR qui va révolutionner les RAG.
Les OCR sont la base de nos RAG actuels. C'est à dire que c'est le moteur de toutes vos IA auxquels vous donnez vos documents.
Et pour faire un RAG puissant, il faut de la data, certes, donc des documents. Mais surtout, il faut un OCR puissant, parce que s'il reconnait de travers, vous n'irez pas loin !
Qui sont les acteurs qui ont révolutionné l'OCR ces derniers mois ?
Deepseek et Tencent !
Deepseek a fait Deepseek-OCR une bête d'OCR open source.
Vous pensez que ça ne sert à rien ?
Détrompez vous ! Deepseek OCR est un game changer pour les models actuels, surtout ceux de Deepseek.
Il s'en servent pour compresser le contexte permettant à une IA de parler de plus en plus de choses sans pour autant vous griller des tokens ou encore oublier en cours de discussion.
Deepseek va compresser votre contexte dans des pages (comme un scan) qu'il passera à la volée à son OCR pour les décompresser.
Résulat, on passe de 1400 token pour un contexte de base à 140 environ pendant les tests.
Sachez que si les IA vous coutent cher aujourd'hui, c'est beaucoup à cause des limites de contextes et consommation de token. Cette approche permet non seulement de réduire drastiquement l'usage de vos tokens, mais en plus, a permis au chinois de faire des models puissants, sans avoir autant d'accès à la technologie matérielle à cause de l'embargo.
Tout ceci, en plus, en open source. Donc merci de faire avancer la R&D !
Et Tencent, vient de pousser l'exploit, il a créé un model OCR qui change énormément de choses: Hunyuan OCR !
Hunyuan OCR, qu'est-ce que c'est ?
Hunyuan OCR propose une rupture nette avec les systèmes OCR traditionnels en abandonnant les pipelines multi-étapes au profit d’un modèle vision-langage end-to-end.
Là où les approches classiques enchaînent:
détection → reconnaissance → layout → extraction
...avec des erreurs qui se propagent.
Hunyuan OCR apprend tout conjointement dans une seule passe d’inférence, pilotée par des instructions. C'est un système monolithique.
Le résultat est un système plus robuste, plus simple à maintenir et nettement plus cohérent sur des documents complexes.
Malgré une taille modeste (environ 1 milliard de paramètres), Hunyuan OCR est optimisé pour les vrais problèmes OCR : résolution native pour préserver les petits caractères, compréhension du layout 2D, lecture multi-colonnes et structures hétérogènes (tableaux, formules, graphiques).
Il peut produire directement du Markdown, du HTML, du LaTeX ou du JSON, gérer l’extraction d’informations, la traduction multilingue et même les sous-titres vidéo, sans modules externes ni règles ad hoc.
Ce qui distingue réellement Hunyuan OCR, c’est sa discipline d’ingénierie et d’entraînement : données massives et multilingues, génération synthétique poussée, et renforcement basé sur des métriques OCR mesurables (IoU, distance d’édition). Plutôt que de viser la polyvalence d’un modèle généraliste, il se concentre sur la précision, la structure et la déployabilité.
On obtient : un OCR compact, spécialisé, qui rivalise et souvent dépasse, des modèles beaucoup plus lourds sur des tâches documentaires réelles.
Vous pouvez voir un guide d'installation sur Hunyuan OCR ici.
Test de Hunyuan OCR
Pour les plus flemmards, j'ai fait les tests pour vous, pas de panique !
Pour info, il consomme bien 13 Go de VRAM au minimum, et il a suffit que j'utilise 2 ou 3 Go sur ma carte de 16 Go de VRAM (carte secondaire je précise, ce n'est pas mon main GPU pour l'affichage) et vllm ne s'est pas lancé.
Donc assurez vous de cleaner tous les process qui utlisent votre GPU avant le lancement, utilisez nvidia-smi pour le faire.
Maintenant, voici le test, j'ai donné à Hunyuan OCR, un article du magazine rétro Gen 4 des années 90 en abandonware.

Voici ce qu'il en sort:
simulation
CHUCK YEAGER'S ADVANCED FLIGHT TRAINER
ECA env.200F 1 joueur
Systeme: PC
E numérons tout de suite les différentes options que ce programme nous propose. Ce n'est pas un, ni deux, ni trois avions qu'il est possible de piloter mais dix huit parmi lesquels le Stealth Fighter (l'avion indétectable) et la navette spatiale. Pour les angles de vues, toujours la même abondance. Dix sont disponibles avec des zooms (jusqu'à 256 fois) et des panoramas. Et, chose encore unique dans ce genre de logiciels, la possibilité de voler avec la patrouille de l'air américaine. A tout cela, on peut ajouter le vol de nuit.
A chaque avion correspond un tableau de bord sur lequel sont regroupées les informations suivantes: l'accélération, la gravité, la vitesse, l'altitude, le compas, les gouvernes, la position des volets et du train d'atterrissage, ainsi que le cap, le temps de jeu et l'heure. Sachez qu'à chaque fois que vous chargez le jeu, vous retombez sur le tableau de bord du dernier avion que vous pilotiez. Si le fait de lire ces informations sur le tableau de bord vous dérange, il y a toujours la possibilité de brancher le "viseur tête haute" et d'avoir ainsi tous les paramètres projetés sur le cokpit (pas pour tous les avions, bien sûr!). Le pilotage de votre avion peut s'effectuer de diverses manières: au joystick, avec un manche à balai, à l'aide de deux joystick (un pour les commandes d'ailerons et de gouvernes et l'autre pour l'accélération et les gouvernes), à l'aide d'un joystick et d'une souris ou enfin à l'aide du clavier. Concernant les missions, elles sont très nombreuses et le manuel vous propose de les faire de manière graduée pour, à la fin, intégrer la patrouille des Blue Angels. Il s'agit d'avoir le cœur bien accroché.
Encore un Electronic Arts, encore un programme d'excellente qualité. Ce simulateur de vol sur PC possède bien des atouts. Graphismes EGA et VGA magnifiques, rapidité incroyable, vol en formation possible avec figures imposées, une multitude d'avions pilotables, chacun avec son propre tableau de bord, des décors différents et parfois complexes, Chuck Yeager s possède bien des atouts pour se défendre face aux autres produits de ce genre. C'est d'ailleurs ce que j'ai vu de plus beau en simulation, mais je regrette tout de même qu'il n'y ait pas du tout de combat et que ce ne soit que du vol pur et dur!
Fonctionne en CGA, EGA et VGA. Pas de version Amiga ou ST prévue.
Sans aucun doute la plus aboutie des simulations aériennes sur micro.
CHUCK YEAGER'S ADVANCED FLIGHT TRAINER
GRAPHISME: 87%
ANIMATION: 95%
SON: 63%
REALISME: 90%
INTERET: 91%
53
Franchement, le résultat n'est pas mauvais ! Je suis sacrément surpris, notez qu'il a reproduit la structure du texte qu'il a lu, d'où les espaces un peu aléatoire sur le E d'énumérons.
Je trouve que ça marche très très bien, en local chez vous, sans vous couter un rond à la consommation (en dehors du courant).
Si vous vous posez encore des questions, demandez vous ce qu'on peut faire avec une petite boucle et une base entière de documents, le tout digéré ensuite par un RAG pour devenir une base de connaissance sur-puissante.
Pas mal non ? Bravo Tencent !

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture dans la rubrique News

