Comment utiliser Deepseek-OCR ?

Deepseek OCR est un OCR puissant qui tourne en local sur votre machine. Dans cet article, je vous montre comment faire.
Je comptais faire un article sur Deepseek-OCR2 malheureusement, le destin en aura voulu autrement. Les drivers cuda pour ma carte sont trop récent par rapport au projet et j'ai une incompatibilité sur une conversion de float.
Je vais devoir attendre un peu avant de rééssayer.
En revanche, je peux déjà vous montrer comment se comporte le grand frère de Deepseek-OCR2, c'est à dire Deepseek-OCR - tout court -. Déjà ça donnera une idée des perfs du prochain Deepseek-OCR.
Premièrement, je tiens à souligner la facilité avec laquelle on peut s'en servir.
Deepseek-OCR et le second utilisent vLLM, donc, déjà ce n'est pas très compliqué à deploy une version locale.
Mais Deepseek-OCR (1er du nom) est encore plus simple à utiliser parce qu'ils ont carrément fait un model sur ollama.
Donc on n'a qu'un pull à faire et une commande unique:
ollama pull deepseek-ocr
ollama run deepseek-ocr "/path/to/image\nExtract the text in the image."
La documentation ici .
On va refaire le test qu'on a fait dernièrement sur Hunyuan OCR dont je vous vantais les capacités .
On utilise toujours le même scan du magazine afin d'en comparer les résultats, et voici ce que retourne Deepseek-OCR:

Voici le résultat:
**CHUCK YEAGER'S ADVANCED**
**FLIGHT TRAINER**
**ECA env.200F 1 joueur**
**Système: PC**
E numéros tout de suite les différentes options que ce
E programme nous propose. Ce n'est pas un, ni deux,
ni trois avions qu'il est possible de piloter mais dix huit
parmi lesquels le Stealth Fighter (l'avion indétectable) et la
navette spatiale. Pour les angles de vues, toujours la
même abondance. Dix sont disponibles avec des zooms
(jusqu'à 256 fois) et des panoramas. Et, chose encore uni-
que dans ce genre de logiciels, la possibilité de voler avec
la patrouille de l'air américaine. A tout cela, on peut ajou-
ter le vol de nuit.
A chaque avion correspond un tableau de bord sur lequel
sont regroupées les informations suivantes: l'accéleration,
la gravité, la vitesse, l'altitude, le compas, les gouvernes,
la position des volets et du train d'atterrissage, ainsi que
le cap, le temps de jeu et l'heure. Sachez qu'à chaque
fois que vous chargez le jeu, vous retombez sur le tableau
de bord du dernier avion que vous pilotiez. Si le fait de
lire ces informations sur le tableau de bord vous dérange,
il y a toujours la possibilité de brancher le "viser tête
haute" et d'avoir ainsi tous les paramètres projetés sur le
cokpit (pas pour tous les avions, bien sûr!). Le pilotage de
votre avion peut s'effectuer de diverses manières: au jys-
tick, avec un manche à balai, à l'aide de deux joystick (un
pour les commandes d'aliérons et de gouvernes et l'autre
pour l'accélération et les gouvernes), à l'aide d'un joystick
et d'une souris ou enfin à l'aide du clavier. Concernant les
missions, elles sont très nombreuses et le manuel vous
propose de les faire de manière graduee pour, à la fin, in-
tégrer la patrouille des Blue Angels. Il s'agit d'avoir le
coeur bien accroché.
**Encore un Electronic Arts, encore un programme**
**d'excellente qualité. Ce simulateur de vol sur PC**
**possède bien des atouts. Graphismes EGA et**
**VGA magnifiques, rapidité incroyable, vol en for-**
**mation possible avec figures imposées, une multitude**
**d'avions pilotables, chacun avec son propre tableau de**
**bord, des décors différents et parfois complexes, Chuck**
**Yeager's possède bien des atouts pour se défendre face**
**aux autres produits de ce genre. C'est d'ailleurs ce que j'ai**
**vu de plus beau en simulation, mais je regrette tout de**
**même qu'il n'y ait pas du tout de combat et que ce ne soit**
**que du vol pur et dur!**
**Sans aucun doute la plus aboutie**
**des simulations aériennes sur micro.**
**Fonctionne en CGA, EGA**
**et VGA. Pas de version**
**Amiga ou ST prévue.**
**CHUCK YEAGER'S ADVANCED**
**FLIGHT TRAINER**
**GRAPHISME: 87%**
**ANIMATION: 95%**
**SON: 63%**
**REALISME: 90%**
**INTERET: 91%**
On peut constater quelques petites erreurs car il ne savait pas vraiment si la première lettre était sur la ligne 1 ou s'étalait également sur la ligne 2. Mais pour le reste, c'est toujours solide. Constatez cependant un petit détail, Hunyuan OCR avait aussi scanné le numéro de page.
Détail minime mais je me demande si, sur un document qui pourrait exploiter les pieds de page, cela aurait une incidence ?
En tout cas, je trouve que c'est très efficace pour la simplicité d'utilisation, je me souviens d'une époque où l'on devait faire sur Tesseract en lui faisant bouffer des polices d'écriture avant de pouvoir faire de l'OCR par la suite. Ahah
Que faire de l'OCR soit aussi simple aujourd'hui, c'est tout simplement bluffant.
En tout cas j'ai hâte de tester Deepsseek-OCR2 et voir s'il est encore plus robuste.

Alexandre P.
Développeur passionné depuis plus de 20 ans, j'ai une appétence particulière pour les défis techniques et changer de technologie ne me fait pas froid aux yeux.
Poursuivre la lecture dans la rubrique Dev

