OCR

De OpenWikiBSD
Aller à : navigation, rechercher

Mission : Après un scan automatique de documents, il faut récupérer des infos dans l'image et les fournir à des fins de classement.

  • Les paquets
apt-get install tesseract-ocr tesseract-ocr-fra tesseract-ocr-eng
wget http://tesseract-ocr.googlecode.com/files/tesseract-2.00.eng.tar.gz
  • Récupérer le eng.unicharset et le coller dans /usr/share/tesseract-ocr/tessdata
  • Créer un dictionnaire des mots à reconnaitre (1 mot par ligne)
cat gef.user-words
 Polyp
 ...
  • Générer le fichier de dictionnaire :
wordlist2dawg  gef.user-words gef.word-dawg /usr/share/tesseract-ocr/tessdata/gef.unicharset 
combine_tessdata gef.

Ca créera un dictionnaire gef.traineddata


  • Utiliser le dictionnnaire
tesseract  -l gef image.png sortie
  • Limiter les caractères utilisables

Créer dans tessdata/configs un fichier (ex: numbers ) contenant :

tessedit_char_whitelist /0123456789

Puis

tesseract image sortie numbers