technique OCR en 2022

Vous avez une question concernant le site et son utilisation, un commentaire à faire, un bug à reporter ou une faute d'orthographe, c'est par ici.
Avatar de l’utilisateur
geibi
Dragon de bronze
Messages : 35
Inscription : Mar 20 Sep 2022 22:18
Localisation : dans le phare ouest
Version de D&D préférée : AD&D2
Univers de D&D préféré : Dark Sun
Race : Thri-kreen
Classe : Gladiateur
Alignement : -
Dieu : -

technique OCR en 2022

Message par geibi »

'soir !

Il y a 10 ans, je me suis intéresssé au monde de l'OCR sur PC/Windows/Linux pour un tout autre domaine que le JdR. À base d'outils FOSS et/ou gratuits. Et ce ne fut pas une sinécure. Kolossâle bidouille.

Ça a dû évoluer technologiquement et j'imagine que les membres de l'escouade "Restauration" sont bien à jour sur le sujet. Quelqu'un pourrait me dire en deux mots où l'on en est en 2022, notamment sur l'OCR de textes en français ? Et si possible dans le cadre évoqué ci-dessus, sans me sortir le catalogue Adobe ou autre logiciel pro amortissable sur 10 ans. Je serais content de savoir si quelqu'un connait un système "alternatif" et fonctionnel.

Merci d'avance !
Geibi
Avatar de l’utilisateur
GAYAL
Dragon d'or
Messages : 229
Inscription : Dim 18 Sep 2022 16:19
Localisation : MAUREPAS (78)
Version de D&D préférée : AD&D1
Univers de D&D préféré : Greyhawk
Race : Gnome
Classe : Clerc
Alignement : Chaotique Neutre
Dieu : ?

Re: technique OCR en 2022

Message par GAYAL »

Sujet intéressant

Des fois mon tel il me propose direct de "scanner" du texte; Ca donne çà après le prise, je peux sélectionner le texte que je veux copier
Image

Je peux coller le texte où je veux (là par exemple dans un mail)
Image

Par contre ça marche quand ca veut, et quand je veux en général ça marche pô :saispas:
Image
Avatar de l’utilisateur
Betanaelle
Dragon d'or
Messages : 609
Inscription : Lun 18 Oct 2021 22:29
Localisation : Colombes
Version de D&D préférée : AD&D2
Univers de D&D préféré : Dark Sun
Race : Thri-kreen
Classe : Psioniste
Alignement : Neutre Bon
Dieu : ?

Re: technique OCR en 2022

Message par Betanaelle »

Perso j'utilise adobe standart pour faire de l'OCR et si le scanner est bien fait ça récupère tout le texte, c'est une vieille version mais ça fait le taf, les versions plus récente sont payantes avec Creative Cloud
"Les cons ça osent tout. C'est même à ça qu'on les reconnait."
Michel Audiard (Les tontons flingueurs)
"Dialoguer avec un con c'est comme essayer de faire jouir une poupée gonflable. "
Michel Audiard
COMPTE RENDU DE CAMPAGNE DARKSUN
Avatar de l’utilisateur
GroumpF
Dracoliche
Messages : 183
Inscription : Dim 4 Août 2019 17:24
Localisation : Tronville-en-Barrois
Version de D&D préférée : AD&D2
Univers de D&D préféré : Ravenloft
Race : Humain
Classe : Mage
Alignement : Neutre Bon
Dieu : None

Re: technique OCR en 2022

Message par GroumpF »

De mon côté je passe par ce site : https://tools.pdf24.org/fr/ocr-pdf ça fonctionne très bien (faut juste faire quelques essais pour voir ce que l'on veux en résultat) c'est gratos, le seul bémol, c'est parfois la file d'attente...
Avatar de l’utilisateur
szass
Staff - Façonneur de Donjons
Messages : 11619
Inscription : Jeu 29 Mars 2012 15:28
Localisation : Oubliettes du Donjon
Version de D&D préférée : AD&D2
Univers de D&D préféré : Planescape
Race : Githyanki
Classe : Illusionniste
Alignement : Chaotique Neutre
Dieu : Vlaakith CLVII
Mini Feuille de perso :
Feuilles de personnage ► Afficher le texte

Re: technique OCR en 2022

Message par szass »

J'utilise aussi Adobe Acrobat Pro pour les OCR.
Pour un OCR de qualité, il faut minimum des scans en 300 dpi d'après les nombreux tests que j'ai fait.
Mais quel que soit la méthode utilisée, c'est rare d'avoir un truc 100% parfait. Il y aura toujours des coquilles ici et là qui dépendent surtout de la police du document en premier lieu.
Lolth tlu malla. Jal ultrinnan zhah xundus.
Avatar de l’utilisateur
geibi
Dragon de bronze
Messages : 35
Inscription : Mar 20 Sep 2022 22:18
Localisation : dans le phare ouest
Version de D&D préférée : AD&D2
Univers de D&D préféré : Dark Sun
Race : Thri-kreen
Classe : Gladiateur
Alignement : -
Dieu : -

Re: technique OCR en 2022

Message par geibi »

GAYAL a écrit :
Dim 2 Oct 2022 22:57
Des fois mon tel il me propose direct de "scanner" du texte
Wow, sur un téléphone ? La technologie a bien évolué en effet. Merci pour l'info.
Mais du coup c'est forcément un service online, donc pas intéressant pour moi.
Betanaelle a écrit :
Lun 3 Oct 2022 10:51
Perso j'utilise adobe standart
Merci. Mais galaxie Adobe = j'ai pô les moyens et pas mon approche non plus.
GroumpF a écrit :
Lun 3 Oct 2022 12:53
De mon côté je passe par ce site : https://tools.pdf24.org/fr/ocr-pdf
Merci. SaaS = que fait-on des données que tu soumets, privacy, etc. Pas pour moi non plus.

Entendons-nous bien : MERCI beaucoup à vous tous de vos retours ! Ce ne sont pas des solutions que je souhaite utiliser mais c'est intéressant d'avoir cet état des lieux ! :)
Pour les ceusses qui font de la "restauration" pour le DDD, y a-t'il un système commun ou est-ce chacun pour soi avec ses outils ?

Merci à tous,
Geibi
Avatar de l’utilisateur
geibi
Dragon de bronze
Messages : 35
Inscription : Mar 20 Sep 2022 22:18
Localisation : dans le phare ouest
Version de D&D préférée : AD&D2
Univers de D&D préféré : Dark Sun
Race : Thri-kreen
Classe : Gladiateur
Alignement : -
Dieu : -

Re: technique OCR en 2022

Message par geibi »

szass a écrit :
Lun 3 Oct 2022 12:59
J'utilise aussi Adobe Acrobat Pro pour les OCR.
Pour un OCR de qualité, il faut minimum des scans en 300 dpi d'après les nombreux tests que j'ai fait.
Mais quel que soit la méthode utilisée, c'est rare d'avoir un truc 100% parfait. Il y aura toujours des coquilles ici et là qui dépendent surtout de la police du document en premier lieu.
Merci szass. Oui, la qualité du scan est critique. De mon expérience un scan en couleurs pour le doc final + un en N/B pour l'OCR et ensuite je fusionnais le tout après relecture et corrections manuelles.
Avatar de l’utilisateur
geibi
Dragon de bronze
Messages : 35
Inscription : Mar 20 Sep 2022 22:18
Localisation : dans le phare ouest
Version de D&D préférée : AD&D2
Univers de D&D préféré : Dark Sun
Race : Thri-kreen
Classe : Gladiateur
Alignement : -
Dieu : -

Re: technique OCR en 2022

Message par geibi »

Bon, personne pour me parler de Tesseract ? Apparemment c'est toujours le roi du monde depuis plus de 15 ans. Et le moteur de nombreux systèmes, à part j'imagine Adobe et autre Omnipage qui ont dû développer le leur.
Personne qui l'utilise en direct ou, mieux, qui ait trouvé le front-end de rêve ?
C'est sûr que ce n'est pas la panacée pour l'intégration PDF. Il faut se coltiner pas mal d'étapes manuelles.

Bref, c'est le système que je vais tenter de reprendre en main. Et de m'en aller proposer mes services chez Restauration en parallèle à Traduction ;)
Avatar de l’utilisateur
Zedafty
Dracoliche
Messages : 740
Inscription : Mar 29 Sep 2020 15:31
Localisation : Berdusk
Version de D&D préférée : AD&D2.5
Univers de D&D préféré : Royaumes Oubliés
Race : Petites-gens
Classe : Clerc
Alignement : Neutre Bon
Dieu : Cyrrollalee

Re: technique OCR en 2022

Message par Zedafty »

Hum ! J'utilise aussi PDF24 pour la simplicité depuis quelques années et parce que les résultats m'ont semblé satisfaisants (du moins pas pires qu'avec les logiciels payants tels que Omnipage), mais du coup ça ravive mon intérêt ! Il est vrai que les opérations manuelles après reconnaissance sont parfois très pénibles... (même si à la longue ont fini par s'y faire et avoir des macros efficaces, faut toujours se cogner des relectures qui donnent mal à la tête).

Le projet source de Tesseract est disponible sur SourceForge, et apparemment il existe un certain nombre de GUIs et Front-ends. À tester ;)
« Les Dieux ne jouent pas aux dés. » Elminster
Avatar de l’utilisateur
geibi
Dragon de bronze
Messages : 35
Inscription : Mar 20 Sep 2022 22:18
Localisation : dans le phare ouest
Version de D&D préférée : AD&D2
Univers de D&D préféré : Dark Sun
Race : Thri-kreen
Classe : Gladiateur
Alignement : -
Dieu : -

Re: technique OCR en 2022

Message par geibi »

Merci pour la référence ! Ce n'est pas du FOSS mais c'est offline, gratuit, apparemment sans merdouille à l'intérieur, ça utilise Tesseract en moteur OCR et une imprimante virtuelle pour la création du PDF, et en plus c'est un projet maintenu. Que du bon jusque là, je vais regarder de plus près.

De mon côté, oui, je connais bien Tesseract que j'utilisais déà entre 2009 et 2013, à la mimine. Les nouveautés côté front-ends ont l'air intéressantes, il va falloir que je trouve du temps pour regarder ça. Le problème reste toujours l'intégration entre une OCR correcte et la création/manipulation "user-friendly" d'un PDF. C'est là que les gros du secteur pro se positionnent, naturellement. Dur de lutter en open-source.

Ma solution personnelle : un mix de Tesseract, PDFCreator, PDF-XChange Viewer et un p'tit coup de PDFTK Builder de temps à autre.
  • Attention, les dernières versions de PDFCreator font polémique en incluant des merdwares.
  • PDF-XChange Viewer n'est plus maintenu mais toujours distribué. Son remplaçant est plus puissant mais plus lourd et ne me sert à rien.
  • Tesseract et PDFTK Builder c'est du sourceforge donc :bisous:
Vraiment intéressant ton PDF24, là. Merci encore.
Répondre

Revenir vers « Questions et commentaires »