technique OCR en 2022
- geibi
- Dragon de bronze
- Messages : 35
- Inscription : Mar 20 Sep 2022 22:18
- Localisation : dans le phare ouest
- Version de D&D préférée : AD&D2
- Univers de D&D préféré : Dark Sun
- Race : Thri-kreen
- Classe : Gladiateur
- Alignement : -
- Dieu : -
technique OCR en 2022
'soir !
Il y a 10 ans, je me suis intéresssé au monde de l'OCR sur PC/Windows/Linux pour un tout autre domaine que le JdR. À base d'outils FOSS et/ou gratuits. Et ce ne fut pas une sinécure. Kolossâle bidouille.
Ça a dû évoluer technologiquement et j'imagine que les membres de l'escouade "Restauration" sont bien à jour sur le sujet. Quelqu'un pourrait me dire en deux mots où l'on en est en 2022, notamment sur l'OCR de textes en français ? Et si possible dans le cadre évoqué ci-dessus, sans me sortir le catalogue Adobe ou autre logiciel pro amortissable sur 10 ans. Je serais content de savoir si quelqu'un connait un système "alternatif" et fonctionnel.
Merci d'avance !
Geibi
Il y a 10 ans, je me suis intéresssé au monde de l'OCR sur PC/Windows/Linux pour un tout autre domaine que le JdR. À base d'outils FOSS et/ou gratuits. Et ce ne fut pas une sinécure. Kolossâle bidouille.
Ça a dû évoluer technologiquement et j'imagine que les membres de l'escouade "Restauration" sont bien à jour sur le sujet. Quelqu'un pourrait me dire en deux mots où l'on en est en 2022, notamment sur l'OCR de textes en français ? Et si possible dans le cadre évoqué ci-dessus, sans me sortir le catalogue Adobe ou autre logiciel pro amortissable sur 10 ans. Je serais content de savoir si quelqu'un connait un système "alternatif" et fonctionnel.
Merci d'avance !
Geibi
- GAYAL
- Dragon d'or
- Messages : 224
- Inscription : Dim 18 Sep 2022 16:19
- Localisation : MAUREPAS (78)
- Version de D&D préférée : AD&D1
- Univers de D&D préféré : Greyhawk
- Race : Gnome
- Classe : Clerc
- Alignement : Chaotique Neutre
- Dieu : ?
Re: technique OCR en 2022
Sujet intéressant
Des fois mon tel il me propose direct de "scanner" du texte; Ca donne çà après le prise, je peux sélectionner le texte que je veux copier

Je peux coller le texte où je veux (là par exemple dans un mail)

Par contre ça marche quand ca veut, et quand je veux en général ça marche pô
Des fois mon tel il me propose direct de "scanner" du texte; Ca donne çà après le prise, je peux sélectionner le texte que je veux copier

Je peux coller le texte où je veux (là par exemple dans un mail)

Par contre ça marche quand ca veut, et quand je veux en général ça marche pô


- Betanaelle
- Dragon d'or
- Messages : 602
- Inscription : Lun 18 Oct 2021 22:29
- Localisation : Colombes
- Version de D&D préférée : AD&D2
- Univers de D&D préféré : Dark Sun
- Race : Thri-kreen
- Classe : Psioniste
- Alignement : Neutre Bon
- Dieu : ?
Re: technique OCR en 2022
Perso j'utilise adobe standart pour faire de l'OCR et si le scanner est bien fait ça récupère tout le texte, c'est une vieille version mais ça fait le taf, les versions plus récente sont payantes avec Creative Cloud
"Les cons ça osent tout. C'est même à ça qu'on les reconnait."
Michel Audiard (Les tontons flingueurs)
"Dialoguer avec un con c'est comme essayer de faire jouir une poupée gonflable. "
Michel Audiard
COMPTE RENDU DE CAMPAGNE DARKSUN
Michel Audiard (Les tontons flingueurs)
"Dialoguer avec un con c'est comme essayer de faire jouir une poupée gonflable. "
Michel Audiard
COMPTE RENDU DE CAMPAGNE DARKSUN
- GroumpF
- Dracoliche
- Messages : 182
- Inscription : Dim 4 Août 2019 17:24
- Localisation : Tronville-en-Barrois
- Version de D&D préférée : AD&D2
- Univers de D&D préféré : Ravenloft
- Race : Humain
- Classe : Mage
- Alignement : Neutre Bon
- Dieu : None
Re: technique OCR en 2022
De mon côté je passe par ce site : https://tools.pdf24.org/fr/ocr-pdf ça fonctionne très bien (faut juste faire quelques essais pour voir ce que l'on veux en résultat) c'est gratos, le seul bémol, c'est parfois la file d'attente...
- szass
- Staff - Façonneur de Donjons
- Messages : 11575
- Inscription : Jeu 29 Mars 2012 15:28
- Localisation : Oubliettes du Donjon
- Version de D&D préférée : AD&D2
- Univers de D&D préféré : Planescape
- Race : Githyanki
- Classe : Illusionniste
- Alignement : Chaotique Neutre
- Dieu : Vlaakith CLVII
- Mini Feuille de perso : Feuilles de personnage ► Afficher le texte
Re: technique OCR en 2022
J'utilise aussi Adobe Acrobat Pro pour les OCR.
Pour un OCR de qualité, il faut minimum des scans en 300 dpi d'après les nombreux tests que j'ai fait.
Mais quel que soit la méthode utilisée, c'est rare d'avoir un truc 100% parfait. Il y aura toujours des coquilles ici et là qui dépendent surtout de la police du document en premier lieu.
Pour un OCR de qualité, il faut minimum des scans en 300 dpi d'après les nombreux tests que j'ai fait.
Mais quel que soit la méthode utilisée, c'est rare d'avoir un truc 100% parfait. Il y aura toujours des coquilles ici et là qui dépendent surtout de la police du document en premier lieu.
Lolth tlu malla. Jal ultrinnan zhah xundus.
- geibi
- Dragon de bronze
- Messages : 35
- Inscription : Mar 20 Sep 2022 22:18
- Localisation : dans le phare ouest
- Version de D&D préférée : AD&D2
- Univers de D&D préféré : Dark Sun
- Race : Thri-kreen
- Classe : Gladiateur
- Alignement : -
- Dieu : -
Re: technique OCR en 2022
Wow, sur un téléphone ? La technologie a bien évolué en effet. Merci pour l'info.
Mais du coup c'est forcément un service online, donc pas intéressant pour moi.
Merci. Mais galaxie Adobe = j'ai pô les moyens et pas mon approche non plus.
Merci. SaaS = que fait-on des données que tu soumets, privacy, etc. Pas pour moi non plus.GroumpF a écrit : ↑Lun 3 Oct 2022 12:53De mon côté je passe par ce site : https://tools.pdf24.org/fr/ocr-pdf
Entendons-nous bien : MERCI beaucoup à vous tous de vos retours ! Ce ne sont pas des solutions que je souhaite utiliser mais c'est intéressant d'avoir cet état des lieux !

Pour les ceusses qui font de la "restauration" pour le DDD, y a-t'il un système commun ou est-ce chacun pour soi avec ses outils ?
Merci à tous,
Geibi
- geibi
- Dragon de bronze
- Messages : 35
- Inscription : Mar 20 Sep 2022 22:18
- Localisation : dans le phare ouest
- Version de D&D préférée : AD&D2
- Univers de D&D préféré : Dark Sun
- Race : Thri-kreen
- Classe : Gladiateur
- Alignement : -
- Dieu : -
Re: technique OCR en 2022
Merci szass. Oui, la qualité du scan est critique. De mon expérience un scan en couleurs pour le doc final + un en N/B pour l'OCR et ensuite je fusionnais le tout après relecture et corrections manuelles.szass a écrit : ↑Lun 3 Oct 2022 12:59J'utilise aussi Adobe Acrobat Pro pour les OCR.
Pour un OCR de qualité, il faut minimum des scans en 300 dpi d'après les nombreux tests que j'ai fait.
Mais quel que soit la méthode utilisée, c'est rare d'avoir un truc 100% parfait. Il y aura toujours des coquilles ici et là qui dépendent surtout de la police du document en premier lieu.
- geibi
- Dragon de bronze
- Messages : 35
- Inscription : Mar 20 Sep 2022 22:18
- Localisation : dans le phare ouest
- Version de D&D préférée : AD&D2
- Univers de D&D préféré : Dark Sun
- Race : Thri-kreen
- Classe : Gladiateur
- Alignement : -
- Dieu : -
Re: technique OCR en 2022
Bon, personne pour me parler de Tesseract ? Apparemment c'est toujours le roi du monde depuis plus de 15 ans. Et le moteur de nombreux systèmes, à part j'imagine Adobe et autre Omnipage qui ont dû développer le leur.
Personne qui l'utilise en direct ou, mieux, qui ait trouvé le front-end de rêve ?
C'est sûr que ce n'est pas la panacée pour l'intégration PDF. Il faut se coltiner pas mal d'étapes manuelles.
Bref, c'est le système que je vais tenter de reprendre en main. Et de m'en aller proposer mes services chez Restauration en parallèle à Traduction
Personne qui l'utilise en direct ou, mieux, qui ait trouvé le front-end de rêve ?
C'est sûr que ce n'est pas la panacée pour l'intégration PDF. Il faut se coltiner pas mal d'étapes manuelles.
Bref, c'est le système que je vais tenter de reprendre en main. Et de m'en aller proposer mes services chez Restauration en parallèle à Traduction

- Zedafty
- Dracoliche
- Messages : 727
- Inscription : Mar 29 Sep 2020 15:31
- Localisation : Berdusk
- Version de D&D préférée : AD&D2.5
- Univers de D&D préféré : Royaumes Oubliés
- Race : Petites-gens
- Classe : Clerc
- Alignement : Neutre Bon
- Dieu : Cyrrollalee
Re: technique OCR en 2022
Hum ! J'utilise aussi PDF24 pour la simplicité depuis quelques années et parce que les résultats m'ont semblé satisfaisants (du moins pas pires qu'avec les logiciels payants tels que Omnipage), mais du coup ça ravive mon intérêt ! Il est vrai que les opérations manuelles après reconnaissance sont parfois très pénibles... (même si à la longue ont fini par s'y faire et avoir des macros efficaces, faut toujours se cogner des relectures qui donnent mal à la tête).
Le projet source de Tesseract est disponible sur SourceForge, et apparemment il existe un certain nombre de GUIs et Front-ends. À tester
Le projet source de Tesseract est disponible sur SourceForge, et apparemment il existe un certain nombre de GUIs et Front-ends. À tester

« Les Dieux ne jouent pas aux dés. » — Elminster
- geibi
- Dragon de bronze
- Messages : 35
- Inscription : Mar 20 Sep 2022 22:18
- Localisation : dans le phare ouest
- Version de D&D préférée : AD&D2
- Univers de D&D préféré : Dark Sun
- Race : Thri-kreen
- Classe : Gladiateur
- Alignement : -
- Dieu : -
Re: technique OCR en 2022
Merci pour la référence ! Ce n'est pas du FOSS mais c'est offline, gratuit, apparemment sans merdouille à l'intérieur, ça utilise Tesseract en moteur OCR et une imprimante virtuelle pour la création du PDF, et en plus c'est un projet maintenu. Que du bon jusque là, je vais regarder de plus près.
De mon côté, oui, je connais bien Tesseract que j'utilisais déà entre 2009 et 2013, à la mimine. Les nouveautés côté front-ends ont l'air intéressantes, il va falloir que je trouve du temps pour regarder ça. Le problème reste toujours l'intégration entre une OCR correcte et la création/manipulation "user-friendly" d'un PDF. C'est là que les gros du secteur pro se positionnent, naturellement. Dur de lutter en open-source.
Ma solution personnelle : un mix de Tesseract, PDFCreator, PDF-XChange Viewer et un p'tit coup de PDFTK Builder de temps à autre.
De mon côté, oui, je connais bien Tesseract que j'utilisais déà entre 2009 et 2013, à la mimine. Les nouveautés côté front-ends ont l'air intéressantes, il va falloir que je trouve du temps pour regarder ça. Le problème reste toujours l'intégration entre une OCR correcte et la création/manipulation "user-friendly" d'un PDF. C'est là que les gros du secteur pro se positionnent, naturellement. Dur de lutter en open-source.
Ma solution personnelle : un mix de Tesseract, PDFCreator, PDF-XChange Viewer et un p'tit coup de PDFTK Builder de temps à autre.
- Attention, les dernières versions de PDFCreator font polémique en incluant des merdwares.
- PDF-XChange Viewer n'est plus maintenu mais toujours distribué. Son remplaçant est plus puissant mais plus lourd et ne me sert à rien.
- Tesseract et PDFTK Builder c'est du sourceforge donc