Page 1 sur 2
technique OCR en 2022
Publié : Dim 2 Oct 2022 22:11
par geibi
'soir !
Il y a 10 ans, je me suis intéresssé au monde de l'OCR sur PC/Windows/Linux pour un tout autre domaine que le JdR. À base d'outils FOSS et/ou gratuits. Et ce ne fut pas une sinécure. Kolossâle bidouille.
Ça a dû évoluer technologiquement et j'imagine que les membres de l'escouade "Restauration" sont bien à jour sur le sujet. Quelqu'un pourrait me dire en deux mots où l'on en est en 2022, notamment sur l'OCR de textes en français ? Et si possible dans le cadre évoqué ci-dessus, sans me sortir le catalogue Adobe ou autre logiciel pro amortissable sur 10 ans. Je serais content de savoir si quelqu'un connait un système "alternatif" et fonctionnel.
Merci d'avance !
Geibi
Re: technique OCR en 2022
Publié : Dim 2 Oct 2022 22:57
par GAYAL
Sujet intéressant
Des fois mon tel il me propose direct de "scanner" du texte; Ca donne çà après le prise, je peux sélectionner le texte que je veux copier
Je peux coller le texte où je veux (là par exemple dans un mail)
Par contre ça marche quand ca veut, et quand je veux en général ça marche pô

Re: technique OCR en 2022
Publié : Lun 3 Oct 2022 10:51
par Betanaelle
Perso j'utilise adobe standart pour faire de l'OCR et si le scanner est bien fait ça récupère tout le texte, c'est une vieille version mais ça fait le taf, les versions plus récente sont payantes avec Creative Cloud
Re: technique OCR en 2022
Publié : Lun 3 Oct 2022 12:53
par GroumpF
De mon côté je passe par ce site :
https://tools.pdf24.org/fr/ocr-pdf ça fonctionne très bien (faut juste faire quelques essais pour voir ce que l'on veux en résultat) c'est gratos, le seul bémol, c'est parfois la file d'attente...
Re: technique OCR en 2022
Publié : Lun 3 Oct 2022 12:59
par szass
J'utilise aussi Adobe Acrobat Pro pour les OCR.
Pour un OCR de qualité, il faut minimum des scans en 300 dpi d'après les nombreux tests que j'ai fait.
Mais quel que soit la méthode utilisée, c'est rare d'avoir un truc 100% parfait. Il y aura toujours des coquilles ici et là qui dépendent surtout de la police du document en premier lieu.
Re: technique OCR en 2022
Publié : Lun 3 Oct 2022 13:18
par geibi
GAYAL a écrit : ↑Dim 2 Oct 2022 22:57
Des fois mon tel il me propose direct de "scanner" du texte
Wow, sur un téléphone ? La technologie a bien évolué en effet. Merci pour l'info.
Mais du coup c'est forcément un service online, donc pas intéressant pour moi.
Betanaelle a écrit : ↑Lun 3 Oct 2022 10:51
Perso j'utilise adobe standart
Merci. Mais galaxie Adobe = j'ai pô les moyens et pas mon approche non plus.
Merci. SaaS = que fait-on des données que tu soumets, privacy, etc. Pas pour moi non plus.
Entendons-nous bien : MERCI beaucoup à vous tous de vos retours ! Ce ne sont pas des solutions que je souhaite utiliser mais c'est intéressant d'avoir cet état des lieux !

Pour les ceusses qui font de la "restauration" pour le DDD, y a-t'il un système commun ou est-ce chacun pour soi avec ses outils ?
Merci à tous,
Geibi
Re: technique OCR en 2022
Publié : Lun 3 Oct 2022 13:20
par geibi
szass a écrit : ↑Lun 3 Oct 2022 12:59
J'utilise aussi Adobe Acrobat Pro pour les OCR.
Pour un OCR de qualité, il faut minimum des scans en 300 dpi d'après les nombreux tests que j'ai fait.
Mais quel que soit la méthode utilisée, c'est rare d'avoir un truc 100% parfait. Il y aura toujours des coquilles ici et là qui dépendent surtout de la police du document en premier lieu.
Merci szass. Oui, la qualité du scan est critique. De mon expérience un scan en couleurs pour le doc final + un en N/B pour l'OCR et ensuite je fusionnais le tout après relecture et corrections manuelles.
Re: technique OCR en 2022
Publié : Mer 5 Oct 2022 17:53
par geibi
Bon, personne pour me parler de Tesseract ? Apparemment c'est toujours le roi du monde depuis plus de 15 ans. Et le moteur de nombreux systèmes, à part j'imagine Adobe et autre Omnipage qui ont dû développer le leur.
Personne qui l'utilise en direct ou, mieux, qui ait trouvé le front-end de rêve ?
C'est sûr que ce n'est pas la panacée pour l'intégration PDF. Il faut se coltiner pas mal d'étapes manuelles.
Bref, c'est le système que je vais tenter de reprendre en main. Et de m'en aller proposer mes services chez Restauration en parallèle à Traduction

Re: technique OCR en 2022
Publié : Lun 10 Oct 2022 11:50
par Zedafty
Hum ! J'utilise aussi
PDF24 pour la simplicité depuis quelques années et parce que les résultats m'ont semblé satisfaisants (du moins pas pires qu'avec les logiciels payants tels que Omnipage), mais du coup ça ravive mon intérêt ! Il est vrai que les opérations manuelles après reconnaissance sont parfois très pénibles... (même si à la longue ont fini par s'y faire et avoir des macros efficaces, faut toujours se cogner des relectures qui donnent mal à la tête).
Le
projet source de Tesseract est disponible sur SourceForge, et apparemment il existe un
certain nombre de GUIs et Front-ends. À tester

Re: technique OCR en 2022
Publié : Lun 10 Oct 2022 14:19
par geibi
Merci pour la référence ! Ce n'est pas du FOSS mais c'est offline, gratuit, apparemment sans merdouille à l'intérieur, ça utilise Tesseract en moteur OCR et une imprimante virtuelle pour la création du PDF, et en plus c'est un projet maintenu. Que du bon jusque là, je vais regarder de plus près.
De mon côté, oui, je connais bien Tesseract que j'utilisais déà entre 2009 et 2013, à la mimine. Les nouveautés côté front-ends ont l'air intéressantes, il va falloir que je trouve du temps pour regarder ça. Le problème reste toujours l'intégration entre une OCR correcte et la création/manipulation "user-friendly" d'un PDF. C'est là que les gros du secteur pro se positionnent, naturellement. Dur de lutter en open-source.
Ma solution personnelle : un mix de Tesseract,
PDFCreator,
PDF-XChange Viewer et un p'tit coup de
PDFTK Builder de temps à autre.
- Attention, les dernières versions de PDFCreator font polémique en incluant des merdwares.
- PDF-XChange Viewer n'est plus maintenu mais toujours distribué. Son remplaçant est plus puissant mais plus lourd et ne me sert à rien.
- Tesseract et PDFTK Builder c'est du sourceforge donc

Vraiment intéressant ton PDF24, là. Merci encore.