Avatar billede hrole Mester
08. oktober 2010 - 14:29 Der er 5 kommentarer og
1 løsning

Optimering af billede inden OCR

Hej,

Jeg har en stor mængde billeder som kræver bearbejdning inden det kan lykkes at få teksten genkendt via OCR-program.

Billederne er digitale billeder som er taget af skærmen af en mikrokortlæser. Jeg har lavet et lille udsnit af én af siden, så i kan se kvaliteten: http://myfreefilehosting.com/f/56efbba7d6_0.17MB - fuldstændig uredigeret. Jeg har siddet og bøvlet med forbedring, men resultatet er mildest talt elendigt. Derfor ønsker jeg hjælp til hvordan jeg bedst muligt får optimeret billederne så de får færrest fejl når jeg sender dem gennem ABBYY. Jeg har hentet en demo af ABBYY 10 og bruger desuden Irfan 4.27.
Avatar billede milter Ekspert
08. oktober 2010 - 14:57 #1
Jeg har leget lidt med billedet, men jeg tror ikke, du får noget OCR-program til at genkende bogstaverne. Billedet er simpelthen for uskarpt/dårligt.

Du kunne måske få noget brugbart ud af det, men det vil kræve, at du nærmest på pixelniveau skal gentegne alle bogstaverne.
Avatar billede milter Ekspert
08. oktober 2010 - 15:26 #2
Hvis du forklarer, hvad du arbejder med, og i detaljer hvordan du gør det, kan jeg måske hjælpe med forslag til noget brugbart.

Fortæl også, hvad slutresultatet skal bruges til.
Avatar billede hrole Mester
08. oktober 2010 - 16:42 #3
Hej milter,

Som nævnt har jeg en stor portion billeder, hvoraf linket viser en lille del af en af siderne. Billederne kan ikke tages om.

Tanken er at alle disse skal igennem et OCR program (ABBYY) for at få selve teksten til ét dokument.

Det jeg har forsøgt mig med er først at korrigere for den variable lysmængde som kommer fra mikrokortapparatet samt ændre negativ og evt. fix geometry (vha. ScreenShotFixer http://jvo.dk/jvo/screen_shot.htm ). Herefter har jeg forsøgt med Irfan eller MS Office Picture Manager, hvor jeg har eksperimenteret med lysstyrke, kontrast, mellemtoner, mætning og gammakorrektion.

Jeg kan evt. uploade en hel side.
Avatar billede milter Ekspert
08. oktober 2010 - 17:52 #4
Hej hrole.

Du skriver, at du har fotografier, som er taget fra skærmen på en mikrokortlæser. Hvis alle billederne er af samme kvalitet som på dit eksempel fra linket, er jeg bange for, du må finde en anden løsning. Jeg har arbejdet en hel del med billeder på computer, og jeg ville på forhånd opgive at få noget brugbart ud af det til OCR. Der mangler alt for mange detaljer i dem.

Hvis du kigger på billederne ved 100%, vil du se, at "hullerne" i bogstaver som e, a, p, b, m, n og mange andre har samme farve som resten af bogstavet. Nogle steder går to bogstaver sammen i et. Det gør opgaven næsten umulig, og jeg ved af egen erfaring, at den eneste løsning er manuelt at ændre pixelfarven en eller to pixler ad gangen, og det skal gøres både inden i og uden om selve bogstavet. På den måde kan du få et printbart og læseligt billede, men det vil stadig med næsten 100% sikkerhed stadig ikke være godt nok til OCR, og det er mere end bare et kæmpearbejde.

Jeg er ked af det, men hvis ikke billederne kan tages om, må du nok finde en anden løsning end OCR, f.eks. lave dit dokument som en serie billeder eller selv "renskrive" teksterne på din computer.
Avatar billede hrole Mester
08. oktober 2010 - 18:11 #5
Hej milter,

Jeg var også bekymret for kvaliteten, men med slidte mikrokort og en slidt maskine kunne det desværre ikke gøres bedre. Jeg havde faktisk først forsøgt mig med at scanne mikrokortene, men resultatet var endnu dårligere.

Jeg må overveje en anden løsning, men tak for din tid.

Tråden lukkes.
Avatar billede milter Ekspert
08. oktober 2010 - 19:36 #6
Velbekom og held og lykke med projektet.
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
IT-kurser om Microsoft 365, sikkerhed, personlig vækst, udvikling, digital markedsføring, grafisk design, SAP og forretningsanalyse.

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester