OCR med PDF-tendenser

Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 15. november 2002.


OmniPage Pro 12 er et tekstgenkendelsesprogram, som også kan fiske tekst ud af PDF-filer. Og det kan være praktisk i mange tilfælde.

Omnipage Pro

OCR-programmer er normalt ikke noget, man køber, for der kommer et med til enhver scanner. Og disse programmer er da også glimrende til at kunne fortolke den A4-side, som lige skal konverteres i ny og næ.

Men der skal mere kapable programmer til at klare A4-ark i stabelvis. Her er det store hit at kunne lægge stablen i en arkføder og automatisere processen.

Scanningen skal helst være så intelligent, at tabeller ender som ægte tabeller i tekstbehandlingen eller direkte som regneark.

Det er lige præcis, hvad Scansoft OmniPage Pro har været specialist i igennem de sidste mange versioner.

Unik PDF-håndtering
Version 12 har fået en interessant ny egenskab. Nu kan programmet nemlig også scanne PDF-filer og hælde tekstindholdet direkte ind i ens tekstbehandling. Efterhånden kommer der meget dokumentation direkte som Adobe Acrobat PDF-filer, og ønsker man at ændre i det, skal man enten købe Adobes Acrobatprogram eller have fat i dem, der har dannet PDF-filen for at få en tekstbehandlingsklar og redigerbar tekstfil.

Med Omnipage Pro 12 er det bare at læse PDF-filen ind i programmet og trykke på fortolk-knappen, hvorefter teksten suges ud. Eller sådan burde det være. Programmet printer nemlig først PDF-filen ud i en diskfil, som det derefter læser igennem. Det virker, men det er langsomt.

Programmet er nemlig meget sultent efter datakraft. Vi prøvede at fortolke en af Adobes gratis PDF e-bøger på 148 sider. Det tog omkring et minut per side på en Pentium III 400 MHz computer med 192 megabyte ram. Tiden blev nedbragt med 30 procent på en AMD Athlon 800 MHz med 256 megebyte ram. Men alligevel.

Almindelige TIFF-filer fra en scanning tog omkring 20 sekunder per side på den langsomme af testmaskinerne. Scansoft reklamerer med, at programmet er blevet 80 procent hurtigere til PDF-håndtering. På den baggrund er vi glade over ikke at have fået version 11.

Bedst på stor skærm
Programmet er rigtig dygtigt til at genkende tekster, og mulighederne for at kunne oplære det til bedre tekstgenkendelse er glimrende.

Også kontrol-funktionerne er udmærkede, idet man kan se det indscannede samtidigt med, at man kan se den fortolkede tekst og dermed checke, om programmet misforstår noget og rette op på det. Men programmet optræder bedst på en 19 eller 21 tommer skærm, idet man derved kan checke en A4-side ad gangen.

En lidt usædvanlig egenskab er mulighed for at få den scannede tekst læst højt af programmet, hvilket kan være nyttigt. Dog er stemme-syntesen ikke for dygtig til dansk.

Programmet kan eksportere de genkendte tekster i mange formater, blandt andet PDF, HTML og XML.
Alt i alt et kompetent program, der kan klare alle en virksomhed scanningsopgaver, så snart der kommer muskler bagved.

Boks:
OmniPage Pro 12 Office

Pris: 4.655,- eksklusive moms for en fuld version.
www.scansoft.dk

+

¥ Kompetent tekstgenkendelse
¥ PDF-understøttelse
¥ God arbejdsgang
¥ Mange eksport-muligheder

¥ Ressourcekrævende
¥ Kræver stor skærm




Brancheguiden
Brancheguide logo
Opdateres dagligt:
Den største og
mest komplette
oversigt
over danske
it-virksomheder
Hvad kan de? Hvor store er de? Hvor bor de?
Højer og Lauritzen ApS
Distributør af pc- og printertilbehør.

Nøgletal og mere info om virksomheden
Skal din virksomhed med i Guiden? Klik her

Kommende events
Bliv klar til AI Act: Det vil påvirke både din udvikling, drift og organisation

Fordelene ved at anvende kunstig intelligens bliver stadig mere udtalte, og både som virksomhed og myndighed er det i stigende grad uholdbart ikke at udforske mulighederne. Men der er også risici forbundet på den nye teknologi, og på dette formiddagsseminar ser vi på, hvordan verdens første regulatoriske kompleks – EUs kommende AI Act – adresserer behovet for en etisk, ansvarlig og kontrolleret anvendelse af AI.

20. august 2024 | Læs mere


Det Digitale Produktpas

Kom med og hør om, hvordan du kommer i gang med at sikre din virksomhed er klar til Det Digitale Produktpas. Vi sætter fokus på, hvordan du bliver klædt på til at få styr og struktur på dine data, samt hvilke krav du skal sætte til dine leverandører og andre i din værdikæde, for at sikre den nødvendige information er tilgængelig.

21. august 2024 | Læs mere


Cyber Security Summit 2024

På Cyber Security Summit får du indsigt i det aktuelle trusselslandskab, overblikket over de nyeste værktøjer og trends indenfor sikkerhedsløsninger, indsigt i de relevante rammeværktøjer og krav samt de bedste løsninger og værktøjer til at sikre effektiv drift og høj compliance.

27. august 2024 | Læs mere