Problemer med at indlæse de rette beløb fra faktura
Jeg arbejder lige nu på et program (php), som skal trække konti, beløb, ordrenummer mm. ud af en scannet faktura (pdf fil). Jeg har afprøvet forskellig software som "convert doc", "simple pdf to text","A pdf text extractor" mm. Jeg har ikke haft problemer med at trække tekst ud og efterfølgende finde ordrenummer, konti , leverandør mm og udskrive disse tile en excelfil. Kæden hopper af, når jeg skal finde de beløb, som skal trækkes fra den pågældende konto, da jeg har fundet ud af, at teksten i de scannede filer bliver læst på forskellige måder (vandret, lodret eller hulter til bulter. Pråblemet er uddybet i vedhæftede fil.
INformationerne kan ikke bare hentes fra en database, da pdf filerne kommer fra en leverandør. Det meste virker bortset fra at få de passende beløb ud fra den pågældende konto og uden en løsning på dette vil mit projekt ikke kunne sættes i drift.
Jeg ser frem til at høre fra nogen, som har stået med et lignende problem.
Dit problem er formentligt dit output. Prøv om du kan få din converter til at opfatte dit input som ren tekst uden formatering, hvilket måske kan sættes med parametre.
Typisk vil man dog kontakte leverandøren og høre om det ikke er muligt at få fakturaen i et andet format. De fleste regnskabssystemer har mulighed for at udlæse i andre formater og typisk også i formater der er specielt velegnet til EDI.
Ups, der skulle have stået input i første linje også. :) Du skal undgå al formateringsbehandling i din converter og så selv efterbehandle udtrækket i dine egen kode.
jeg behandler det allerede i egen kode, men problemer er, at tallene ikke bliver læst ind i en logisk rækkefølge, hvilket gør det meget svært at finde de passende beløb til de rigtige konti. NOgle steder kommer rabatten efter "subtotal" og andre steder før "subtotal". Det nemmeste vil være noget der læser kolonnerne lodret for så har beløbene i højre kolonne samme rækkefølge som kontiene i venstre kolonne.
Det er netop det der går galt. Din converter prøver at gætte formateringen og det fejler. Den skal læse det hele som ren tekst og så må du med hjælp af arrays og andet finde de rette værdier.
Jeg kommer videre nu i og med, at jeg har fundet noget som omdanner pdf filerne til txtfiler, hvor positionen på ordene er angivet. Mit problem er nu, at når jeg uploader txtfilen til serveren, kan jeg se nogle mærkelige tegn, når jeg åbner filen (ligner kinesiske tegn). Men jeg kan fint trække teksten ud og vise den i browseren. Her får jeg nøjagtigt den samme tekst, i tekst filen inden jeg uploader den. Probelmet opstår, når jeg skal trække værdier ud vha php.Her kan jeg pludselig kun finde eneklte bogstaver. DVs jeg kan f.eks godt finde strpos på S, men ikke på Sol. Det virker som, at der er usynlige bogstaver mellem hvert bogstav, som kun php koden kan se.
Synes godt om
Ny brugerNybegynder
Din løsning...
Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.