Avatar billede KurtG Forsker
Oprettet i går kl. 17:16 Der er 4 kommentarer

PHP-funktion til at søge i pdf-filer

Jeg skal lave et site, der kan søge i nogle pdf-filer. De indeholder nogle avissider, som er skannet og lavet til søgbar pdf.
Findes der et modul eller lignende til at gøre det og samtidig fortælle hvilken side ordet er fundet på?
Avatar billede arne_v Ekspert
Skrevet i går kl. 17:55 #1
Jeg kan se 3 måder at løse dette på:

1) lav en søge PHP side som itererer over alle filer og bruger et PDF library (som f.eks. FPDF) til at læse filerne. Overkommeligt men langsomt og resourcekrævende.

2) lav et load PHP script som itererer over alle filer og bruger et PDF library (som f.eks. FPDF) til at læse filerne og gemmer teksten i en fulltext database (MySQL har fulltext mulighed) og en søge PHP side som bruger den fulltext database. Mere arbejde men hurtigere og mere effektivt.

3) brug en text search engine med support for PDF (der er mange - en af dem er Solr med Tika), prop PDF filerne ind i den og lave en søge PHP side som requester information via web service kald til  text search engine. Nemt og effektivt, men medmindre din hosting facilitet har sådan noget kørende allerede er det nok for krævende at få op at køre.
Avatar billede KurtG Forsker
Skrevet i går kl. 19:24 #2
Tak, Arne.
Men jeg er ikke helt med: hvad indbefatter itererer?
Avatar billede arne_v Ekspert
Skrevet i går kl. 19:40 #3
Det afhænger af hvordan de PDF filer er organiseret.

Men hvis de bare er i et eller flere separate data directories så kan opendir/readdir/closedir gøre det.

Giver det mening eller snakker jeg sort?
Avatar billede KurtG Forsker
Skrevet i går kl. 19:54 #4
Ikke helt sort, så jeg vil studere dine forslag lidt inden jeg spørger mere dumt!
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Vi tilbyder markedets bedste kurser inden for webudvikling

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester