Avatar billede mikkel_sommer Nybegynder
07. oktober 2005 - 13:45 Der er 12 kommentarer og
1 løsning

Håndtering/søgning i store XML filer

Jeg påtænker at investere i an XML server platform til at håndtere meget store XML-søgninger.

I min søgning efter den løsning som bedst kunne imødekomme mine krav stødte jeg på nogle artikler som stillede spørgsmålstegn ved effektiviteten ved sådan en server platform.

Er der nogen af jer som er enig i at dette ikke er den bedst løsning og hvis ja hvilke alternativer ville i så foreslå til at håndtere meget store XML-søgninger.

For en god ordens skyld skal jeg måske nævne at de XML filer jeg arbejder på meget vel kan komme op på 500 Mb og samtidig vil jeg også have brug for at kunne arbejde på flere af disse store XML'er samtidig.
Avatar billede arne_v Ekspert
07. oktober 2005 - 13:59 #1
Hvad overvejer du at investere i ?

Software AG 's ?

Jeg har ikke den store erfaring, men sund fornuft siger:
  - XML kræver altid masser af memory (og et gør database normalt også ...)
  - jeg tvivler på at XML databaser er så hurtige som normale relations databaser
  - 500 MB er små data idag
  - hvis XML strukturen er vigtig for søgning så må der være nogle fordele ved
    en XML database

Du kunne jo også prøve at hente den gratis Exist (med Tomcat) og lege
lidt med den for at danne dig et indtryk.
Avatar billede mikkel_sommer Nybegynder
07. oktober 2005 - 14:20 #2
Det kan godt være du har ret i det med XML databaser kontra relations databaser.
Du skulle vel ikke tilfældigvis vide om effektiviteten af disse 2 er blevet testet op imod hinanden og i så fald hvor jeg kan se testresultaterne?
Avatar billede arne_v Ekspert
07. oktober 2005 - 14:30 #3
jeg kender ingen tests
Avatar billede the_torst Nybegynder
07. oktober 2005 - 14:36 #4
Her er en artikel, skrevet af en nåde klog og pæn mand.

http://www.gcn.com/24_6/content_management/35285-1.html

- Billedet af ham siger mindst ligeså meget som selveste artiklen.
Avatar billede arne_v Ekspert
07. oktober 2005 - 21:27 #5
min antagelse er at en XML database performer et sted mellem acceptabelt og godt
til det som den er beregnet til nemlig søgning baseret på tags i velstruktureret XML,
men at det eller et sted mellem langsomt og acceptabelt

det er en specialiseret funktionalitet

men med 500 MB data tror jeg sagtens at du kan få det til at performe på
en moderne computer
Avatar billede mikkel_sommer Nybegynder
12. oktober 2005 - 08:45 #6
Det, jeg har brug for, er essentielt en god stabil database til søgning af data, inklusive fritekstsøgning.

Jeg har dårlig erfaring med Microsoft SQL Server 2000, da deres full-text service er ustabil (full-text search indekser forsvinder).
Desuden kan full-text search indekser heller ikke bruges på cache tabeller, da disse indekser opbygges asynkront og relativt langsomt.
Dvs. i minutterne efter cache tabellerne er opdateret kan man sagtens udføre "almindelige" søgninger, men IKKE full-text søgninger - indekserne er ikke opbygget endnu, og en søgning vil derfor ikke give noget resultat.

SQL LIKE operatoren er alt for langsom, så den kan ikke bruges.

SQL Server 2000 bruges ellers i dag til alt bortset fra søgninger.

XPath søgninger i Document Object Model (DOM) i Microsoft XML Core Services (MSXML) har en relativ god performance.
XML er også fleksibelt da man kan udføre en søgning og få resultatet transformeret direkte til HTML.
Problemet er så, at XML DOM objekter fylder meget i hukommelsen (50MB på disken kan sagtens være lig med 500MB i memory).
Da dokumenterne må caches for at være hurtige er jeg derfor løbet ind i hukommelsesproblemer, og må se efter andre løsninger.

SAX2 kan håndtere store XML dokumenter, men man mister XPath og transformation.
Specielt manglen på XPath udelukker SAX2, da det vil kræve for meget arbejde og løbende vedligeholdelse at udvikle noget tilsvarende.
Avatar billede arne_v Ekspert
12. oktober 2005 - 13:26 #7
Har du prøvet exist ?
Avatar billede Slettet bruger
14. oktober 2005 - 13:01 #8
Giv Berkeley DB XML er shot - du har mulighed for at prøve gratis

http://sleepycat.com/products/xml.shtml
Avatar billede mikkel_sommer Nybegynder
19. oktober 2005 - 09:01 #9
Jeg har været inde på hjemmesiderne for både exist og Berkeley og læse om dem.
Er der nogen af jer som har erfaringer med disse 2?
Avatar billede arne_v Ekspert
19. oktober 2005 - 09:24 #10
Jeg har kun leget lidt med eXist - ikke noget seriøst.
Avatar billede arne_v Ekspert
04. november 2005 - 19:30 #11
kommet videre ?
Avatar billede mikkel_sommer Nybegynder
10. november 2005 - 16:18 #12
Ikke rigtig, tror jeg dropper projektet men tak for jeres indlæg.
Avatar billede mikkel_sommer Nybegynder
10. januar 2006 - 16:02 #13
Vist på tide at lukke dette spørgsmål
Avatar billede Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Loading billede Opret Preview
Kategori
Kurser inden for grundlæggende programmering

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester