Denne artikel stammer fra det trykte Computerworlds arkiv. Artiklen blev publiceret den Computerworld d. 4. oktober 2002.
Data mining-teknologi har gjort det muligt for ungarske historikere at klarlægge, hvad der skete med titusindvis af forsvundne ungarske krigsfanger.
Ungarske historikere har taget en for historikere utraditionel teknik i brug. Opgaven har været at finde ud af, hvilken skæbne, der egentlig overgik tusinder af de ungarske soldater, som blev taget til fange af Den røde Hær i slutningen af Anden Verdenskrig.
Metoden, der blev anvendt, var data mining af materiale samlet i forfaldne arkiver.
Ungarn kæmpede fra 1941 til 1945 på tysk side og sovjetiske tropper tog næsten en million ungarske fanger, hvoraf 750.000 døde i krigsfangelejre og koncentrationslejre.
De oplysninger historikerne nu er nået frem til skal blandt andet anvendes til at yde erstatning til de efterladte ifølge de love om kompensation, der blev vedtaget i Ungarn i 1990 efter kommunismens sammenbrud.
Samtidig anvendes materialet både af ungarske historikere, det ungarske Røde Kors og private brugere, der søger oplysninger om de forsvundne.
Analyse og kategorisering
Historikerne har anvendt et data mining system fra SAS Institute til at anlysere og kategorisere hundredetusindvis af dokumenter.
Data mining projektet er gennemført af historikerne i samarbejde med det ungarske it-konsulentfirma KFKI ISYS. Der har opbygget et data warehouse med oplysninger om krigsfangerne.
Grundmaterialet for forskningen er 58.781 optegnelser fra den russiske efterretningstjeneste NKVD's arkiver samt 630.897 dokumenter fra ungarske arkiver.
Dokumentkilderne var meget omfattende, usorterede, stort set ulæselige og skrevet både med kyrilliske og latinske bogstaver. Metodikken i optegnelserne fra de forskellige kilder var desuden vidt forskellig, og derfor på alle måder svære at have at gøre med.
Datakvalitet i centrum
En væsentlig opgave har således været den oprensning af data, der svarer til hvad der sker, når man opbygger et datawarehouse i en virksomhed.
Historikerne og it-specialisterne har anvendt særlige algoritmer til at skabe tre forskellige statistiske analysemetoder kombineret med sandsynlighedsberegninger. På den måde er informationer om blandt andet navne, tid og sted blevet sammenkædet på kryds og tværs.
Historikerne har opstillet kriterier for, hvor højt sammenfaldet af informationer fra de forskellige kilder skal være, for at de kan tillægges den tilstrækkelige sandhedsværdi.
Den fejltype, der har været afgørende, er først og fremmest manglende sammenfald mellem personer i arkiverne. Dernæst er de forskellige informations-par, hvor informationerne ikke stemmer tilstrækkeligt overens identificeret og sorteret fra.
På denne måde er historikerne nået frem til at klassificere omkring 36.000 personer, hvor sammenfaldet af oplysningerne fra de forskellige kilder er så stort, at det er sandsynligt, at informationerne er korrekte.
Navnene er nu lagt ud på webstedet www.hadifogoly.adatbanyaszat.hu. Her er det muligt for brugere at søge på informationerne i data warehouset.
Billedtekst:
Arkiverne har som det fremgår øverst fået lov at forfalde de sidste godt 50 år.
Billedtekst:
Kildematerialet i de sammenlignede arkiver er af meget vekslende kvalitet. Her ses ungarsk materiale.