Den globale hukommelse

Informationer overlever sjældent ret længe på Internet. Et amerikansk arkiv ønsker at bevare nettet til eftertiden.

Hvem kender ikke meldingen "404 Document not found", der fortæller at målet for et hyperlink ikke længere eksisterer? The Internet Archive, et ambitiøst amerikansk projekt, har sat sig som mål at bekæmpe denne fejlmelding og skabe en global hukommelse, et arkiv over de millioner af digitale dokumenter og billedfiler, der ligger spredt ud over nettet. Arkivet har til dato lagret mere end 4 terabyte (1 terabyte = 1024 gigabyte) af informationer fra Internet. I den dynamiske elektroniske verden, hvor hjemmesider på nettet i gennemsnit ikke holder længere end 75 dage, skal arkivet fungere som en garant for, at vidnesbyrd om den tidlige digitale tidsalder bevares. I fremtiden er det meningen, at brugere, der konfronteres med fejlmeldingen 404, skal kunne springe til The Internet Archive og finde den manglende side her.


Nettets historie


Det er en kendsgerning, at tidlige vidnesbyrd om de forskellige mediers fødsel sjældent overlever. De første filmruller blev f.eks. genbrugt grundet deres indhold af sølv. Informationers levetid forkortes bestandigt. Det er en historisk udvikling, der nok ikke kan stoppes. De gamle stentavler kunne bevare tegn i tusindvis af år, og har bidraget til vores detaljerede viden om forhistorien. Dyreskind og pergamenter var mere skrøbelige, og har kun bevaret få informationer, som vi i vores tid kan bruge i arkæologiske sammenhæng.


Men moderne papir holder sjældent på ordene mere end 20-30 år. Papiret guler, bliver skrøbeligt og vil efter 100 år ikke længere være at tyde. De vigtigste dokumenter kan konserveres, men ofte er det eftertiden, der afgør, hvilke tekster der må betragtes som vigtige fra en given periode. Elektroniske medier fortsætter denne udvikling - standarder og systemer skifter konstant og gør, at få år gamle datamedier allerede er forældede.


Med Internet tager denne udvikling en helt ny og meget skræmmende dimension. Informationer bevares her ofte kun uger eller dage. Nogle steder skifter indholdet hver hele eller halve time. Derefter forsvinder informationerne i nirvana.


Kig godt på dokumenterne - med stor sandsynlighed får du dem aldrig at se igen. "Jeg læste det på Internet" et et udsagn, som ikke har ret meget slagkraft. Det aktuelle er et af de fortrin, som oftest fremhæves ved nettet. Men samtidig er netop det aktuelle, det evige ræs for at være først med nyhederne, skyld i at informationerne kasseres minuttet efter, de ikke længere er relevante. Et øjebliksbillede, der skræmmende hurtigt ændres.


En henvisning til nettet, et hyperlink, mister meget hurtig sin værdi, peger mod tomrum, fordi siderne er nedlagt eller har skiftet adresse.


Arkivet


I 1996 lagde Brewster Kahle, opfinderen af Internet-protokollen WAIS (Wide Area Information Server), grundstenen til det nye digitale arkiv, der med tiden skulle vokse og opsuge informationer fra nettet. Arkivet skal omfatte alle de forskellige tjenester og protokoller, der findes på nettet, f.eks. World Wide Web, nyhedsgrupper, FTP-arkiver og chat-tjenester. The Internet Archive bruger særlige søgeprogrammer, kaldet "crawlers", til at gennemsøge nettet og hente dokumenter ned.
Det er enorme datamængder, som arkivet skal samle og katalogisere.

World Wide Web fylder ca. 1.500 GB, mens det samlede Usenet med sine 20.000 nyhedsgrupper "kun" fylder ca. 250 GB. Søgerobotterne er konstant undervejs på nettet for at finde nye dokumenter - i det øjeblik, hvor programmet har forladt hjemmesiden, kan den allerede have forandret sig i den dynamiske elektroniske verden.


Men hvordan gemmes den enorme mængde informationer? Skal man gemme en GB i ram-hukommelse koster det ca. 50.000 kr, og adgangstiden, altså den tid det tager at hente en given information, er 70 nanosekunder. En harddisk koster kun ca. 1000 kr. pr. GB, men tager 15 milisekunder om at finde en fil.


Den sidste mulighed, som man benytter sig af hos The Internet Archive, er magnetbånd-vekslere i jukebox-format. Denne form for lagring er billig, kun ca. 100 kr. pr. GB, men det tager ca. 4 minutter at finde frem til informationer - det skyldes bl.a., at båndet skal køres på plads og spoles frem eller tilbage grundet den sekventienelle måde, som data lagres på. Arkivet har valgt at lagre de vigtigste og mest efterspurgte informationer på harddiske, mens resten opbevares på magnetbånd - det kan ændre sig fremover, hvis digitale lagermedier bliver billigere.


Digital historie


Et digitalt bibliotek over Internettets tidlige historie. Det er, hvad folkene bag Internet Archive ønsker at skabe. Men det er ikke problemfrit at lagre nettets gigantiske datamængder. Foruden de tekniske problemstillinger, der bl.a. betyder at hele informationsbestanden med kortere eller længere mellemrum skal konverteres til andre styresystemer og/eller filformater, skal de politiske, økonomiske og juridiske forhold også tages med i betragtningen.


Det kan f.eks. blive nødvendigt at oprette geografisk adspredte spejle af arkivet, der beskytter filerne mod censur eller andre restriktioner, som den politiske ledelse kan pålægge det elektroniske bibliotek. En spredning af arkiverne kan også modvirke, at biblioteket falder i lommen på en eller flere økonomiske investorer, der på den ene eller anden måde prøver at udøve en fortrinsret på informationerne.


Det bekymrer også arkivets ophavsmænd, at juridiske spidsfindigheder kan lægge sten i vejen for dokumentationsarbejdet. Et af de mest åbenlyse problemer er ophavsret; skal det overhovedet være tilladt at kopiere materiale fra nettet og gemme det i et arkiv? Men også mere subtile problemstillinger kan volde besvær. Hvis programmer eller materiale, der er tilladt i nogle dele af verden, men forbudt i U.S.A., hentes ned fra nettet og gemmes i arkivet, måske endda automatisk og uden de ansattes viden, hvad er de juridiske implikationer?


Kan en kandidat til Senatet kræve at få slettet de beskeder, som han for tyve år siden skrev til en elektronisk opslagstavle, eller en ung pige forlange at hendes hjemmeside med billedet af hendes tidligere kæreste slettes? Brewster Kahle frygter, måske med ret, at arkivet bliver viklet ind i juridiske slagsmål, der røver energien fra det egentlige dokumentationsarbejde.


Nye tjenester


Hvad skal man bruge den enorme samling informationer til, som langsom ophobes hos The Internet Archive? Et af de få konkrete eksempler, som allerede kan ses på nettet, er skabt af forskeren David Allison fra Smithsonian Institute. Han har brugt materiale fra arkivet til at dokumentere en række hjemmesider, der blev opsat under den amerikanske præsidentkampagne. Projektet havde ikke været muligt uden det digitale bibliotek - de fleste hjemmesider forsvandt dagen efter, at Clinton's sejr var offentliggjort.


Men det stopper bestemt ikke her. Fejlmeldingen "404 Document not found", der fortæller at henvisninger løber ud i sandet, kunne i fremtiden erstattes med et link til The Internet Archive, hvor man kan søge og finde dokumenter, der ellers ikke længere er på nettet. Det ville kræve, at arkivet blev udstyret med nye og kraftige computere, samt at prisen for lagerplads faldt drastisk.


En historisk "Alta Vista" søgemaskine, eller rettere, tidsmaskine? Måske.


The Internet Archive kan også hjælpe i juridiske søgsmål, hvor to parter er uenige omkring, hvilke informationer der var tilgængelige på nettet på bestemte tidspunkter. Hvis et firma f.eks. sagsøger sin konkurrent for uretmæssig brug af interne oplysninger, kan konkurrenten bruge arkivet til at bevise, at informationerne var frit tilgængelige på nettet. Den digitale datasamling tilbyder også helt unikke muligheder for at følge udviklingen på nettet - om 50 år vil det sikkert være en guldgrube for antropologer og historikere.


Hvis arkivet får udviklet programmer, der lader brugeren strikke komplekse tids- og ordbaserede søgninger sammen, kan databestanden bruges til at følge med i spredningen af nyheder og vandrehistorier på nettet - det burde være muligt at synliggøre, hvordan en (falsk) historie først opstår i en nyhedsgruppe, dernæst spredes ud over Usenet og sidst svømmer over til World Wide Web.




    Brancheguiden
    Brancheguide logo
    Opdateres dagligt:
    Den største og
    mest komplette
    oversigt
    over danske
    it-virksomheder
    Hvad kan de? Hvor store er de? Hvor bor de?
    Ciklum ApS
    Offshore software- og systemudvikling.

    Nøgletal og mere info om virksomheden
    Skal din virksomhed med i Guiden? Klik her

    Kommende events
    Cyber Threats 2024: Sådan arbejder de it-kriminelle – og sådan beskytter du dig

    De cyberkriminelle har udviklet sig betydeligt, arbejder professionelt, fleksibelt og udnytter hinandens specifikke kompetencer – omtrent som en velsmurt koncern med klar ansvarsfordeling – og har ofte en klar politisk eller kommerciel motivation. Det stiller også nye krav til din tilgang til cybersikkerhed, og på Cyber Threats 2024 får du viden, som gør dig i stand til bedre at prioritere, planlægge og eksekvere en tidssvarende cybersikkerhedsstrategi.

    12. november 2024 | Læs mere


    Fremtidens digitale kraftværk: Tag styringen med dit ERP-system

    I dag ligger moderne ERP-platforme i skyen og opdateres adskillige gange årligt. Samtidig får man nærmest pr. automatik adgang til en omfattende portefølje af integrationer, add-ons, 3. partsmoduler, BI og avancerede funktioner til AI/ML-understøttelse af forretningsprocesser. På denne dag går vi derfor i dybden med, hvad det betyder for din virksomhed. Uanset om I har migreret til en cloudbaseret platform eller planlægger at gøre det indenfor en overskuelig fremtid.

    13. november 2024 | Læs mere


    Fremtidens digitale kraftværk: Tag styringen med dit ERP-system

    I dag ligger moderne ERP-platforme i skyen og opdateres adskillige gange årligt. Samtidig får man nærmest pr. automatik adgang til en omfattende portefølje af integrationer, add-ons, 3. partsmoduler, BI og avancerede funktioner til AI/ML-understøttelse af forretningsprocesser. På denne dag går vi derfor i dybden med, hvad det betyder for din virksomhed. Uanset om I har migreret til en cloudbaseret platform eller planlægger at gøre det indenfor en overskuelig fremtid.

    21. november 2024 | Læs mere