Open source-projektet som alle it-giganterne elskede

Af alle de open source-projekter, der eksisterer, får særligt ét af dem opbakning af de helt tunge drenge i it-industrien.

6. maj 2013 kl. 12.20

Kim Stensdal Teknologiredaktør

Twitter
@kimstensdal

ComputerViews: Man talte om Ubuntu til desktoppen, man talte om LibreOffice som kontorpakke, man talte om open source CRM og et hav af andre erhvervs-løsninger, der byggede på på fællesskabets styrker og den åbne kildekode.

Men langt de fleste virksomheder fortsatte med at bruge penge på Microsofts Windows og Office, og man holdt fast i de helt traditionelle, proprietære ERP/CRM/BI-løsninger fra sådan helt traditionelle, kommercielle leverandører.

Lige indtil en helt ny open source løsning i 2005 entrerede it-markedet med en gul elefant som varemærke.

I dag er open source frameworket Hadoop talk of town ikke bare i open source-land, men hos de absolut mest gennem-kommercialiserede virksomheder, der eksisterer på denne klode.

Sådan kom det til verden

Det var den Yahoo-ansatte Doug Cutting, der sammen med Mike Cafarella ifølge Wikipedia startede Hadoop-projektet tilbage i 2005.

Navnet Hadoop stammer efter sigende fra en tøjelefant, der tilhørte Doug Cuttings søn.

Siden 2005 har elefanten vokset sig større og større, og i dag er Hadoop nærmest synonymt med en af tidens hotteste it-trends, big data.

Som det fremgår af en liste over prominente Hadoop-brugere og -støtter, er der tale om en stribe af verdens absolut største it-selskaber.

Listen tæller blandt andre Amazon, Apple, IBM, Facebook, Google og Microsoft.

Det er nu ikke så underligt, at netop de helt tunge selskaber bakker op om et open source-projekt som Hadoop, for det er netop hos den slags selskaber, at behovet for at kunne arbejde med meget store datamængder er meget markant.

På den måde er det ikke svært at få øje på lighederne med et andet open source-projekt, Android, der på ganske få år - ligesom Hadoop - har opnået massiv succes.

Også i Androids tilfælde skyldes succesen i høj grad, at kommercielle sværvægtere kunne se en klar fordel i at bakke op om og bidrage til open source-projektet.

Det kan Hadoop bruges til

Hadoop bygger videre på teknologien MapReduce, som blandt andre Google benytter til behandling af store datasæt via distribuerede systemer. Hadoop er skrevet i Java og licenseret under Apache.

Som det også fremgår af vores historie om Karnov Groups brug af Hadoop til big data, er en af de meget markante fordele, at man kan arbejde med ikke bare store datamændger, men også med ustrukturerede data - ligesom big data også handler om at kunne arbejde med realtidsdata.

CTO i Karnov Group, Søren Gerlund, forklarer valget af Hadoop således:

"Som CTO kan jeg jo sagtens se idéen med open source, men tror også at, man skal være klar over, at man får omkostningerne down the road i stedet for up front."

"Men hele mentaliteten omkring open source gjorde, at det var lidt lettere at sælge ind til vores udviklere. Vi etablerede et Hadoop-cluster, hvorpå vi lagde de her JSON-filer, og så brugte vi Hive (Apache-løsning oven på Hadoop, red.), så vi kunne tilgå de ustrukturerede informationer."

"Det handler om at få en 360 graders viden om vores kunder: Hvad er det, de køber, hvornår køber de det, hvorfor gør de det, og hvad bruger det det til?" fortæller Søren Gerlund.

Så populært er Hadoop

Tidligere i år udtalte analysefirmaet Gartner, at Hadoop-frameworket om blot to år vil være anvendt i 65 procent af de avancerede analyse-applikationer på verdensplan.

"Selvom det krævede særlige kompetencer at udrulle Hadoop-systemer i 2012, så indser organisationerne de styrker, som Hadoop-analyser bidrager med til big data," lød det blandt andet fra Gartner.

"Selvom it-organisationer vil foretage forsøg over de næste par år, specielt med Hadoop-enablede database management systemer (DBMS), produkter og appliances, så vil applikations-leverandører gå et skridt videre og indbygge Hadoop-baserede analysefunktioner i de færdigudviklede applikationer."

Sådan fungerer Hadoop

Der er næppe tvivl om, at big data - og dermed også Hadoop - vil komme endnu mere i fokus i de kommende år.

Det er også grunden til, at it-folk med kompetencer inden for Apache Hadoop er nogle er de mest eftertragtede for tiden, ligesom en McKinsey-rapport har konkluderet, at der i de kommende år vil være en voldsom mangel på kompetencer inden for big data.

Hadoop er sammen med Android tydelige eksempler på, at open source lever i bedste velgående - ikke mindst når it-giganterne bakker op.

Hvis du er interesseret i at vide mere om Hadoop, har Stanford University publiceret en længere undervisningsvideo om open source projektet, hvor der både fortælles om baggrunden for Hadoop og den konkrete anvendelse: