1 / 10
Mængden af data, som erhvervslivet gemmer og lagrer, vokser med stor fart.
Det sker ikke mindst, fordi virksomhederne med stedse mere avancerede teknologier er i stand til at vride mere og mere meningsfuld data ud af de store mængder data - 'Big data.'
Langt de fleste big data-teknologier baserer sig i en vis udstrækning på open source.
Klik videre og se ni centrale open source-teknologier, som du bør holde øje med, hvis du skal have udbytte af dine store datamængder.
Skrevet i samarbejde med Computerworld News Service/Thor Olavsrud.
2 / 10
Apache CouchDB
Apache CouchDB anvender JSON til at lagre data, mens den anvender JavaScript som søge-sprog og MapReduce og http som API.
Programmet blev udviklet i 2005 som et storage-system til store databaser.
Blandt brugerne finder vi BBC, der anvender CouchDB til sine dynamiske indholds-platforme, mens investeringsbanken Credit Suisse anvender Couch DB til at lagre konfigurationer til selskabets Python markeds-dataframework.
CouchDB er tilgængelig under Apache License 2.0
Skrevet i samarbejde med Computerworld News Service/Thor Olavsrud.
3 / 10
MongoDB
MongoDB er udviklet af folkene bag DoubleClick.
Via programmet kan man lagre struktureret data i JSON-lignende dokumenter med dynamiske skemaer.
MongoDB anvendes i dag af en lang række selskaber, der blandt andre tæller MTV Networks, Disney Interactive Media Group og New York Times.
Via 10gen kan man købe kommercielle MongoDB-licenser. MongoDB er ellers tilgængelig under GNU Affero General Public License.
Skrevet i samarbejde med Computerworld News Service/Thor Olavsrud.
4 / 10
Apache Hadoop blev oprindeligt udviklet som et framework til distribuerede applikationer med henblik på at understøtte en open source-baseret søgemaskine.
Hadoop - der er opkaldt efter udvikleren Doug Cuttings søns legetøjselefant - er blandt de mest udbredte storage-teknologier og er tilgængelig under Apache License 2.0.
Skrevet i samarbejde med Computerworld News Service/Thor Olavsrud.
5 / 10
ElasticSearch er en særlig søge-server, der kan skaleres og som supporterer søgninger i - næsten - realtid uden særlig konfigurering.
I dag anvendes ElasticSearch af blandt andre Mozilla.
Det er tilgængeligt under Apache License 2.0.
Skrevet i samarbejde med Computerworld News Service/Thor Olavsrud.
6 / 10
ElasticSearch er en særlig søge-server, der kan skaleres og som supporterer søgninger i - næsten - realtid uden særlig konfigurering.
I dag anvendes ElasticSearch af blandt andre Mozilla.
Det er tilgængeligt under Apache License 2.0.
Skrevet i samarbejde med Computerworld News Service/Thor Olavsrud.
7 / 10
Apache HBase er skrevet i Java, udformet efter Googles såkaldte BigTable og er særligt udviklet til at køre oven på Hadoop Distributed Filesystem (HDFS).
Via systemet kan man blandt andet få hurtig adgang til meget store mængder data.
HBase er en af mange NoSQL data-butikker, som er dukket op i de senere år.
Blandt andre Facebook anvender HBase på sin besked-platform.
Programmet er tilgængeligt under Apache License 2.0.
Skrevet i samarbejde med Computerworld News Service/Thor Olavsrud.
8 / 10
Scribe er en server, der er udviklet af Facebook. Den blev lanceret i 2008 og kan aggregere log data, der bliver streamet i realtid fra et meget stort antal servere.
Facebook-udviklerne byggede serveren som et resultat af Facebooks egene skalerings-udfordringer, der opstod, fordi bruger-antallet voksede så eksplosivt.
I dag anvender Facebook Scribe til at håndtere milliarder af beskeder hver eneste dag.
Scribe er tilgængelig under Apache License 2.0.
Skrevet i samarbejde med Computerworld News Service/Thor Olavsrud.
9 / 10
Cassandra er udviklet af Facebook med henblik på at være motor i Facebooks særlige indboks-søgefunktion.
Facebook skrottede dog Cassandra i 2010 til fordel for Apache HBase, men Cassandra anvendes stadig af en lang række selskbaer, herunder Netflix, der kører Cassandra som back-end database til selskabets streaming-tjeneste.
Cassandra er tilgængelig under Apache License 2.0.
Skrevet i samarbejde med Computerworld News Service/Thor Olavsrud.
10 / 10
R er programmeringssprog og udviklingsmiljø på samme tid og er særligt udviklet til statistik-behandling og -visualiseringer.
Programmet blev udviklet på New Zealand i 1993 og er i dag meget udbredt, når det gælder statistisk behandling af store datasæt.
Det anvendes bland andet på DTU.
R er efter den første udvikling blevet kommercialiseret af Revolution Analytics og er tilgængelig under GNU General Public License.
Skrevet i samarbejde med Computerworld News Service/Thor Olavsrud.