Data Scientists: Big Data-heltene

tirsdag, 15 desember 2015

Om forfatteren

Isabelle Valette

Isabelle Valette

Data Scientists: Big Data-heltene
Data Scientists: Big Data-heltene

«Big Data»: 700 millioner treff på Google og noen kjente bokstaver: V for Volume, Velocity, Variety, Veracity, Variability og Value. K for Kompleksitet. F for Forvirrende.

Big Data vs. Business Analytics

Begrepet brukes overalt; i seminarer, i stillingsbeskrivelser og sammen med IT-verktøy. I kjølvannet av Big Data-hypen vokser de nye heltene opp: dataekspertene Data Managers, Data Analysts og ikke minst Data Scientists, som Harvard Business Review hevder er den mest sexy jobben i vårt århundre.

Så, hva er alt oppstyret rundt «Big Data», og hvordan forholder det seg til gode gamle «Business Analytics»? Begge har samme formål: Å bruke data til å skape verdifull innsikt til både forretning og kunde i form av blant annet bedre service, økt salg og forbedret lønnsomhet. Bruk av Big Data gjør det også mulig å lage enda mer målrettede budskap til ulike kundesegmenter: Å tilby riktig produkt til riktig kunde på riktig tidspunkt med riktig budskap gjennom riktig kanal. På denne måten øker relevansen og opplevd verdi for kunden, samtidig som det skaper økt respons og lønnsomhet for bedriften. Å berike eksisterende forretningsprosesser med innsikt fra avanserte analyser og Big Data, bidrar til å løfte markedsføring til nye høyder.

I følge S. Mohanasundaram, er «forskjellen mellom Big Data og Business Analytics det samme som å fiske i havet versus å fiske i en innsjø. Målet er det samme, men verktøyene for å komme dit er ganske annerledes.» Med Big Data kom en ny og revolusjonerende teknologitype til å fange og analysere data som er så store at de ikke kan brukes av tradisjonelle verktøy. Den nye teknologien, som analytikerne trenger å lære seg, heter Hadoop og gir nye forretnings- og analysemuligheter.

Hadoop er teknologi for både oppbevaring, prosessering og analyse av enorme datamengder. Et viktig prinsipp for denne teknologien er å flytte data minst mulig. Det er beregningsprosessene som kommer til dataene og ikke omvendt. Ideen bak er ganske enkel: Istedenfor å lagre data på store og dyre maskiner bruker man heller flere mindre og langt rimeligere maskiner, deler data i små biter og sprer flere kopier av disse bitene sammen med egne dataprosesseringslag på de mange maskinene. Med rimeligere datalagring, trenger man ikke lenger å slette verdifulle data, noe som har vært vanlig frem til nå siden lagringsplass, og lagringskostnader spesielt, har vært en utfordring. På denne måten kan man alltid ha tilgang til både historiske og nåtidsdata (ønsker du å lære mer om Hadoop kan du lese mer i Analysen 1-2015).

Big Data som begrep (og uten store bokstaver) ble introdusert i 1989 av forfatter Erik Larson for Harper Magasin. Det ble forklart i 2001 av Doug Laney, analytiker i Meta Group (senere kjøpt av Gartner), med hva vi nå kjenner til å være essensen av Big Data: de 3 Vene: Volum, Velocity, Variety. Begrepet ble igjen popularisert av McKinsey i 2011 i en rapport der det hevdes at USA, på grunn av Big Data, vil oppleve en mangel på mellom 140 000 og 190 000 Data Scientists innen 2018. Så hvorfor er Data Scientist en sjelden ressurs?

Dataekspertteamet

Big Data og Business Analytics brukes til å dra forretning i retningen av bl.a. økt salg og forbedret lønnsomhet gjennom omfattende innsamling og analyse av data. Denne reisen kan være utfordrende, og den største utfordringen er mangel på ressurser med riktig kompetanse og egenskaper. Det er mange områder en dataekspert må beherske i dag. Figuren under viser de ulike egenskapene en dataekspert må ha samt hvordan de ulike egenskapene kan grupperes innen roller. Disse kompetanseområdene er ganske omfattende hver for seg og det kan derfor være vanskelig å få tak i noen som kan alt. Løsningen blir gjerne å sette sammen et team som til sammen dekker alle disse egenskapene.

Data Manager – the unsung hero

Den største utfordringen for en dataekspert som jobber med Big Data eller Business Analytics er å måtte forholde seg til mange datakilder av svært ulik og kompleks karakter. Her er det viktig å innse at verken Business Analytics eller Big Data-teknologien har en magisk, billig og enkel løsning. Dette er årsaken til at det lønner seg å ha en Data Manager med på dataekspert teamet.

Hans sterkeste side er å raskt kunne tilrettelegge data, uavhengig av hvor de kommer fra. Han er en dyktig programmerer. Når teamet har en teknisk utfordring, vil Data Manager gjerne være den man går til. Han har teknisk innsikt i alle de systemene som brukes til å lagre, innhente og kverne dataene: han kan for eksempel sette opp og administrere Hadoop-komponenter og kan komplettere med annen programvare, som R og Python. Han er kjent med Linux og er en ekspert når det gjelder dataintegrasjon.

Denne rollen skaper mindre interesse og engasjement enn Data Scientist-rollen, men er allikevel fundamentet bak suksessen til dataekspertteamet. Er du opptatt av raske leveranser og nærhet til datakildene, så trenger du en Data Manager. Mangler du denne stillingen, så kommer de andre i teamet til å måte gjøre jobben selv, noe som kan begrense kvaliteten av analysene, implementering av innsikt i organisasjon og leveransekapasitet i sin helhet.

Data Analyst – den prediktive helten

Prediktive analyser er antagelig de mest utfordrende, men samtidig mest interessante, analysene en dataanalytiker lager. Her benyttes historiske data til å forutse fremtidig adferd, men også til å finne sannsynlige forklaringer på hva som har hendt eller er i ferd med å skje. Logistisk regresjon, Random Forest og Stochastic Gradient Boosting er noen kjente eksempler på maskinlæringsalgoritmer som brukes for å lage prediktive analyser. Disse algoritmene brukes på alle datatyper organisert i spesielt utviklede analytiske tabeller kalt ABT (Analytical Base Tables). Det finnes flere datatyper: Big, Small og Dark. Dark Data er mindre kjent enn Big Data og refererer til verdifulle data man ikke engang visste man hadde tilgang til.

En god analytiker gir deg mulighet til å finne svar på både de spørsmålene du har og de du ikke engang visste du hadde. En annen sentral egenskap er å kunne fortelle gode historier rundt innsiktene hun har funnet, bl.a. ved hjelp av sexy visualiseringer. Dataanalytikeren kan også snakke stammespråket til ledelsen og klarer å kommunisere på en enkel måte hvordan hun jobber. Hun kan også flere programmeringsspråk som for eksempel SQL eller SAS. Hun er et bindeleddet mellom «forretning» og «IT». Det vil si at hun klarer å oversette de tekniske spørsmålene til «dagligtale» og hun klarer å transformere forretningskravene til konkrete og spesifikke IT-krav.

Data Scientist – kunstneren

En Data Scientist har innovative egenskaper og tar gjerne initiativ til nye måter å løse oppgaver på. Hun kan bruke de forskjellige komponentene i Hadoop til å analysere «Big» datakilder med Spark, R eller Python. En viktig oppgave til en Data Scientist er å ta prediktive modeller til nye høyder ved hjelp av selvutviklede algoritmer, komplekse datatyper og en god dose kunst. En Data Scientist er en «hacker» som går bak systemene og endrer forhåndsdefinerte algoritmer basert på hva hun har behov for å løse. Fins det ingen algoritmer på hva hun skal gjøre, lager hun gjerne sine egne. Blant eksisterende algoritmer har en type utmerket seg i en del Kaggle-konkurranser og er derfor vært å nevne her: Deep Neural Network.

Tradisjonelle Neural Network-metoder har tidligere vært lite aktuelt å bruke fordi man ikke har hatt tilstrekkelig data og prosesseringskraft. Neural Network er også litt mer krevende å forklare og mange refererer til disse modellene som en «black box». Det har også vært utfordringer med å få disse algoritmene optimale (lokal optima vs global optima). Utfordringene relatert til store datavolum er nå løst med Big Data-teknologi, og noen «beregningstriks» har løst optimaliseringsproblematikken. Det mest lovende med Big Data-teknologi er parallelliseringsmulighetene. Dette gjør det mulig å løfte prediktive analyser til nye høyder. Denne nye muligheten har fått navnet «Deep Learning».

Ta godt vare på dataekspertene!

Dataekspertene lager verdifull innsikt fra data. Er man i tvil om hvem man skal ansette, leie inn, eller hvordan man skal utvikle egne ressurser, så start enkelt med korte piloter. Det lønner seg også å snakke med andre som har erfaring innen utvikling og implementering av avanserte analyser i en organisasjon. Den største utfordringen med å implementere Big Data eller Business Analytics er tilgang på gode datatalenter som kan levere i tråd med ofte høye forventninger. Så ta godt vare på de dataekspertene som kommer din vei!