Internett trafikkdata

fredag, 01 mai 2015

Om forfatteren

Svein Roar Hult

Svein Roar Hult

Internett trafikkdata
Internett trafikkdata

Internett trafikkdata kan i dag beskrive en betydelig del av vår forbrukeratferd. Gjennom profilering kan denne typen data også fortelle mye om hvem vi er og hvilke ønsker og behov vi har; svært nyttig kunnskap for den som skal selge varer eller tjenester. Internett trafikkdata byr imidlertid på noen utfordringer som vil være nye for markedsanalytikere med erfaring primært fra surveydata. I dag er løsningen på disse utfordringene innen rekkevidde for alle bedrifter som ønsker å bruke internett trafikkdata som analyseunderlag.

Stephen Karl Ransons pasjon for data- maskiner og databehandling er stor og sannsynligvis medfødt. Han er født og oppvokst i Nord-vest England. Da han var 11 år fant han fram til den eneste boka om datamaskiner i skolebiblioteket. Etter å ha lest boka, var Stephen sikker på at arbeid med datamaskiner og databehandling skulle være hans karrierevalg. Pasjonen hans gjorde stort inntrykk på de andre familiemedlemmene. Det året bestemte familien seg for å droppe julepresanger og heller kjøpe en datamaskin, en Commodore 64, som Stephen kunne bruke for å utvikle sin pasjon og sine kunnskaper. Fra da har datamaskiner, data- behandling og utviklingsarbeid vært en viktig del av Stephen sitt liv og karriere.

Stephen kom til Norge i 2000 for å arbeide tre uker med å utvikle en krypteringsløsning for en bedrift innen finansnæringen. Han fant ut at han trivdes i Norge og bestemte seg for å fortsette sitt liv og virke her.

I 2011 etablerte han selskapet Cloud Explorers, hvor han i dag har sitt virke som daglig leder. Selskapet hjelper bedrifter som ønsker å bruke Big Data i sitt salgs- og markedsføringsarbeid, med tekniske løsninger og kompetanse.

– Jeg opplever at mange i dag går og venter på at Big Data skal komme. Realiteten er at Big Data er her nå og at mange bedrifter som har startet å utforske de mulighetene for effektivisering av salg og markedsføring som Big Data gir, opplever at arbeidet skaper store verdier, sier Stephen.

Internett trafikkdata - et svært verdifullt analyseunderlag

Analysen har oppsøkt Stephen for å få en bedre forståelse av den potensielle verdien av internett trafikkdata som analysegrunnlag, og av hva som kreves for å ta slike i bruk. Vi spør:

Tenk deg en markedsanalysebedrift som fram til nå, i all hovedsak, har arbeidet med surveydata. Og tenk deg at en i et kundemøte kommer fram til at bruk av internett trafikkdata ville kunne berike planlagte analyser. Hvilke muligheter og utfordringer vil en møte?

– Det første en bør tenke på, er hva en ønsker å oppnå ved å ta i bruk internett trafikkdata som analysegrunnlag. Etter hvert som vår atferd blir mer og mer digital, kan internett trafikkdata, eller URL-data, i økende grad beskrive vår atferd. Slike data gir dermed verdifullt analysegrunnlag for den som vil forstå hvordan forbrukerne tar sine beslutninger om hva de vil kjøpe og hvor, hvilke flater som egner seg best for ulike annonsører, hvem en kommuniserer med i en kampanje, hvilke effekter kampanjen gir og så videre. Internett trafikkdata kan gi svar på svært mange spørsmål som markedsførere stiller seg.

– I noen tilfeller vil en kjenne identiteten til de som står bak atferden som studeres. Et eksempel kan være når en analyserer data generert av medlemmer i en kundeklubb. Dette gir mange fordeler, både ved å berike analysene og når en skal bruke resultatene til å tilby relevante produkter og tjenester til kundeklubbens medlemmer.

Profilering

– I mange tilfeller kjenner vi imidlertid ikke analyseobjektenes identitet. Vi kan likevel få god og nyttig kunnskap om personene bak trafikkdataene, ved profilering.

– Hva er likheten mellom en restaurantmeny, en survey og en internettside? De kan alle fortelle noe om hvem vi er og hvilke preferanser vi har. Vår interaksjon med restaurantmenyen kan fortelle om vi er kjøttetere eller vegetarianere, om vi er mye sultne eller bare litt, om vi er opptatt av sunt kosthold eller ikke, og så videre. Vi kan stille de samme spørsmålene i surveyen, og selvsagt også mange andre. Og på samme måte kan internettsiden ses som et sett med valgmuligheter og hva vi velger å klikke på og i hvilken rekkefølge, vil fortelle hvem vi er og hva vi ønsker.

– Også søkedata er svært nyttig for profilering. Det skal ikke mye fantasi til for å forstå at en person som f. eks. søker på «skatt hjelp inkasso» har et annet behov enn en som søker på «skatt hjelp sparing». Tenk på søkedata som «tag clouds» med nøkkelord som beskriver personen.

– Dersom vi har et datasett med internett trafikkdata, uten kjennskap til hvem som står bak trafikken, kan vi altså, gjennom profilering, bygge verdifull kunnskap om analyseobjektene ut fra den informasjonen om hva de har klikket på, som ligger i data- fila. Slik kunnskap om demografi, preferanser og atferd vil berikeanalysene våre og gi oss en dypere innsikt i forbrukeratferd og preferanser. Denne kunnskapen kan vi også bruke til å bygge handlingsorienterte segmenter som kan hjelpe oss til å tilby mer relevante produkter og tjenester til kundene og dermed øke salget.

– Dess mer finmasket vi gjør segmenteringen vår, dess mer treffsikre kan vi bli i styringen av relevante produkter og tjenester til den enkelte kunden.

Real Time

- Tidsfaktoren kan også ha betydning for om vi lykkes med at analysene våre kan ende ut i vellykket salg. Dersom en person er inne på vår internettside i dag og viser interesse for et produkt som vi selger, kan det å bruke fem dager på analysene for deretter å gi denne personen et tilbud, gi en for langsom prosess. Litt avhengig av hvilken type produkt vi snakker om, vil det være en ikke ubetydelig sannsynlighet for at kjøpet er gjennomført et annet sted fem dager senere. Det som ville vært et høyst relevant tilbud på det tidspunktet denne personen besøkte vår internettside, vil være et irrelevant tilbud etter at kjøpet er gjennomført et annet sted. For å øke relevansen av vår kommunikasjon, er «real time» analyser og kommunikasjon et aktuelt virkemiddel. «Real time» analyser, finmasket segmentering eller en-til-en og «real time» marketing vil i mange tilfeller gi den optimale verdien av analyser av internett trafikkdata. Mange bedrifter vil likevel ha stor nytte av å bruke trafikkdata som analyse-

underlag også uten «real time».

Store datamengder

Du gjør det enkelt å se den potensielle verdien av å analysere internett trafikk-data. Hvilke utfordringer må løses før denne verdien kan hentes ut? – En utfordring er knyttet til størrelsen av datasettene når en analyserer internett trafikkdata. Fotavtrykket av en enkelt bruker fra en normal sesjon, på noen minutter, på én «site» kan inneholde 30.000 dataenheter. Med mange brukere og trafikkdata innhentet over noe tid, blir derfor logfilene som inneholder informasjon om hvilke sider en har besøkt, hvilke bannerannonser en har blitt eksponert for og om en har klikket på dem, hvilke søkeord en har benyttet osv., så store at det blir svært tidkrevende å gjøre analyser når dataene legges i tradisjonelle databaser. Så tidkrevende at analysene ikke kan gjennomføres på en effektiv måte.

– Google, Big Datas bestefar, var den første som løste denne utfordringen. De trengte en billig løsning for å håndtere og analysere enorme datamengder. De ga tidlig opp tanken på å bygge en stor datamaskin og en stor disk som kunne gi tilstrekkelig kapasitet. I stedet utviklet de en teknologi, «elastic computing», som kunne fordele data og analyseoppgaver på mange disker og datamaskiner, noder. Med denne teknologien, var det ingen grenser for hvor store datamengder de kunne håndtere.

– Den mest utbredte teknologien for håndtering av Big Data i dag, er Hadoop. Dette er en «open source»-teknologi som bygger på det konseptet som Google fant opp. Hadoop er som en ballong, kapasiteten, antall noder i bruk, vokser når du har behov for det. Nodene ligger i skyen, f. eks. hos Amazon, og du betaler ikke for mer kapasitet enn du til enhver tid bruker. Dette innebærer at datakraft til å håndtere og analysere Big Data er tilgjengelig for alle bedrifter og uten store kostnader.

Taxonomi

– Den andre utfordringen som det er viktig å kjenne til, er behovet for å bygge en taxonomi for de internett trafikkdataene som en vil analysere. Taxonomien er en klassifisering av alle URLene som ligger i datafila, et metadatasett.

– Første oppgave når en skal lage en taxonomi, er å skille mellom nyttig informasjon og støy. Støyen består av elementer i logfila som brukes til å designe og presentere websider for brukerne, som f. eks. GIF-bilder, JPEG-bilder og «style sheets».

– Neste oppgave vil være å klassifisere den nyttige informasjonen etter type relevans, f. eks kategorisere internettsidene etter om de er nettaviser, internettbutikker, sosiale medier osv. Taxonomien bygges opp med en trestruktur med så mange nivåer som du har behov for. Sider som tilhører nettaviser, kan f.eks. kategoriseres etter tema som sport, nyheter, lokalstoff osv.

– Taxonomier lages for å dekke et behov for å skape oversikt og ettersom behov er for- skjellige, vil også taxonomier være forskjellige. De kan være enkle og lite arbeidskrevende, eller sofistikerte og mer arbeidskrevende. I de fleste tilfeller kan en begynne arbeidet med en maskinell sortering av URLer, men ofte vil det også kreves manuelt arbeid for å få taxonomien slik en ønsker den.

Og når internett trafikkdataene er lagt inn i et Hadoop-system og taxonomien er laget, da kan en starte analysearbeidet? – Ja, for så vidt, men analysemulighetene vil øke betydelig dersom en beriker trafikkdataene ved å koble til data fra andre kilder. Dersom du for eksempel driver butikk- virksomhet og har som formål å øke salget, vil analysene dine gi økt verdi dersom du kobler på transaksjonsdata, kampanjedata, kundedata, sosiale medier-data, og/eller andre relevante og tilgjengelige datatyper.

Stephens engasjement øker enda noen hakk når vi kommer inn på kobling av data fra ulike kilder og hvilke verdifulle analysemuligheter dette gir. «This is my passion», sier han. Vi kommer imidlertid fram til at dette bør være tema for en egen artikkel. We’ll be back!