Detaljerad data i mängder – ett måste för bra beslutsstöd

8 oktober 2019

Mängden data som skapas växer med extrem hastighet. Varje dag skickas 500 miljoner tweets, 294 miljarder epost- meddelanden och 6 miljarder sökningar görs på Internet. Vid mitten av 2018 hade 90% av världens sammanlagda datamängd skapats under de två föregående åren.

Digitaliseringen innebär nya dataflöden i en mängd industrier

En självkörande bil kan idag vara bestyckad med 8 videokameror, 12 ultraljudssensorer och en radar. Användare rapporterar uppladdade datamängder i storleksordningen 100 Mb per dag och bil. Nya kommunikationsplattformar och användarmönster innebär en stor ökning i delning av text, foton och videor.

 

Effektiva komprimeringsalgoritmer, billig lagring och molnlösningar som erbjuder gratis, ofta obegränsad lagring, är några anledningar till att vi sparar så mycket data. Som exempel tillhandahåller Google backup av en obegränsad mängd foton förutsatt att du som användare accepterar att Google tillämpar en komprimeringsalgoritm på din data.

 

En större mängd användare tillsammans med ökade krav på redundans och prestanda innebär också att denna data ibland måste lagras på flera ställen samtidigt. Det är dock en relativt liten mängd av all insamlad data som blir analyserad. År 2012 analyserades uppskattningsvis 0,5 % av den insamlade datamängden.

 

Även om många företag och aktörer idag har börjat utforska automatiserade data- och analys-pipelines så är det, med tanke på den lavinartade ökningen i mängden insamlad data, sannolikt att mängden analyserad data förblir liten i en överskådlig framtid. Det är också tydligt att det blir allt viktigare med god domänkunskap och genomtänkt analys av data så att det vi tittar på är relevant och att våra insikter har ett konkret värde.

 

Mängden data och valet av modell avgörande för prediktiv prestanda

Prestandan hos traditionella algoritmer (logistisk regression till exempel) ökar till en början linjärt med ökande mängd data. Efter ett tag planar denna ökning ut och våra modeller blir inte bättre trots att vi matar dem med mer data. Detta samband förklarar också varför vi sällan ser en betydande prestandaökning vid användning av en komplicerad modell när vi jobbar med mindre dataset. För att uppnå bättre prestanda kan vi då istället välja en mer avancerad modell (neuralt nätverk till exempel som efterliknar kroppens biologiska neuronnät i hjärnan) vilket, förutsatt att vi har tillräckligt med data, ger oss bättre prestanda. Om prestandan för vår mer avancerade modell planar ut trots att vi har data kvar så kan vi öka modellkomplexiteten för att se ytterligare en prestandaökning.

 

Optimal prestanda kräver stora datamängder samtidigt som stora datamängder ofta kräver mer komplicerade modeller. Oundvikligen leder detta till ett mer tids- och resurskrävande analyssteg där vi kan tvingas investera i ny hårdvara eller flytta vår analys till ”molnet” och hyra processorskraften vi behöver.

 

Mer historisk data behövs

Rapportering ett eller två år bakåt i tiden har traditionellt skett på en detaljerad nivå för innevarande tidsperiod (år, månad eller vecka). Längre än två år tillbaka har abstraktionsnivån höjts (förändringar i verksamheten kan innebära att det är svårt att dra en tydlig parallell för långt bakåt i tiden) och fokus har skiftats till att titta på trender och därför har det inte alltid varit relevant att använda äldre data.

 

De senaste årens framsteg genom accelerering av beräkningar och tekniker som ryms i big data- ekosystemet har givit oss möjligheten att effektivt processa stor mängd data, och möjligheten att koppla ihop datamängder som förut inte kunnat kopplas ihop på grund av tekniska begränsningar. Ett viktigt tekniskt framsteg var att flytta beräkningen från datorns processor till grafikkortet. Grafikkortet har fördelen att dess beräkningskärna består av flera mindre logiska kärnor ochdärför lämpar sig bra för den stora parallella beräkningslasten dagens analysmetoder bygger på. För nischade applikationer eller tillämpningar med mycket höga prestandakrav finns det numera ett par leverantörer som bygger applikationsspecifika kretsar som endast gör dessa beräkningar, så kallade ASIC (Application Specific Integrated Circuits).

 

Stor bredd på data är av högsta intresse och med dagens tekniska lösningar kan vi effektivt hantera strukturerad och ostrukturerad data med många dimensioner (till exempel kolumner eller attribut). Detta skapar nya möjlighet att analysera trender och beteenden. Ett exempel är Netflix, som genom att analysera sina kunders användarmönster och preferenser, kan utveckla ny funktionalitet med syfte att öka kundbibehållande. Resultatet av kundbibehållandearbetet uppskattas spara Netflix en miljard dollar om året.

 

Stora datamängder är en förutsättning för AI

Det ökande intresset för artificiell intelligens tillsammans med tidigare nämnda tekniska framsteg innebär ännu en förändring i nyttjande av data. Tidigare nämnda prediktiva prestandafördel, som är högst beroende av datavolymen, innebär att vi nu ständigt är på jakt efter stora historiska dataset. Modeller byggda med AI/maskininlärning kräver ett gediget träningsunderlag för att kunna identifiera underliggande mönster i data och därmed leverera goda förutsägelser. För att ha ett tillräckligt träningsunderlag till de mer komplicerade modellerna är det viktigt att börja samla data tidigt. Vidare bör vi också inkludera så många dimensioner som möjligt, dels eftersom lagring i dagsläget inte är särskilt dyrt, dels då vi kanske i nuläget inte kan förutse exakt vilka parametrar som kan tänkas ha relevans i framtida modeller.

 

Den data som tidigare var för detaljerad för att arbeta med över tid är nu ett måste för att vi ska kunna träna våra nya AI-funktioner. En tillämpning av AI är att hitta sammanhang i datamängder som ofta inte kopplats ihop tidigare vilket ökar behovet av välstrukturerad modellering och lagring av data, inte minst när vi kopplar in extern data till data som genererats internt. Välavvägda externa datakällor kan bidra med viktig input vid modellering av komplexa sammanhang och resultera i en modellprecision som skulle varit omöjlig att uppnå med endast interna datakällor.

 

Ett första steg för att implementera AI i en organisation är prediktiva analyser för att förutspå kunders framtida beteende samt att ersätta repetitiva och enkla manuella jobb. För att identifiera mönster i data behövs en tillräckligt god historik där sådana mönster går att plocka upp.

 

En kritisk framgångsfaktor för att bli en framgångsrik datadriven organisation är att ha tillgång till kvalitativ data med både bredd och djup. De företag som fortfarande gallrar sin data kommer få svårigheter att fortsätta vara konkurrenskraftiga. Datamängderna som organisationer börjar spara idag kan potentiellt innebära stora konkurrensfördelar inom en snar framtid. Trots att det kan vara svårt att se ett konkret värde eller potential i att lagra viss data så bör organisationer, med tanke på dagens prissättning, överväga att spara så mycket som praktiskt är möjligt.

 

I takt med att vi genererar och lagrar mer och mer data på användarnivå så uppstår utmaningar. Nya lagstiftningar och regelverk sätter krav på hur organisationer får lagra och använda användardata sett till hur lagring och användning av insamlad användardata får ske. Datasäkerhet, dataintegritet, rädsla och regelverk är ett fåtal faktorer som gör att det kan vara svårt att få tillgång till insamlade dataset.

 

Av: Markus Birgander, Enterprise Architect på Forefront, publicerat i ArkivIT, nr 2. 2019.

Nästa nyhet

Vi ses på höstens arbetsmarknadsdagar!

8 oktober 2019