Advanced Analytics del 2: kan vi göra mer med vårt data?
Ställer er verksamhet ibland frågan ”Räcker vårt data till Machine Learning ”? Behöver ni prediktera, optimera eller automatisera processer?
Många verksamheter har en önskan att använda mer avancerad analys, men vad innebär det och vad krävs för att lyckas?

I vårt förra blogginlägg skrev jag om Advanced Analytics. Advanced Analytics är att välja rätt verktyg för att svara på specifika företagsfrågor. Omfattningen sträcker sig från analys med befintlig BI-mjukvara till programmering av machine learning modeller. När det pratas machine learning så används ofta begreppet Big Data, och det är lätt hänt att det viktigaste för att lyckas verkar vara att mata in mycket data. Nuförtiden är Big Data givet hos större företag, men ändå är machine learning inte alltid en standarddel av deras verksamhet. För att lyckas med att använda machine learning till mätbar optimering eller förnyande av verksamheten behövs mer, nämligen lämpliga data, informerad datarensning, optimerade algoritmer, en hållbar plan för driftsättning och kvalitetskontroll efter driftsättning. I denna blogg tittar vi på hur lämpligheten av data kan identifieras.
Informerar din data om rätt saker?
För att till exempel få kundinsikter, så behövs det ett dataset som har samlat in olika typer av information om kunden. Har befintliga datasetet produkten i fokus är sannolikheten lägre att den kan ge nya värdefulla insikter om kunden och kan det vara värt att satsa på en ny insamling av data optimerad för frågeställningen. En annan möjlighet är att djupdyka i all befintliga data och ta fram gömd information. Med mer kunskap om verksamheten och förståelse för insamlingsprocessen kan data berikas. Detta tar oss till nästa steg:
Är din data väldokumenterad?
Självklart behövs information om vad varje fält/variabel betyder. Mer dokumentation leder till bättre insikter! Förståelse för verksamheten innefattar att veta hur och varför en variabel är insamlad. Detta ger bättre möjlighet för rätt tolkning av data och idéer till sammankoppling med annat data. Om vissa beräkningar har utförts på en variabel behövs detta också vara dokumenterat.
Är din data hel och ren och tillräckligt?
Saknade värden, felaktiga mätvärden, mätvärden som är påverkad av händelser så som till exempel rea (förhoppningsvis dokumenterat!), reducerat kapacitet eller felvisande sensorer. Bristfälligheter finns i många data-set, men de går att åtgärda. Viktigt är att bristfälligheter inte dominerar datasetet och att eventuella fel är dokumenterade. Att samla in mycket data kompenserar dock sällan för ett mycket bristfällig dataset eller för felvisande mått.
Behövs mycket data?
Inte nödvändigtvis; bra kvalitet är för många ändamål viktigare än kvantitet. Att fånga det mesta som händer i och påverkar verksamheten genom diversitet av variabler och hög kvalitet kan vara mer värdefull än att mäta över flera år. Datakvantitet blir viktigt om frågan som undersöks rör en mer sällsynt händelse, eller om det finns mycket brus i datasetet som döljer insikter.

Vill ni vara säkra på att ert data hjälper er att generera insikter? Ta in en Data Scientist från början! Data som är insamlat till ett specifikt ändamål har bäst chans att ge rätt och tydligt svar på era frågor och skapa ytterligare värde i er verksamhet.

Skriven av: Helene van Ettinger-Veenstra
Helene är en Data Scientist och Business Intelligence konsult med en forskningsbakgrund och utbildning i statistik och machine learning. Helene har erfarenhet av komplex data-analys och multidisciplinärt projektarbete.