Öppna kurser

Introduktion till Big Data-analys

Big Data-analyser gör det möjligt för organisationer och företag att bygga upp konkurrenskraftiga strategier runt datadrivna analyser och få värde från enorma mängder data som inte används.

Kursen riktar sig till de som jobbar med någon form av analys och uppföljning eller rapportering, och vill lära sig mer om hur de påverkas av ökade mängder och typer av data de dagligen kommer att möta – både teoretiskt och praktiskt.

Den nya teknologin och de nya verktyg som nu finns tillgängliga möjliggör för vanliga användare att utan expertkunskap upptäcka nya relationer gömda i data,
vilket tidigare inte var möjligt. Detta leder till en djupare förståelse för verksamheten och mer välgrundade beslut baserade på blixtsnabba analyser på oaggregerad data så väl som textanalys och data från sociala medier.

Utbildningsmål

Efter genomgången kurs ska deltagarna kunna:

  • Skapa konkurrensfördelar med hjälp av både strukturerad och ostrukturerad data
  • Förutsäga utfall med olika tekniker för övervakad maskininlärning
  • Upptäcka mönster i kundernas beteende genom ej övervakade tekniker
  • Använda R och RHadoop för analys av strukturerad data, ostrukturerad data och Big Data

Detaljerat kursinnehåll

Introduktion till R

Utforskande dataanalys med R

  • Ladda ner, ställa frågor till och redigera data i R
  • Rensa rådata för modellering
  • Minska dimensioner med Principal Component Analysis
  • Utöka R med användardefinierade paket

Underlätta bra analytiskt tänkande med datavisualisering

  • Utforska kännetecken för datauppsättningar genom visualisering
  • Kartlägga datadistributioner med lådogram, histogram och densitetsdiagram
  • Identifiera avskilda delar i data

Arbeta med ostrukturerade/stora datauppsättningar med Big Data Analytics–verktyg

Utvinna ostrukturerad data för affärsapplikationer

  • Förbearbeta ostrukturerad data inför djupare analyser
  • Beskriva en dokumentkorpus med en termdokumentsmatris

Hantera ökad komplexitet med Big Data

  • Undersöka MapReduce– och Hadoop–arkitekturerna
  • Integrera R och Hadoop med RHadoop

Förutsäga resultat med regressionstekniker

Uppskatta framtida värden med linjär och logistisk regression

  • Skapa en modell av relationen mellan en output–variabel och flera input–variabler
  • Korrekt tolka koefficienter i löpande och kategorisk data

Regressionstekniker för att hantera Big Data

  • Klara problem med volymerna med RHadoop
  • Skapa regressionsmoduler för RHadoop

Kategorisera data med klassificeringstekniker

Automatisera märkningen av nya dataposter

  • Förutsäga målvärden med hjälp av beslutsträd
  • Bygga en modell från befintlig data för framtida förutsägelser
  • Kombinera trädprognoser med random forests i RHadoop

Bedöma modellernas resultat

  • Visualisera modellresultaten med en ROC–kurva
  • Utvärdera klassificeringar med förvirringsmatriser

Upptäcka mönster i komplex data med klustring och länkanalyser

Identifiera tidigare okända grupperingar inom en datauppsättning

  • Segmentera kundmarknaden med algoritmen
  • Definiera likhet med lämpliga avståndsmått
  • Konstruera trädlika kluster med hierarkisk klustring
  • Klustra textdokument och tweets för bättre förståelse

Upptäcka kopplingar med länkanalys

  • Se viktiga kopplingar med analys av sociala nätverk
  • Utforska hur resultat från sociala nätverk används i marknadsföringen

Använda transaktionsdata för att ta fram rekommendationer och associationsregler

Bygga upp och utvärdera associationsregler

  • Uppfatta verkliga kundpreferenser i transaktionsdata för att förbättra kundupplevelsen
  • Beräkna support, förtroende och lyft för att skilja "bra" regler från "dåliga" regler
  • Skilja mellan genomförbara, triviala, obegripliga regler
  • Klara utmaningen med stora datauppsättningar när man söker efter regler med RHadoop

Konstruera rekommendationsmotorer

  • Kors– och uppförsäljning & ersättningar som motivation
  • Utnyttja rekommendationer baserat på gemensam filtrering

Implementera analys i organisationen

Utöka analyskapaciteten

  • Bryta ner Big Data–analys i hanterliga steg
  • Integrera analys i aktuella verksamhetsprocesser
  • Granska Spark, MLib och Mahout för maskininlärning

Spridning och Big Data–policyer

  • Utforska etiska frågor om sekretess i Big Data
  • Sprida resultat för olika typer av intressenter