Öppna kurser
Introduktion till Big Data-analys
Big Data-analyser gör det möjligt för organisationer och företag att bygga upp konkurrenskraftiga strategier runt datadrivna analyser och få värde från enorma mängder data som inte används.
Kursen riktar sig till de som jobbar med någon form av analys och uppföljning eller rapportering, och vill lära sig mer om hur de påverkas av ökade mängder och typer av data de dagligen kommer att möta – både teoretiskt och praktiskt.
Den nya teknologin och de nya verktyg som nu finns tillgängliga möjliggör för vanliga användare att utan expertkunskap upptäcka nya relationer gömda i data,
vilket tidigare inte var möjligt. Detta leder till en djupare förståelse för verksamheten och mer välgrundade beslut baserade på blixtsnabba analyser på oaggregerad data så väl som textanalys och data från sociala medier.
Utbildningsmål
Efter genomgången kurs ska deltagarna kunna:
- Skapa konkurrensfördelar med hjälp av både strukturerad och ostrukturerad data
- Förutsäga utfall med olika tekniker för övervakad maskininlärning
- Upptäcka mönster i kundernas beteende genom ej övervakade tekniker
- Använda R och RHadoop för analys av strukturerad data, ostrukturerad data och Big Data
Detaljerat kursinnehåll
Introduktion till R
Utforskande dataanalys med R
- Ladda ner, ställa frågor till och redigera data i R
- Rensa rådata för modellering
- Minska dimensioner med Principal Component Analysis
- Utöka R med användardefinierade paket
Underlätta bra analytiskt tänkande med datavisualisering
- Utforska kännetecken för datauppsättningar genom visualisering
- Kartlägga datadistributioner med lådogram, histogram och densitetsdiagram
- Identifiera avskilda delar i data
Arbeta med ostrukturerade/stora datauppsättningar med Big Data Analytics–verktyg
Utvinna ostrukturerad data för affärsapplikationer
- Förbearbeta ostrukturerad data inför djupare analyser
- Beskriva en dokumentkorpus med en termdokumentsmatris
Hantera ökad komplexitet med Big Data
- Undersöka MapReduce– och Hadoop–arkitekturerna
- Integrera R och Hadoop med RHadoop
Förutsäga resultat med regressionstekniker
Uppskatta framtida värden med linjär och logistisk regression
- Skapa en modell av relationen mellan en output–variabel och flera input–variabler
- Korrekt tolka koefficienter i löpande och kategorisk data
Regressionstekniker för att hantera Big Data
- Klara problem med volymerna med RHadoop
- Skapa regressionsmoduler för RHadoop
Kategorisera data med klassificeringstekniker
Automatisera märkningen av nya dataposter
- Förutsäga målvärden med hjälp av beslutsträd
- Bygga en modell från befintlig data för framtida förutsägelser
- Kombinera trädprognoser med random forests i RHadoop
Bedöma modellernas resultat
- Visualisera modellresultaten med en ROC–kurva
- Utvärdera klassificeringar med förvirringsmatriser
Upptäcka mönster i komplex data med klustring och länkanalyser
Identifiera tidigare okända grupperingar inom en datauppsättning
- Segmentera kundmarknaden med algoritmen
- Definiera likhet med lämpliga avståndsmått
- Konstruera trädlika kluster med hierarkisk klustring
- Klustra textdokument och tweets för bättre förståelse
Upptäcka kopplingar med länkanalys
- Se viktiga kopplingar med analys av sociala nätverk
- Utforska hur resultat från sociala nätverk används i marknadsföringen
Använda transaktionsdata för att ta fram rekommendationer och associationsregler
Bygga upp och utvärdera associationsregler
- Uppfatta verkliga kundpreferenser i transaktionsdata för att förbättra kundupplevelsen
- Beräkna support, förtroende och lyft för att skilja "bra" regler från "dåliga" regler
- Skilja mellan genomförbara, triviala, obegripliga regler
- Klara utmaningen med stora datauppsättningar när man söker efter regler med RHadoop
Konstruera rekommendationsmotorer
- Kors– och uppförsäljning & ersättningar som motivation
- Utnyttja rekommendationer baserat på gemensam filtrering
Implementera analys i organisationen
Utöka analyskapaciteten
- Bryta ner Big Data–analys i hanterliga steg
- Integrera analys i aktuella verksamhetsprocesser
- Granska Spark, MLib och Mahout för maskininlärning
Spridning och Big Data–policyer
- Utforska etiska frågor om sekretess i Big Data
- Sprida resultat för olika typer av intressenter