- databáze
- statistické metody využívané ve strojovém učení
- tabulky, atributy, relace...
- dataminingové nástroje pracují pouze s jednou "tabulkou"
- dotazování - QBE vs SQL
- QBE - query by example, formuláře
- SQL - dotazovací jazyk
- podpora rozhodování s využitím databází
- executive information systems
- manažerský IS pro rychlý přístup k informacím
- user friendly ale neflexibilní
- OLAP
- multidimenzionální koncept uložení a manipulace s daty (datová krychle)
- provádějí se konverze dat (heterogenní datové zdroje)
- analytické metody, statistické přehledy, what if analýzy
- client/server, multiuživatelský pohled
- agregace, ukládání výsledků mimo zdrojová data
- řídká matice - matice kde většina pozic není obsazená
- práce s daty
- slice and dice - řezy a výběry z krychle
- roll up a drill down - pohyb v rámci dimenze
- MOLAP
- statické, analýza historických dat
- ROLAP
*
- hvězda
- sněhová vločka - pro každou úroveň každé dimenze samostatná tabulka
- datový sklad
- subjektově orientovaný, integrovaný, časově proměnný, stálý soubor dat sloužící pro podporu rozhodování
- datová tržiště - výsek datového skladu
- BI
- sběr, integrace, analýza, interpretace a prezentace (obchodních) dat a informací
- datový sklad, analytické nástroje, business performance management, uživatelské rozhranní
- propojení databází a dobývání znalostí
- dotazovací jazyky pro KDD
- asociační pravidla - MineRule
- API standardy - SQL/MM, OLE DB for Data Mining
- dotazovací jazyky pro KDD
- rozšíření databázovýách systémů o data mining
- SQL Server 2005 - rozhodovací stromy, asociační pravidla, naivní bayesovský klasifikátor, neuronové sítě, text mining, shlukování sekvencí, časové řady
- Oracle Data Mining - klasifikace, regrese, detekce anomálií...
- Big Data
- data která nelze zpracovávat standardními databázovými systémy a standardními analytickými nástroji
- volume - velikost dat přesahuje možnosti standardní nástrojů pro ukládání dat a manipulaci
- velocity - data jsou často sbíraná v realném čase
- variety - data nejsou jen strukturovaná ale obsahují i texty, obrázky, audio...
- nové způsoby ukládání dat - souborové systémy (GFS), NoSQL, parallel computing, distributed computing, grid computing
- např. Apache Hadoop, Map/Reduce - distribuce problémů na podproblémy
- executive information systems
- sběr, analýza, prezentace, interpretace dat
- deskripční metody - cílem je popsat základní charakteristiky daných dat dat
- konfirmační - potvrdit nebo vyvrátit hypotézu
- explorační - objevit možnou hypotézu, která je podporovaná daty
- statistická analýza vs data mining
- metodologicky
- statistická analýza - hypotézy řízený sběr dat (malý vzorek), analýza dat, interpretace výsledků
- data mining - předzpracování dostupných dat
- aplikace algoritmů
- interpretace výsledků
- terminologické (data mining vs statistika)
- attribute - variable; target atribute - dependent variable, input attribute - independent variable, learning - fitting, weights - parameters, error - residuum
- metodologicky
- kontingenční tabulky
- chí kvadrát
- regresní analýza - zjišťování funkční závislosti jedné numerické veličiny na jiných numerických veličinách
- diskriminační analýza - pro odlišení příkladů patřících do různých tříd - každá třída má vlastní funkce, zkoumáme kombinací funkcé - funkce mezi sebou odečteme a získáme rozdělení na dva podprostory podle tříd
- shluková analýza - vzdálenosti (manhattan, euklidovská, čebyševova), vzdálenost mezi shluky; dendogram; algoritmy - k-means; kvalita shlukování - dunnův index