Přednáška II.

databáze
statistické metody využívané ve strojovém učení

Relační databáze

tabulky, atributy, relace...
dataminingové nástroje pracují pouze s jednou "tabulkou"
dotazování - QBE vs SQL
- QBE - query by example, formuláře
- SQL - dotazovací jazyk
podpora rozhodování s využitím databází
- executive information systems
  - manažerský IS pro rychlý přístup k informacím
  - user friendly ale neflexibilní
- OLAP
  - multidimenzionální koncept uložení a manipulace s daty (datová krychle)
  - provádějí se konverze dat (heterogenní datové zdroje)
  - analytické metody, statistické přehledy, what if analýzy
  - client/server, multiuživatelský pohled
  - agregace, ukládání výsledků mimo zdrojová data
  - řídká matice - matice kde většina pozic není obsazená
  - práce s daty
    - slice and dice - řezy a výběry z krychle
    - roll up a drill down - pohyb v rámci dimenze
  - MOLAP
    - statické, analýza historických dat
  - ROLAP *
    - hvězda
    - sněhová vločka - pro každou úroveň každé dimenze samostatná tabulka
- datový sklad
  - subjektově orientovaný, integrovaný, časově proměnný, stálý soubor dat sloužící pro podporu rozhodování
  - datová tržiště - výsek datového skladu
- BI
  - sběr, integrace, analýza, interpretace a prezentace (obchodních) dat a informací
  - datový sklad, analytické nástroje, business performance management, uživatelské rozhranní
- propojení databází a dobývání znalostí
  - dotazovací jazyky pro KDD
    - asociační pravidla - MineRule
  - API standardy - SQL/MM, OLE DB for Data Mining
- rozšíření databázovýách systémů o data mining
  - SQL Server 2005 - rozhodovací stromy, asociační pravidla, naivní bayesovský klasifikátor, neuronové sítě, text mining, shlukování sekvencí, časové řady
  - Oracle Data Mining - klasifikace, regrese, detekce anomálií...
- Big Data
  - data která nelze zpracovávat standardními databázovými systémy a standardními analytickými nástroji
  - volume - velikost dat přesahuje možnosti standardní nástrojů pro ukládání dat a manipulaci
  - velocity - data jsou často sbíraná v realném čase
  - variety - data nejsou jen strukturovaná ale obsahují i texty, obrázky, audio...
  - nové způsoby ukládání dat - souborové systémy (GFS), NoSQL, parallel computing, distributed computing, grid computing
    - např. Apache Hadoop, Map/Reduce - distribuce problémů na podproblémy

Statistika

sběr, analýza, prezentace, interpretace dat

Statistické metody

deskripční metody - cílem je popsat základní charakteristiky daných dat dat
konfirmační - potvrdit nebo vyvrátit hypotézu
explorační - objevit možnou hypotézu, která je podporovaná daty
statistická analýza vs data mining
- metodologicky
  - statistická analýza - hypotézy řízený sběr dat (malý vzorek), analýza dat, interpretace výsledků
  - data mining - předzpracování dostupných dat
  - aplikace algoritmů
  - interpretace výsledků
- terminologické (data mining vs statistika)
  - attribute - variable; target atribute - dependent variable, input attribute - independent variable, learning - fitting, weights - parameters, error - residuum

Ukázkové metody

kontingenční tabulky
chí kvadrát
regresní analýza - zjišťování funkční závislosti jedné numerické veličiny na jiných numerických veličinách
diskriminační analýza - pro odlišení příkladů patřících do různých tříd - každá třída má vlastní funkce, zkoumáme kombinací funkcé - funkce mezi sebou odečteme a získáme rozdělení na dva podprostory podle tříd
shluková analýza - vzdálenosti (manhattan, euklidovská, čebyševova), vzdálenost mezi shluky; dendogram; algoritmy - k-means; kvalita shlukování - dunnův index

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

l2.md

l2.md

Přednáška II.

Relační databáze

Statistika

Statistické metody

Ukázkové metody

Files

l2.md

Latest commit

History

l2.md

File metadata and controls

Přednáška II.

Relační databáze

Statistika

Statistické metody

Ukázkové metody