Skip to content

Latest commit

 

History

History
71 lines (69 loc) · 4.13 KB

l2.md

File metadata and controls

71 lines (69 loc) · 4.13 KB

Přednáška II.

  • databáze
  • statistické metody využívané ve strojovém učení

Relační databáze

  • tabulky, atributy, relace...
  • dataminingové nástroje pracují pouze s jednou "tabulkou"
  • dotazování - QBE vs SQL
    • QBE - query by example, formuláře
    • SQL - dotazovací jazyk
  • podpora rozhodování s využitím databází
    • executive information systems
      • manažerský IS pro rychlý přístup k informacím
      • user friendly ale neflexibilní
    • OLAP
      • multidimenzionální koncept uložení a manipulace s daty (datová krychle)
      • provádějí se konverze dat (heterogenní datové zdroje)
      • analytické metody, statistické přehledy, what if analýzy
      • client/server, multiuživatelský pohled
      • agregace, ukládání výsledků mimo zdrojová data
      • řídká matice - matice kde většina pozic není obsazená
      • práce s daty
        • slice and dice - řezy a výběry z krychle
        • roll up a drill down - pohyb v rámci dimenze
      • MOLAP
        • statické, analýza historických dat
      • ROLAP *
        • hvězda
        • sněhová vločka - pro každou úroveň každé dimenze samostatná tabulka
    • datový sklad
      • subjektově orientovaný, integrovaný, časově proměnný, stálý soubor dat sloužící pro podporu rozhodování
      • datová tržiště - výsek datového skladu
    • BI
      • sběr, integrace, analýza, interpretace a prezentace (obchodních) dat a informací
      • datový sklad, analytické nástroje, business performance management, uživatelské rozhranní
    • propojení databází a dobývání znalostí
      • dotazovací jazyky pro KDD
        • asociační pravidla - MineRule
      • API standardy - SQL/MM, OLE DB for Data Mining
    • rozšíření databázovýách systémů o data mining
      • SQL Server 2005 - rozhodovací stromy, asociační pravidla, naivní bayesovský klasifikátor, neuronové sítě, text mining, shlukování sekvencí, časové řady
      • Oracle Data Mining - klasifikace, regrese, detekce anomálií...
    • Big Data
      • data která nelze zpracovávat standardními databázovými systémy a standardními analytickými nástroji
      • volume - velikost dat přesahuje možnosti standardní nástrojů pro ukládání dat a manipulaci
      • velocity - data jsou často sbíraná v realném čase
      • variety - data nejsou jen strukturovaná ale obsahují i texty, obrázky, audio...
      • nové způsoby ukládání dat - souborové systémy (GFS), NoSQL, parallel computing, distributed computing, grid computing
        • např. Apache Hadoop, Map/Reduce - distribuce problémů na podproblémy

Statistika

  • sběr, analýza, prezentace, interpretace dat

Statistické metody

  • deskripční metody - cílem je popsat základní charakteristiky daných dat dat
  • konfirmační - potvrdit nebo vyvrátit hypotézu
  • explorační - objevit možnou hypotézu, která je podporovaná daty
  • statistická analýza vs data mining
    • metodologicky
      • statistická analýza - hypotézy řízený sběr dat (malý vzorek), analýza dat, interpretace výsledků
      • data mining - předzpracování dostupných dat
      • aplikace algoritmů
      • interpretace výsledků
    • terminologické (data mining vs statistika)
      • attribute - variable; target atribute - dependent variable, input attribute - independent variable, learning - fitting, weights - parameters, error - residuum

Ukázkové metody

  • kontingenční tabulky
  • chí kvadrát
  • regresní analýza - zjišťování funkční závislosti jedné numerické veličiny na jiných numerických veličinách
  • diskriminační analýza - pro odlišení příkladů patřících do různých tříd - každá třída má vlastní funkce, zkoumáme kombinací funkcé - funkce mezi sebou odečteme a získáme rozdělení na dva podprostory podle tříd
  • shluková analýza - vzdálenosti (manhattan, euklidovská, čebyševova), vzdálenost mezi shluky; dendogram; algoritmy - k-means; kvalita shlukování - dunnův index