Skip to content

dpejcoch/4IZ174

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 

Repository files navigation

4IZ174 Kvalita dat (Datová kvalita 1-2-3)

  • Aktualizováno pro ZS 2024/2025
  • Přednášky: pátek 7:30 - 9:00 CET
  • Konzultační hodiny individuálně na základě dohody s vyučujícím

Požadavky na absolvování kurzu

Průběžné testy a zkouškový závěrečný test

  • 3 průběžné testy (2-4 otázky, 1-2 min, 50% bodů), závěrečný test (10 otázek, 7 min, 50% bodů). Každá otázka je hodnocena 5 body.
  • Otázky jsou náhodně vybrané z probraných témat na přednáškách.
  • Odpovědi na otázky jsou formou výběru ze seznamu možných, Ano/Ne, jednoduchý výpočet.
  • Průběžné testy jsou online formou [https://www.classmarker.com], zůstávají aktivní 14 dní. Na úspěšné složení každého testu je pouze jeden pokus.
  • Závěrečný test je online formou, tudíž je možné se přihlásit kdykoliv mezi 2.1. a 2.2.. Na úspěšné složení testu je pouze jeden pokus.
  • Alternativou je ústní zkouška v průběhu zkouškového období (diskuse nad čtyřmi vylosovanými otázkami po 25 bodech).
  • Přípustné kombinace: průběžné testy + závěrečný test, zkouška, neúspěšné průběžné testy + zkouška
  • Bonusové body kompenzující nedostatek bodů ze zkoušky nebo testů lze získat za quizy z přednášek (jednotky bodů za nejrychlejší správnou odpověď) a esseje (10 bodů).

Příklady otázek

Kontrola jakosti se zaměřuje na soubor subjektivních vlastností produktů a služeb

  • Ano
  • Ne

V případě optimalizace procesů chápe Six Sigma pojem Accuracy jako:

  1. Problém variability
  2. Problém polohy

Vyberte regulární výraz, který lze použít pro validaci školního emailu:

  1. [a-z0-9]{6}@vse.cz
  2. [a-z]{4}[0-9]{2}@vse.cz
  3. [a-z]{4}[0-9]{2}@[vse].[cz]
  4. [a-z]{4}[0-9]{2}@[vse]+.[cz]+

Klasifikace

  • 90 a více bodů = 1
  • 75 - 89 bodů = 2
  • 60 - 74 bodů = 3
  • 0 - 59 bodů = nevyhověl

Struktura kurzu

Úvod do řízení dat

  1. 2024-09-20: Požadavky na úspěšné absolvování kurzu. Data, datové produkty, řízení a správa dat, řízení kvality dat a informací, Data Quality 1-2-3 (zjednodušený pohled na řízení kvality dat).

Analýza současného stavu

  1. 2024-09-27: Seznámení s platformou Classmarker pro testy. Užití dat v rámci organizací, požadavky na kvalitu dat, úvod do teorie informačních systémů, úvod do Machine Learning
  2. 2024-10-04: Příčiny a důsledky nekvalitních dat
  3. 2024-10-11: Data Profiling a alternativní přístupy (analýza procesů, testování kontrol), Data Drift. 1. průběžný test
  4. 2024-10-18: Řízení metadat, datové katalogy, Feature Store
  5. 2024-10-25: Validace dat, definice pravidel, vazba na metriky výkonnosti řízení dat
  6. 2024-11-01: Data Quality Assessment

Implementace nápravných opatření

  1. 2024-11-08: Inovační týden (výuka odpadá), 2. průběžný test
  2. 2024-11-15: Prevence vzniku chyb, oprava stávajících chyb: standardizace, korekce, implementace kontrol
  3. 2024-11-22: Imputace chybějících pozorování
  4. 2024-11-29: Obohacování dat, porovnávání a slučování záznamů
  5. 2024-12-06: Porovnávání a slučování záznamů, 3. průběžný test

Monitorování datové kvality

  1. 2024-12-13: Implementace monitoringu, kontinuální zvyšování kvality dat, příklady nástrojů pro podporu řízení kvality dat

Zkouškové období

  • 16.12. - 20.12. ústní zkouška
  • 2.1. - 2.2. závěrečný test, ústní zkouška
  • Vložení výsledků do INSIS musí proběhnout do půlnoci 2.2.

Povinná literatura

  • McGILVRAY, D. Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information. Morgan Kaufmann, 2008. xviii, 325 s. ISBN 978-0-12-374369-5.
  • MAYDANCHIK, Arkady. Data quality assessment. Bradley Beach: Technics Publications, LLC, [2007], ©2007. xiv, 321 stran. Data quality for practitioners series. ISBN 978-0-9771400-2-2.

Doporučená literatura

  • Prezentace k přednáškám
  • CHAPMAN, P., KHABAZA, T., SHEARER, C.: CRISP-DM 1.0 Step by step data mining guide. IBM, 2012. ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserManual/CRISP-DM.pdf
  • Materiály dostupné na www.dataquality.cz
  • PEJČOCH, D. Metody řešení problematiky neúplných dat [online]. 2011-01-13 Přednáška č. 4 v rámci Data Quality Tutorial. Dostupné pod odkazem: https://github.com/dpejcoch/4IZ562/tree/master/papers/Data_Imputation.pdf.
  • PEJČOCH, D. Benchmark přístupů k Fuzzy Match / Merge. Sborník prací účastníků vědeckého semináře doktorského studia. Fakulta informatiky a statistiky VŠE. Praha 2009. ISBN 978-80-245-1524-3.
  • LOSHIN, D. The Practitioner’s Guide to Data Quality Improvement. Burlington: Morgan Kaufmann as inprint of Elsevier, 2011. ISBN 978-0-12-373717-5.
  • ENGLISH, Larry P. Improving Data Warehouse and Business Information Quality: Methods for Reducing Costs and Increasing Profits. Wiley & Sons, 1999. xxvi, 518 s. ISBN-10 0-471-25383-9.
  • LEE, Yang W., PIPINO, Leo L., FUNK, James D., WANG, Richard Y. Journey to Data Quality. The MIT Press, 2006. 240 s. ISBN-10 02-621-2287-1.
  • BATINI, Carlo, SCANNAPIECO, Monica. Data Quality: Concepts, Methodologies and Techniques. Berlin: Springer-Verlag, 2006. xix, 262 s. ISBN-10 3-540-33172-7.
  • BERSON, Alex, DUBOV, Larry. Master Data Management and Customer Data Integration for a Global Enterprise. McGraw-Hill Companies, 2007. xxi, 393 s. ISBN-10 0-07-226349-0.
  • DYCHÉ, Jill, LEVY, Evan. Customer data integration: Reaching a Single Version of the Truth. SAS Institute Inc., Wiley & Sons, 2006, xxiv, 294 s. ISBN-10 0-471-91697-8.
  • REDMAN, T. Data Quality: The Field Guide. Boston: Butterworth-Heinemann MA, 2001. xviii, 241. ISBN-10 1-55558-251-6.
  • DAMA International: The DAMA Guide to the Data Management Body of Knowledge (DAMA-DMBOK). Technics Publication, LLC, 2009. ISBN 978-1-9355040-2-3.
  • Chaudhuri S., Ganjam K., Ganti V., Motwani R.: Robust and Efficient Fuzzy Match for Online Data Cleaning, SIGMOD 2003, June 9-12, 2003 San Diego, CA.
  • D'Ambrosio A. Boosted Incremental Tree-based Imputation of Missing Data, PhD. thesis, Universitá degli Studi di Napoli Federico II. 2007.

Pravidla pro vypracování esejí

  • Rozsah 1-2 A4
  • Strukturováno do tří částí: úvod (kontext, cíl, jakým způsobem bude zodpovězena klíčová otázka), diskuse (arguenty, proti-argumenty pro dílčí odpovědi, dílčí závěry), závěr (shrnutí hlavních myšlenek, závěrečné komentáře)
  • Argumentace opřená o prameny při respektování citační etiky a ČSN ISO-650. ChatGPT není pramen.

Osobnosti z oblasti řízení kvality dat a informací

  • Larry English - guru informační kvality
  • Jil Dyché - první dáma Data Governance
  • Evan Levy - spoluzakladatel Baseline Consulting, autor řady publikací
  • David Loshin - autor řady publikací pojednávajících o dopadu nekvalitních dat do byznysu
  • prof. Richard Wang - vůdčí postava MIT Total Data Quality Management program
  • prof. Carlo Batini - Università degli Studi di Milano-Bicocca
  • Thomas C. Redman, Ph.D. - prezident Navesink Consulting Group
  • Arkadyi Maydanchik – audit datové kvality
  • Dannette McGilvray – metodika 10 steps
  • Sunil Soares – Big Data Quality
  • John Ladley – Data Governance
  • Henrik Gabs Liliendahl - https://liliendahl.com/ (MDM, Data Quality)
  • Alex Berson a Larry Dubov – Master Data Management

Slovník pojmů

A

  • Audit datové kvality: Činnost směřující k identifikaci chyb v datech, jejich příčin a důsledků.
  • Aktuálnost: Vlastnost dat, metrika výkonnosti řízení dat. Kalkulována jako podíl zjevně neaktuálních hodnot. Neaktuální hodnoty lze identifikovat na základě následujícího vztahu: Stáří dat při získání poslední aktuální hodnoty + (čas posledního získání aktuální hodnoty - čas posledního vložení do IS)
  • Analytické MDM: Po proudu datových toku, typicky součást DWH, definice entit se často mení, často vnímán podobně jako warehousing (CDI, PIM, FPM)
  • Analýza vzorů: Součást profilace dat. Slouží jako jedna z možných metod ověření syntaktické správnosti. Spočívá v kódování znaků obsažených v řetězci nebo skupin těchto znaků tak, že odlišným způsobem jsou kódována písmena, numerické znaky a ostatní znaky. Na vzniklé kódy je potom aplikována analýza četností. Mnohé nástroje pro podporu řízení kvality dat umožňují ze syntaktických vzorů přímo generovat regulární výrazy. Příklad syntaktického vzoru pro telefonní číslo ve tvaru "+420 210 000 216" je "*999 999 999 999".

B

  • Bezpečnost přístupu: Vlastnost dat, metrika výkonnosti řízení dat. Míra zabezpečení přístupu k datům. Podíl neoprávněných přístupů k hodnotám daného atributu k celkovému počtu přístupů za určité období.
  • Basel II: V oblasti bankovnictví je rozšířená norma New Basel Capital Accord, známá jako Basel II. Aktuálně vzniká její nová verze, Basel III. Norma je založena na třech pilířích: (1) Požadavek na minimální kapitál definující pravidla pro výpočet požadovaného kapitálu a metody pro měření rizik (úvěrové, tržní, provozní), (2) Proces dozorného posouzení definující činnost regulátora, stanovení limitu kapitálové přiměřenosti jednotlivých bank a (3) Požadavky na tržní disciplínu upravující též poskytování informací veřejnosti. V rámci definice požadavků na model kreditního rizika norma vymezuje též požadavky na datovou kvalitu. Data mají podle (Basel Committee, 2004) být správná a „odpovídající svému účelu“. Norma upozorňuje na nutnost identifikace volatility dat a auditu správnosti, úplnosti, konzistentnosti, aktuálnosti a důvěryhodnosti datových zdrojů. Požaduje též uchovávání historických dat a jejich použití v rámci vytvářených modelů.
  • Byznys pravidla: Jedna z metod validace. Po syntaktické stránce mají zpravidla podobu IF THEN asociačních pravidel nebo SQL LIKE WHERE podmínek. Mohou mít též podobu definovaných omezení, která jsou aplikována při deduplikaci dat.
  • Bus-matrix: Forma mapování atributů na jejich užití. Poprvé použitá Ralphem Kimballem pro mapování byznys procesů na dimenze při návrhu datového skladu.
  • Big Data: Původní definice: data, která je nemožné nebo neefektivní zpracovávat pomocí konvenčních prostředků (relativní vymezení). Historicky spojováno se zpracováváním nestrukturovaných dat (logy, indexace). V době platnosti původní definice byl synonymem Big Data ekosystem Hadoop. Pozdejší chápání: 3V od společnosti Gartner (+ Value jako 4.V). Big Data chápána jako veškerá potenciálně dostupná relevantní data.

C

  • Časová synchronizace: Vlastnost dat, metrika výkonností řízení dat. Míra synchronizace mezi zdroji s různým časovým razítkem. Odpovídá frekvenci loadu - v podstatě se jedná o rozdíl vložení do IS a času posledního získání aktuální hodnoty - viz aktuálnost.
  • Colaborative MDM: Workflow zahrnující vytvorení, definici, obohacení, schválení dat (napr. proces zavádení nového produktu do PIM)
  • CDI: Customer Data Integration. Typ Master Data Management řešení orientovaný na poskytnutí jedné verze pravdy o klientských datech.
  • Compliance: Soulad s nějakou regulační normou
  • COQ: Cost of Quality
  • Corporate Householding: Obchodně spjaté skupiny
  • Časová dimenze: Úhel pohledu na kvalitu dat. Vlastnosti dat jako: Aktuálnost, Včasnost, Volatilita, Časová synchronizace
  • CDSI: Cold Deck Single Imputation

D

  • DQA (Data Quality Assessment): Činnost směřující k identifikaci chyb v datech, jejich příčin a důsledků.
  • Datová kvalita: Míra naplnění určitých vlastností, které od dat očekáváme. Jako příklad těchto vlastností lze uvést správnost dat (jak po syntaktické, tak po semantické stránce), důvěryhodnost, unikátnost nebo též jejich úplnost, kterou lze zjednodušeně vyjádřit jako míru vyplněnosti datových atributů.
  • Dostupnost: Vlastnost dat, metrika výkonnosti řízení dat. Míra dostupnosti dat pro uživatele. Lze spočíst jako max [(1 – doba odezvy na požadavek / doba po kterou mohou být data použita), 0], zpravidla umocněno pomocí koeficientu senzitivity.
  • Data Cleansing: Vlastní jednorázové vyčištění dat
  • Data Quality: Datová kvalita, kvalita dat. Definice datové kvality J.M.Jurana: Data mají vysokou kvalitu, pokud tato odpovídá jejich zamýšlenému užití v provozu, rozhodování a plánování.
  • Data Governance: Soubor politik, principů, rolí a odpovědností v oblasti správy a řízení dat
  • DIKW Data-Information-Knowledge-Wisdom hierarchie, též Pyramida znalostí
  • Data (Information) Quality Act: Požaduje po federálních úřadech, aby nastavili návody zajišťující maximalizaci kvality, objektivity, užitečnosti a integrity informací. Požaduje vytvoření mechanismů pro opravu údajů dotčených osob, reporting počtu a povahy stížností na informace poskytované příslušným úřadem a reporting formy nápravných opatření vlivem stížností.
  • Data Management (DAMA, Data Management Association): "Data Management is the development and execution of architectures, policies, practices and procedures that properly manage the full data lifecycle needs of an enterprise."
  • Data Quality Firewall: Soubor vstupních konrol bránící vstupu takových dat do systému, jejichž vlastnosti nesplňují požadavky uživatelů
  • Deduplikace Proces porovnávní a slučování nechtěných duplicit
  • Data Lineage: Rodokmen dat. Zdokumentovaný původ dat a provedené transformace.
  • Data Protection Act: Implementace 95/46/EC v UK
  • Jill Dyché: První dáma Data Governance
  • DAMA: Data Management International
  • Data Scrubbing: Synonymum pro Data Cleansing
  • Data Lifecycle Management: Přístup založený na politikách, který řídí tok dat informačními systémy v průběhu jejich životního cyklu, tj. od vytvoření po jejich smazání. Aktuálně nahrazen pojmem Information Lifecycle Managment.
  • DublinCore: Standard pro metadata digitálních objektů

E

  • Enterprise MDM: Autonomní infrastruktura, integrace dat z více IT systému, obousmerné datové toky, pokrývá operativní i analytické MDM
  • Externí (vnější) konzistentnost: Vlastnost dat. Konzistentnost napříč různými datovými zdroji
  • EU Data Protection Directive (95/46/EC): Direktiva EU definující požadavky kvality dat z pohledu ochrany osobních údajů.
  • Endogenní dimenze: Úhel pohledu na kvalitu dat. Vlastnosti dat jako: Důvěryhodnost, Unikátnost, Sémantická správnost, Syntaktická správnost, Přesnost
  • Ekonomická dimenze: Úhel pohledu na kvalitu dat. Vlastnosti dat jako: Náklady na pořízení a aktualizaci dat, Náklady na uložení, sdílení, distribuci, zálohování a archivaci dat, Náklady na ochranu dat
  • EAN: European Article Number
  • EXIF: Exchengable Image File Format. Standard pro metadata multimediálních dat.
  • ETI: Error Tolerant Index je optimalizační metoda při porovnávání a slučování pomocí Fuzzy Match Similarity. ETI je vlastně pomocná tabulka, která přiřazuje každé min-hash signatuře její pozici v rámci atributu, číslo atributu, absolutní četnost v rámci referenční relace R a množinu identifikátorů řádků v rámci referenční relace, které signaturu obsahují . Nad touto tabulkou je poté vytvořen cluster index přes atributy Q-tice, Koordinát a Sloupec.

F

  • FPM: Financial Performance Management. Typ Master Data Management řešení orientovaný na poskytnutí jediné verze pravdy o kreditním skóringu klienta.
  • Fishbone graf: Též Ishikawův graf. Pomocný nástroj při mapování původních příčin na důsledky.
  • FCM: Fuzzy Cognitive Maps. Kauzální mapy naučené jako neuronová síť, publikované v (Glykas, 2010).
  • FOAF: Friend of a Friend ontologie
  • FMS: Fuzzy Match Simmilarity. Doménově agnistický přístup k porovnávání a slučování záznamů.

G

  • Geocoding: Zeměpisné kódování. Geocoding spočívá v dohledání geokoordinátů k adresním údajům za účelem jejich dalšího využití (identifikace rizika povodně, optimalizace distribuční sítě, apod.). Jedná se o činnost přispívající z pohledu datové kvality k obohacení stávajících dat. Pro úspěšné přiřazení geokoordinátů na základě externích registrů je nutná celá řada technik zahrnujících standardizaci a porovnávání, tedy činností vyžadujících dodatečné znalosti.
  • Globální datová kvalita: Sada konsolidovaných standardů datové kvality napříč celou firmou (Dyché, Levy)
  • GRDDL: Gleaning Resource Description for Dialects of Language

H

  • Householding: Zpravidla chápán jako identifikace domácnosti, tedy společně žijících osob společně rozhodujících o svém nákupním chování. V přeneseném významu též identifikace obecných vztahů mezi subjekty (obchodní sprízněnost, word-of-mouth vztahy, apod.)
  • HIPAA: Health Insurance Portability and Accountability Act je zákon schválený v roce 1996 ve Spojených státech. Kromě jiného se zaměřuje na bezpečnost a utajení dat o zdravotním stavu pacientů.
  • HDFS: Hadoop Distributed File System
  • HDSI: Hot Deck Single Imputation

I

  • Interoperabilita: Vlastnost dat, metrika výkonnosti řízení dat. Míra existence dokumentace a metadat pro korektní interpretaci dat. Lze určit jako podíl atributů obsažených v datovém slovníku k počtu netechnických atributů obsažených v systémech.
  • Inherentní kvalita: (Larry English): Míra, v níž data správně reflektují objekty reálného světa, které reprezentují.
  • ISACA: Information Systems Audit and Control Association
  • ISO 8000 Data Quality: Norma zaměřující se na oblasti jako: 1) Přípustná syntaxe master (kmenových ) dat, 2) Sémantické zakódování master dat (požadována explicitní definice všech metadat v externím otevřeném slovníku nebo definice zřejmá z dat), 3) Definice požadavků, které jsou kladeny na master data, 4) Vlastnosti master dat: sledován pouze původ, správnost a úplnost.
  • Interní (vnitřní) konzistentnost: Konzistentnost v rámci atributů jednoho zdroje (např. konzistentnost rodného čísla s pohlavím a datem narození)
  • IAIDQ: International Association for Informational and Data Quality
  • ISZR: Informační systém základních registrů (ISZR) v České republice vytvořený na základě zákona o základních registrech č. 111/2009 Sb. Záznamy v jednotlivých registrech (Registr osob, Registr obyvatel, Registr územní identifikace adres a nemovitostí, Registr práv a povinností) jsou opatřeny specifickými nevýznamovými identifikátory, jejich provázání lze realizovat pouze pomocí dalšího prvku registru, tzv. ORG-převodníku spravovaného Úřadem pro ochranu osobních údajů.
  • Imputace: Doplňování chybějících pozorování
  • Information Lifecycle Management: Přístup založený na politikách, který řídí tok informací informačními systémy v průběhu jejich životního cyklu, tj. od vytvoření po jejich smazání.
  • IDF: Inverse Document Frequency. Pro účely porovnávání a slučování lze spočíst jako logaritmus poměru celkového počtu záznamů a četnosti konkrétního tokenu v konkrétním sloupci.

J

K

  • Konzistentnost: Vlastnost dat, metrika výkonnosti řízení dat. Míra shody hodnot napříč datovými zdroji. Např. podíl hodnot atributu, které ač významově správné nekorespondují s hodnotami číselníku nebo podíl hodnot pro danou entitu, které si neodpovídají napříč datovými zdroji.
  • Kvalita informací: Míra, v níž mohou být informace a data považována za důvěryhodný zdroj pro některá a/nebo všechna svá požadovaná užití
  • Kmenová data: Master Data. Data popisující aktiva (klienti, dodavatelé, odběratelé, adresy, kontakty, finanční aktiva, produkty, komponenty, …)
  • Kanonický datový model: Pojem Kanonický datový model (též Společný datový model, CDM) pochází z oblasti datové integrace. Význam slova kanonický lze v českém jazyce chápat jako odvozený, vztahující se ke kánonu (tedy měřítku, pravidlu, souboru zásad, představě o ideálních proporcích). V matematice představuje kanonický tvar formu, ve které může být objekt jednoznačně prezentován. V oblasti datové integrace jej (Štrumpf & Džmuráň, 2008) zmiňuje jako model nezávislý na konkrétní aplikaci. (Howard, 2008) hovoří o „datovém modelu, který překlenuje podnikové aplikace a různé datové zdroje“. "
  • Kontextuální dimenze: Úhel pohledu na kvalitu dat. Vlastnosti dat jako: Interní konzistentnost, Externí konzistentnost, Úplnost, Pokrytí
  • Kontrolní součet: Metoda vnitřní kontroly některých vybraných číselných identifikátorů (IČO, RČ, ABO, ISBN) založené na doplnění původního identifikátoru číslicí odvozené z modula ostatních čísel.

L

  • Lokální datová kvalita (Dyché, Levy): ad hoc detekce a nápravu chyb na úrovni jednotlivých organizačních složek podniku. Lokální řízení je ovlivněno cíli a pravidly definovanými v rámci globální DQ
  • Linked Data: Podle (Heath & Bizer, 2011) se jedná o koncept nejlepších praktik pro publikování a vzájemné provázání strukturovaných dat na Webu. Základní principy Linked Data jsou zakotveny v práci vynálezce sémantického webu Tima Berners-Lee (Berners-Lee, 2006). Jsou to: (1) Užití URI (Unified Resource Identifier) jako názvu predmetu (objektu reálného sveta, abstraktních konceptu, dokumentu, digitálního obsahu), (2) Užití HTTP (Hypertext Trasfer Protocol) URI coby standardního prístupového mechanismu webu, aby bylo možné popsané objekty dohledat, (3) URI má smerovat na užitecnou informaci poskytovanou s využitím standardu RDF (Resource Description Framework) a SPARQL (SPARQL Protocol and RDF Query Language), (4) Zahrnutí odkazu na další URI (ne pouze webové dokumenty).
  • Larry English: Guru kvality informací, spoluzakladatel Mezinárodní asociace pro informační a datovou kvalitu, člen Data Management Asociation
  • David Loshin: Autor řady publikací pojednávajících o dopadu nekvalitních dat do byznysu
  • Lookup: Dotažení jedné konkrétní referenční hodnoty z číselníku na základě jedinečného klíče

M

  • MDM Hub: Systém služeb přístupu k master (kmenovým) datům
  • Master Data: viz Kmenová data
  • Monetarizovaná data: Data spojená s konkrétními přínosy (stávajícími nebo potenciálními) z pohledu firmy, představují jedno z klíčových aktiv
  • MCAR: Missing Completely at Random. Mechanismus výskytu chybějících hodnot. Situace, kdy chybějící hodnoty mají stejnou pravděpodobnost výskytu pro všechny záznamy. Záznamy s chybějícími hodnotami nejsou přitom nijak odlišitelné od těch bez chybějících hodnot.
  • MAR: Missing at Random. Mechanismus výskytu chybějících hodnot. Situace, kdy příčina chybějící hodnoty nezávisí na proměnné, v rámci níž se vyskytuje. Lze je na základě ostatních proměnných predikovat.
  • MNAR: Missing not at Random. Mechanismus výskytu chybějících hodnot. Situace, kdy příčina výskytu závisí pouze na proměnné samotné. Konkrétní příčinou může být např. fakt, že pro daný záznam tato proměnná nebyla naměřena nebo byla data proměnné doplněna z externího zdroje pouze pro část záznamů.
  • MBND: Missing by Natural Design. Mechanismus výskytu chybějících hodnot. Situace, kdy příčinou chybějící hodnoty je nemožnost jejího fyzického měření.
  • Metadata: Jak uvádí (Baca, 2008), metadata jsou vlastně data o datech. V širším pojetí se jedná o soubor toho, co mohu říci o informačním objektu na každé úrovni agregace. Podle (Cox, 2013) lze při aplikaci na komunikační programy a systémy metadata chápat jako data, která popisují infrastruktury a to, jakým způsobem se jejich jednotlivé komponenty mají vzájemně ovlivňovat, pracovat a fungovat. Tradiční definice metadat ve smyslu dat o datech se podle (Cox, 2013) hodí spíš ve vztahu k jednomu dokumentu, publikaci. Zpravidla se dále člení na technická (datové typy, délky, názvy atributů, přístupová oprávnění), byznys (byznys popisky, kontext) a operativní (velikost souboru).
  • MDM: Master Data Management. Řízení kmenových dat. Proces řízený workflow, zajišťující konzistentnost, správnost a řízení přístupu ke klíčovým informacím organizace.
  • Medium data: Pojem pocházející od Steva Sarsfielda, označující data v datovém skladu
  • MPC: Manufacturer Product Code
  • Metadata Repository: Centrální úložiště metadat
  • MI: Multiple Imputation. Strategie doplňování chybějících pozorování, kdy každou chybějící hodnotu lze doplnit na základě více kandidátů.

N

  • Náklady na pořízení a aktualizaci dat Vlastnost dat, metrika výkonností řízení dat. Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období.
  • Náklady na uložení, sdílení, distribuci, zálohování Vlastnost dat, metrika výkonnosti řízení dat. Náklady na uložení či archivaci v datovém úložišti (databázi, páskové jednotce, ...) a jejich zpřístupnění uživatelům. Měřeno jako objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období.
  • Náklady na ochranu dat Vlastnost dat, metrika výkonnosti řízení dat. Náklady na zajištění bezpečného přístupu a zabránění neautorizovanému přístupu k datům. Kalkulováno jako objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období.
  • NoSQL Not only SQL databáze
  • NewSQL Nová generace databází s Key-Value pair uložištěm a pseudorelačním engine pro interaktivní dotazování
  • NASA DIF (Directory Interchange Format). Standard pro metadata územně prostorových dat.
  • NYSIIS New York State Identification and Intelligence Systém. Fonetický algoritmus pro anglofonní prostředí.

O

  • Operativní MDM: Proti proudu obecných datových toku, jedno nebo více MDM je zabudováno do aplikací za úcelem jejich integrace, aplikace se príliš nemení, master data a definice entit se príliš nemení, práce v reálném case
  • OLTP: Online Transaction Processing
  • OLAP: Online Analytical Processing

P

  • Pyramida znalostí: Koncept publikovaný prof. Zeleným popisující vztah mezi daty, informacemi, znalostmi a vizemi.
  • Pokrytí: Vlastnost dat, metrika výkonnosti řízení dat. Míra pokrytí všech potenciálních hodnot atributu pro danou entitu. Lze spočíst jako podíl případů, kdy atribut neobsahuje všechny potenciální hodnoty.
  • Pragmatická kvalita (Larry English): Míra užitečnosti a hodnoty, kterou mají data pro podporování podnikových procesů umožňujících plnění podnikových cílů
  • PIM: Product Information Management. Typ Master Data Management řešení orientovaný na poskytnutí jediné verze pravdy o produktových datech. Typickým příkladem je implementace produktového katalogu.
  • Profilace dat: Data Profiling. V rámci profilace dat probíhá např. zjišťování základních popisných statistik jednotlivých datových atributů, identifikace syntaktických vzorů, porovnávání reálných dat s metadaty a ověřování referenční integrity. Tato fáze slouží k základnímu orientačnímu pohledu na úroveň kvality dat, která jsou zahrnuta do univerza auditu datové kvality. Představuje východisko pro další navazující činnosti.
  • Parsing: Též tokenizace. Spočívá v rozdělení víceslovných řetězců na jednotlivé tokeny, které jsou dále identifikovány, standardizovány a validovány.
  • Porovnávání a slučování: Činnost v rámci řízení kvality dat. Porovnávání a slučování je realizováno zejména v souvislosti s deduplikací záznamů a rozhodování, zda je nově vstupující záznam již obsažen v deduplikované bázi, či se jedná o záznam zcela nový.
  • Pattern Analysis: viz Analýza vzorů
  • PDCA: Plan-Do-Check-Act Demingův / Shewhardův cyklus kontinuálního zlepšování
  • Propojitelnost: Connectedness. Sekundární vlastnost dat spojovaná s Linked Data. Ve smyslu preciznosti napojení datových zdrojů, které jsou jinak oddělené.
  • PDI: Partner Data Integration. Rozšíření CDI na všechny partnery organizace (klienti / zákazníci, zaměstnanci, dodavatelé, odběratelé, externí spolupracovníci, …)
  • POWDER: Protocol of Web Description Resource
  • Porovnávací kód: Uměle vytvořený klíč pro porovnávání a slučování na základě přibližné shody. Proces vytváření kódu zahrnuje doménově specifické parsování, vyřazení nesignifikantních řetězců, odstranění některých samohlásek, standardizaci formátu a vlastní vygenerování kódu.

Q

  • QKB: Quality Knowledge Base. Znalostní báze orientovaná na podporu řízení kvality dat a informací.

R

  • Referenční shoda: Sekundární vlastnost dat specifická pro Linked Data. Zjišťuje, zda existuje pouze jeden jediný zdroj, který slouží pro reálný objekt jako referenční (McDonald, 2010)
  • Rekonciliace: Postup uvádění do souladu, odstranění zjištěných nesrovnalostí
  • Root-cause metoda: Přístup pro odhalování prapůvodní příčiny chyb (nejen) v datech
  • Řízenost: Directionality. Sekundární vlastnost dat spojovaná s Linked Data. Ve smyslu snadnosti navigace v hierarchii modelu.
  • RACI: Responsible, Accountable, Consulterd, Informed matice

S

  • Sémantická správnost: Podíl chybně přiřazených hodnot atributu.
  • Syntaktická správnost: Podíl nesmyslných hodnot pro daný typ atributu.
  • Srozumitelnost: Vlastnost dat, metrika výkonnosti řízení dat. Míra srozumitelnosti dat pro jejich uživatele. Měkká metrika zjistitelná např. formou dotazníkové šetření nebo interview s uživateli.
  • System of Record: Úložiště master (kmenových) dat. DB některého stávajícího řešení (CRM, ODS, DWH, ERP, …). Systém jediné pravdy o kmenových datech.
  • System of Reference: System of Record v případě, kdy je nutné uvažovat lokální repliky kmenových dat.
  • SOA: Servisně orientovaná architektura
  • SOX: Sarbanes-Oxley Act. The Public Accounting Reform and Investor Protection Act (2002). Vznikl jako reakce na skandály spojené s podvodnými účetními praktikami velkých firem. Norma se zaměřuje na transparentnost a odpovědnost za účetní informace firem.
  • Standardizace: Podstatou standardizace je syntaktické a sémantické sladění hodnot jednotlivých atributů.
  • Solvency II: Obdobu Basel II představuje v případě pojišťoven norma Solvency II (resp. vznikající verze III). Tato regulace, stejně jako Basel II, uvažuje v rámci System of Governance řízení dat jako jednoho z největších operačních rizik firmy. Na úrovni Level 1 2009/138/ES hovoří též o úplnosti, přesnosti a vhodnosti použitých údajů pro interní model. Na dalších úrovních bude zřejmě poněkud sdílnější. Level 2 (Implementing Measures) i Level 3 (doporučení) však dosud nemají svou konečnou podobu.
  • Small Data: Pojem pocházející od Steva Sarsfielda, označující data spreadsheetů
  • SPARQL: SPARQL Protocol and RDF Query Language
  • Datový steward: Osoba odpovědná za kvalitu dat v rámci určité oblasti.Zatímco (English, 1999) tuto odpovědnost přenáší na všechny osoby, které daná data používají, (Dyché & Levy, 2006) nebo (Berson & Dubov, 2007) hovoří o konkrétních rolích v rámci podnikové organizační struktury. Zpravidla jsou rozlišování techničtí a byznys stewardi.
  • SWP: The Semantic Web Publishing Vocabulary
  • SOUNDEX: Fonetický algoritmus pro anglofonní prostředí.
  • SOMACode: Sorted Matching Code. Příklad implementace porovnávacího kódu.
  • Simmetrics: Knihovna napsaná v jazyce Java, vytvořená jako Samem Chapmanem jako součást jeho PhD práce, poskytující základní metody pro porovnání a slučování
  • SI: Single Imputation. Strategie doplňování chybějících pozorování, kdy každá chybějící hodnota je doplňována pouze jedním kandidátem.

T

  • TQdM: Total Quality Data Management. Metodika navržená L. Englishem, uvažující následující hlavní pilíře: 1) Hodnocení kvality definice dat a kvality informační architektury, 2) Hodnocení informační kvality, 3) Měření nákladů na nekvalitní informace, 4) Reengineering a čištění dat, 5) Zvýšení kvality informačního procesu, 6) Nastavení prostředí pro informační kvalitu.

U

  • Unikátnost: Vlastnost dat, metrika výkonnosti řízení dat. Podíl nechtěných duplicitních záznamů v databázi nebo mezi datovými zdroji. Ke kalkulaci této metriky lze použít např. shlukovou analýzu podle porovnávacích kódů nebo metody pro porovnávání a slučování záznamů.
  • Úplnost: Vlastnost dat, metrika výkonnosti řízení dat. Míra chybně nevyplněných hodnot. Lze spočíst jako podíl chybně nevyplněných hodnot daného atributu k celkovému počtu záznamů dané entity.
  • UCD: Unified Customer Data. System of Record v případě zákaznických dat.
  • Universum dat: Souhrn dat, se kterými daný subjekt přichází do styku, a která pro něj představují současnou nebo budoucí přidanou hodnotu.
  • Určitelnost původu: Attribution. Sekundární vlastnost dat spojovaná s Linked Data. Ve smyslu snadnosti určení původu dat (z jakého zdroje, od jakého autora)
  • Dimenze užití: Úhel pohledu na kvalitu dat. Vlastnosti dat jako: Dostupnost, Srozumitelnost, Interoperabilita, Bezpečnost přístupu
  • UPC: Unique Product Code

V

  • Včasnost: Vlastnost dat, metrika výkonnosti řízení dat. Vpodstatě odpovídá frekvenci čerpání dat do datového zdroje. Lze ji spočíst na základě vztahu: max{0,1 - aktuálnost / volatilita}^s, kde s představuje míru senzitivity.
  • Volatilita: Vlastnost dat, metrika výkonností řízení dat. Vpodstatě odpovídá míře změny dané hodnoty atributu v reálném světě. Doba po kterou data zůstávají platná, tj. např. průměrná doba platnosti daného atributu (např. pro daný behaviorální segment).
  • Validace: Proces ujištění, že hodnoty příslušného atributu splňují kritéria požadovaná uživateli z pohledu jednotlivých vlastnosti dat.
  • Vlastnosti dat: Charakteristiky kvality dat, které je nutné řídit

W

  • WIQA:Web Information Quality Assessment
  • WOM: Word-of-Mouth

X

  • XSD: XML Schema Definition Language. Definuje povolené elementy, atributy, jejich přípustné kombinace, vlastní datové typy odvozené od existujících typů, řeší otázku násobnosti potomků a umožňuje syntaktické kontroly vstupních údajů s využitím regulárních výrazů.
  • XMP: Extensible Metadata Platform. Standard pro metadata multimediálních dat.

Y

Z

  • Zákon 412/2005 Sb.: Zákon 412/2005 Sb. o ochraně utajovaných informací a bezpečnostní způsobilosti vymezuje pojmy utajovaná informace, stupně utajení (přísně tajné, tajné, důvěrné, vyhrazené). Má tedy opět význam hlavně z pohledu auditu datové kvality a kvality informací, ale i z pohledu Data Governance, která tyto kategorie zavede a nastaví k nim relevantní procesy
  • Zákon 93/2009 Sb.: Zákon 93/2009 Sb. o auditorech v §20 Zpráva auditora definuje náležitosti auditorské zprávy v případě finančního auditu. Jak bude ukázáno v samostatné kapitole 9.7, některá ustanovení tohoto paragrafu je možné převzít jako nejlepší praktiky pro definici struktury zprávy auditora v případě auditu datové kvality.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published