metadata data warehouse explained with examples
Questo tutorial spiega il ruolo dei metadati in ETL, esempi e tipi di metadati, repository di metadati e sfide nella gestione dei metadati:
Data Mart in ETL è stato spiegato in dettaglio nel nostro precedente tutorial.
Il concetto di metadati è molto importante in ETL e questo tutorial spiegherà tutto sui metadati.
Copre il ruolo dei metadati, esempi di metadati, nonché i suoi tipi, repository di metadati, come possono essere gestiti i metadati del data warehousing, sfide per la gestione dei metadati.
Imparerai anche cos'è l'ETL basato sui metadati e la differenza tra dati e metadati.
=> Leggi qui la serie di formazione gratuita sul data warehouse.
Destinatari
- Sviluppatori e tester di data warehouse / ETL.
- Professionisti di database con conoscenza di base dei concetti di database.
- Amministratori di database / esperti di big data che desiderano comprendere le aree del data warehouse / ETL.
- Laureati / matricole che cercano lavori nel data warehouse.
Cosa imparerai:
come iniziare la carriera nel test del software
Metadati in ETL
Gli utenti del team di data warehouse (o) possono utilizzare i metadati in una varietà di situazioni per creare, mantenere e gestire il sistema. La definizione di base dei metadati nel Data warehouse è, 'Sono dati sui dati' .
I metadati possono contenere tutti i tipi di informazioni sui dati DW come:
- Fonte per tutti i dati estratti.
- Uso di tali dati DW.
- Qualsiasi tipo di dato e suoi valori.
- Caratteristiche dei dati.
- Logica di trasformazione per i dati estratti.
- Tabelle DW e loro attributi.
- Oggetti DW
- Timestamp
I metadati fungono da sommario per i dati nel sistema DW, che mostra la tecnica con maggiori dettagli su quei dati. In parole semplici, puoi pensare a un indice in qualsiasi libro che funge da metadati, per i contenuti di quel libro.
Allo stesso modo, i metadati funzionano come un indice del contenuto DW. Tutti questi metadati vengono archiviati in un repository. Passando attraverso i metadati, gli utenti finali imparano da dove possono iniziare ad analizzare il sistema DW. Altrimenti, è difficile per gli utenti finali sapere da dove iniziare l'analisi dei dati in un sistema DW così vasto.
Ruolo dei metadati nel data warehouse
In passato, i metadati venivano creati e mantenuti come documenti. Ma nel mondo digitale di oggi, vari strumenti hanno semplificato questo lavoro registrando i metadati a ogni livello del processo DW.
I metadati creati da uno strumento possono essere standardizzati (ovvero i dati possono essere trasferiti in un unico formato) e possono essere riutilizzati tra gli altri strumenti ovunque nel sistema DW.
Poiché sappiamo che i sistemi operativi mantengono i dati correnti, i sistemi DW mantengono i dati storici e attuali.
I metadati devono tenere traccia di tutte le modifiche che avvengono nei sistemi di origine, nei metodi di estrazione / trasformazione dei dati e nella struttura (o) del contenuto dei dati che sorgeranno in questo processo. I metadati manterranno varie versioni per tenere traccia di tutte queste modifiche per diversi anni.
Metadati sufficienti forniti nel repository aiuteranno qualsiasi utente ad analizzare il sistema in modo più efficiente e indipendente. Comprendendo i metadati, è possibile eseguire qualsiasi tipo di query sui dati DW per i migliori risultati.
Rappresentazione pittorica del ruolo dei metadati:
Esempi di metadati in termini semplici
Di seguito sono riportati alcuni esempi di metadati.
- I metadati di una pagina Web possono contenere la lingua in cui è codificata, gli strumenti utilizzati per crearla, i browser di supporto, ecc.
- I metadati per un'immagine digitale possono contenere le dimensioni dell'immagine, la risoluzione, l'intensità del colore, la data di creazione dell'immagine, ecc.
- I metadati di un documento possono contenere la data di creazione del documento, la data dell'ultima modifica, le dimensioni, l'autore, la descrizione e così via.
Confronto tra dati e metadati
S.No | Dati | Metadati |
---|---|---|
1 | I dati sono un insieme di informazioni. | I metadati sono informazioni sui dati. |
Due | I dati possono (o) non possono essere elaborati. | I metadati sono sempre dati elaborati. |
Tipi di metadati
La classificazione dei metadati in vari tipi ci aiuterà a comprenderli meglio. Questa classificazione può essere basata sul suo utilizzo (o) gli utenti ecc.
Esploriamo i diversi tipi di metadati di seguito:
# 1) Metadati dietro le quinte: Dirige gli amministratori di database (o) gli utenti finali sui processi di estrazione, pulizia e caricamento.
# 2) Metadati della camera anteriore: Indirizza gli utenti finali a lavorare con strumenti e report BI.
# 3) Metadati di processo: Questo memorizza i metadati del processo ETL come il numero di righe caricate, rifiutate, elaborate e il tempo impiegato per caricare in un sistema DW, ecc. Queste informazioni possono essere accessibili anche agli utenti finali.
Allo stesso tempo, anche le statistiche delle tabelle di staging sono importanti per il team ETL. Questi metadati memorizzeranno i dati di processo delle tabelle di staging come il numero di righe caricate, rifiutate, elaborate e il tempo impiegato per il caricamento in ciascuna tabella di staging.
# 4) Derivazione dei dati: Memorizza la trasformazione logica per ogni elemento del sistema di origine nell'elemento di destinazione DW.
# 5) Definizioni aziendali: Il contesto per le tabelle DW è stato derivato dalle definizioni aziendali. Ogni attributo in una tabella è associato a una definizione aziendale. Quindi questi dovrebbero essere memorizzati come metadati (o) qualsiasi altro documento per riferimento futuro. Sia gli utenti finali che il team ETL dipendono da queste definizioni aziendali.
# 6) Definizioni tecniche: Le definizioni tecniche vengono utilizzate esclusivamente nell'area di staging dei dati più delle definizioni di business. Lo scopo principale è ridurre l'ambiguità durante la creazione di tabelle di staging e riutilizzare tutte le tabelle esistenti. Le definizioni tecniche memorizzeranno i dettagli di ciascuna tabella di staging come la sua posizione e struttura.
Ogni tabella di staging è tecnicamente documentata qui, se non è documentata significa che la tabella di staging non esiste. Ciò evita la ricreazione della stessa tabella di staging.
# 7) Metadati aziendali: I dati verranno archiviati in termini commerciali a vantaggio degli utenti finali / analisti / gestori / eventuali utenti. I metadati aziendali sono proxy per i dati del sistema di origine, ovvero non verrà eseguita alcuna manipolazione dei dati. Può essere derivato da qualsiasi documento aziendale e regola aziendale.
# 8) Metadati tecnici: Ciò memorizzerà i dati tecnici come gli attributi delle tabelle, i loro tipi di dati, le dimensioni, gli attributi della chiave primaria, gli attributi della chiave esterna e qualsiasi indice. Questo è più strutturato rispetto ai metadati aziendali.
I metadati tecnici sono destinati principalmente al team DW come sviluppatori / tester / analisti / amministratori di database per creare (o) mantenere il sistema. Questo viene anche utilizzato in modo significativo dagli amministratori per monitorare i carichi del database e i backup dei dati, ecc.
# 9) Metadati operativi: Come sappiamo, i dati nel sistema DW provengono da molti sistemi operativi con diversi tipi di dati e campi. Le estrazioni DW trasformano tali dati in un tipo unico e caricano tutti questi dati nel sistema.
Allo stesso tempo, deve essere in grado di ricollegare i dati ai dati del sistema di origine. I metadati che memorizzano tutte queste informazioni sulle origini dati operative sono noti come metadati operativi.
# 10) Informazioni sul sistema di origine:
c ++ genera un numero casuale compreso tra 1 e 10
È possibile raccogliere i seguenti metadati da vari sistemi di origine:
- Database (o) file system: Ciò memorizzerà i nomi dei database del sistema di origine (o) file.
- Specifiche della tabella: Questo memorizzerà tutti i dettagli sulle tabelle come il nome della tabella, il suo scopo, le dimensioni, gli attributi, le chiavi primarie e le chiavi esterne.
- Regole di gestione delle eccezioni: Questo memorizzerà diversi metodi di ripristino del sistema in caso di errori di sistema.
- Definizioni aziendali: Ciò memorizzerà le definizioni aziendali per una breve comprensione dei dati.
- Regole di business: Ciò memorizzerà una serie di regole per ciascuna tabella per comprenderne i dati ed evitare incongruenze.
I metadati del sistema di origine fanno risparmiare molto tempo al team DW durante l'analisi dei dati.
# 11) Metadati del lavoro ETL: I metadati del lavoro ETL sono molto importanti in quanto memorizzano i dettagli di tutti i lavori da elaborare nella pianificazione, per caricare il sistema ETL.
Questi metadati memorizzano le seguenti informazioni:
- Nome del lavoro: Nome lavoro ETL.
- Proposta di lavoro: Lo scopo di eseguire il lavoro.
- Tabelle / file di origine: Fornisce i nomi e l'ubicazione di tutte le tabelle e i file da cui vengono prelevati i dati da questo lavoro ETL. Può avere più di una tabella (o) nome file.
- Tabelle / file di destinazione: Fornisce i nomi e l'ubicazione di tutte le tabelle e i file in cui i dati vengono trasformati da questo lavoro ETL. Può avere più di una tabella (o) nome file.
- Dati rifiutati: Fornisce i nomi e la posizione di tutte le tabelle e i file da cui i dati di origine previsti non sono stati caricati nella destinazione.
- Processi preliminari: Fornisce i nomi di script dei lavori (o) da cui dipende il lavoro corrente. Significa che devono essere eseguiti con successo prima di eseguire il lavoro corrente.
- Post processi: Fornisce i nomi degli script dei lavori (o) che devono essere eseguiti immediatamente dopo il lavoro corrente per completare il processo.
- Frequenza: Fornisce informazioni sulla frequenza con cui il lavoro deve essere eseguito, ovvero giornalmente, settimanalmente (o) mensilmente.
# 12) Metadati di trasformazione: I metadati di trasformazione memorizzano tutte le informazioni di costruzione relative al processo ETL. Ogni singola manipolazione dei dati nel processo ETL è nota come trasformazione dei dati.
Qualsiasi insieme di funzioni, stored procedure, cursori, variabili e loop nel processo ETL può essere considerato come trasformazioni. Ma tali trasformazioni non possono essere documentate separatamente come metadati.
L'intero processo ETL è costruito con trasformazioni dei dati. Poche trasformazioni in ETL possono essere predefinite e utilizzate nel sistema DW. Gli sviluppatori ETL trascorrono il loro tempo nella creazione (o) rielaborazione di tutte le trasformazioni dei dati. Il riutilizzo delle trasformazioni predefinite durante lo sviluppo del processo ETL velocizzerà il lavoro.
Leggi le seguenti trasformazioni dei dati che puoi trovare in ETL:
css3 intervista domande e risposte pdf
- Estrazioni dei dati di origine: Ciò implica trasformazioni dei dati da leggere dai dati del sistema di origine come una query di selezione SQL (o) FTP (o) la lettura di dati XML / mainframe.
- Generatori di chiavi surrogate: Il nuovo numero di sequenza che dovrebbe essere generato per ogni riga della tabella del database viene memorizzato come metadati.
- Ricerche: Le ricerche possono essere formate con tutte le istruzioni IN, i join interni e i join esterni. Questi vengono utilizzati principalmente per contenere le chiavi surrogate da tutte le rispettive tabelle delle dimensioni durante il caricamento di un fatto.
- Filtri: I filtri sono consigliati per ordinare i dati che dovrebbero essere estratti, caricati e rifiutati nel processo ETL. Filtrare i dati nelle prime fasi del sistema ETL è una buona pratica. I filtri vengono applicati in base alle regole aziendali (o) vincoli.
- Aggregati: A seconda del livello di granularità dei dati, è possibile utilizzare i metadati relativi alle funzioni aggregate come somma, conteggio, media, ecc.
- Strategie di aggiornamento: Queste sono le regole applicate a un record durante l'aggiornamento dei dati. Se sono presenti modifiche nei dati esistenti, ciò indicherà se un record deve essere aggiunto, eliminato (o) aggiornato.
- Caricatore di destinazione: Il caricatore di destinazione memorizzerà i dettagli del database, i nomi delle tabelle e dei nomi delle colonne in cui i dati devono essere caricati tramite il processo ETL. Inoltre, questo memorizzerà anche i dettagli dell'eventuale utilità di caricamento di massa, che viene eseguita durante il caricamento dei dati nel sistema ETL.
Ogni trasformazione può essere denominata distintamente con una breve nota sul suo scopo.
Alcuni esempi di convenzioni di denominazione sono inline qui per l'elenco di trasformazioni precedente.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Repository di metadati in ETL
Un repository di metadati è un luogo in cui qualsiasi tipo di metadati viene archiviato in un database locale (o) in un database virtuale. Ogni tipo di metadati come metadati aziendali (o) metadati tecnici può essere separato logicamente in un repository.
Oltre ai due tipi precedenti, il repository ha anche un altro componente denominato Information navigator.
Il navigatore di informazioni può essere utilizzato per eseguire le seguenti attività:
- Interfaccia da Query Tool: Ciò fornisce un'interfaccia agli strumenti di query per accedere ai metadati DW.
- Drill down per i dettagli: Ciò consente all'utente di eseguire il drill-down dei metadati per informazioni più dettagliate. Ad esempio, al primo livello, l'utente può ottenere una definizione di tabella dati. Eseguendo il drill down, può ottenere gli attributi della tabella al livello successivo. Analizzando ulteriormente i dati, può ottenere i dettagli di ogni attributo, ecc.
- Esamina query e rapporti predefiniti: Ciò consente all'utente di rivedere query e rapporti predefiniti. Questo funge da riferimento alle query di frame da solo con parametri adeguati, ecc.
Rappresentazione pittorica del repository di metadati:
Come possono essere gestiti i metadati del data warehousing?
Persone, processi e strumenti sono le fonti chiave per gestire i metadati.
- Le persone dovrebbero comprendere i metadati per un utilizzo appropriato.
- Il processo incorporerà i metadati in strumenti (o) repository con l'avanzamento del ciclo di vita DW per un uso futuro.
- Successivamente, i metadati possono essere gestiti dagli strumenti.
Sfide per la gestione dei metadati
Una volta creati i metadati, potresti affrontare le seguenti sfide durante l'integrazione e la gestione dei metadati nel sistema.
- Portare vari formati di metadati in un formato standard potrebbe richiedere uno sforzo maggiore se vengono utilizzati vari strumenti nel sistema DW, poiché i metadati possono essere archiviati su fogli di calcolo, applicazioni (o) database.
- I formati di metadati non hanno standard consolidati a livello di settore. Con questa mancanza di processo standardizzato, è difficile passare i metadati attraverso vari livelli del sistema e degli strumenti DW.
- Mantenere costantemente varie versioni dei metadati storici è un'attività complessa.
Che cos'è l'ETL basato sui metadati?
L'ETL basato sui metadati stabilisce un livello per semplificare il processo di caricamento dei dati in un sistema DW. Puoi decidere se elaborare i dati nel sistema (o) non a seconda dei metadati. Quindi puoi chiamarlo ETL basato sui metadati.
Conclusione
Il ruolo significativo dei metadati nel determinare il successo (o) il fallimento di un sistema DW è stato spiegato in dettaglio in questo tutorial.
Abbiamo anche esplorato in dettaglio il significato, il ruolo, gli esempi, i tipi, le sfide dei metadati insieme alla rappresentazione pittorica in questione.
Ci auguriamo che questi tutorial informativi di questa serie di Data Warehouse abbiano arricchito le tue conoscenze sul Data Warehousing e sui concetti correlati !!!
Buona lettura!!
=> Visita qui per apprendere il data warehousing da zero.
Lettura consigliata
- Esercitazione sul test del data warehouse con esempi | Guida al test ETL
- Esercitazione sul test del data warehouse di test ETL (una guida completa)
- Modello di dati dimensionale nel data warehouse - Tutorial con esempi
- Tutorial sul data mart - Tipi, esempi e implementazione del data mart
- Che cos'è il processo ETL (Extract, Transform, Load) in Data Warehouse?
- 10 migliori strumenti di mappatura dei dati utili nel processo ETL (2021 LIST)
- Esempi di data mining: applicazioni più comuni del data mining 2021
- ETL Testing Interview Domande e risposte