data mart tutorial types
Questo tutorial spiega i concetti del data mart tra cui l'implementazione, i tipi, la struttura e le differenze tra data warehouse e data mart:
In questo Serie completa di formazione sul data warehouse , abbiamo esaminato i vari Schemi di data warehouse in dettaglio.
Questo tutorial ti aiuterà ad apprendere i concetti di Data Mart in dettaglio insieme a semplici esempi.
aziende che ti pagano per testare i loro prodotti
Vedremo cos'è un data mart? Quando abbiamo bisogno di un data mart? Data marting conveniente, costo di un data mart, tipi di data mart, passaggi per l'implementazione di un data mart, struttura di un data mart, quando è utile un data mart pilota? Svantaggi di Datamart e differenze tra Data Warehouse e Data Mart.
Destinatari
- Sviluppatori e tester di data warehouse / ETL.
- Professionisti di database con conoscenza di base dei concetti di database.
- Amministratori di database / esperti di big data che desiderano comprendere i concetti di data warehouse / ETL.
- Laureati / matricole che cercano lavori nel data warehouse.
Cosa imparerai:
- Cos'è un data mart?
- Confronto tra data warehouse e data mart
- Tipi di data mart
- Fasi di implementazione di un data mart
- Struttura Di Un Data Mart
- Quando è utile un data mart pilota?
- Inconvenienti del Data Mart
- Conclusione
Cos'è un data mart?
Un data mart è una piccola porzione del data warehouse che è principalmente correlata a un particolare dominio aziendale come marketing (o) vendite ecc.
I dati memorizzati nel sistema DW sono enormi, quindi i data mart sono progettati con un sottoinsieme di dati che appartiene ai singoli reparti. Pertanto un gruppo specifico di utenti può facilmente utilizzare questi dati per la propria analisi.
A differenza di un data warehouse che ha molte combinazioni di utenti, ogni data mart avrà un particolare set di utenti finali. Il minor numero di utenti finali si traduce in tempi di risposta migliori.
I data mart sono accessibili anche agli strumenti di business intelligence (BI). I data mart non contengono dati duplicati (o) inutilizzati. Vengono aggiornati a intervalli regolari. Sono database orientati al soggetto e flessibili. Ogni team ha il diritto di sviluppare e mantenere i propri data mart senza modificare i dati del data warehouse (o) di altri data mart.
Un data mart è più adatto per le piccole imprese in quanto costa molto meno di un sistema di data warehouse. Il tempo necessario per creare un data mart è anche inferiore al tempo necessario per creare un data warehouse.
Rappresentazione pittorica di più data mart:
Quando abbiamo bisogno di un data mart?
In base alla necessità, pianifica e progetta un data mart per il tuo reparto coinvolgendo gli stakeholder perché il costo operativo del data mart può essere elevato alcune volte.
Considera i seguenti motivi per creare un data mart:
- Se si desidera suddividere i dati con una serie di strategie di controllo dell'accesso utente.
- Se un particolare reparto desidera vedere i risultati della query molto più velocemente invece di scansionare enormi dati DW.
- Se un dipartimento desidera che i dati siano costruiti su altre piattaforme hardware (o) software.
- Se un dipartimento desidera che i dati siano progettati in modo appropriato per i suoi strumenti.
Data Mart conveniente
È possibile creare un data mart conveniente con i seguenti passaggi:
- Identificare le divisioni funzionali: Dividi i dati dell'organizzazione in ogni dato specifico del data mart (dipartimentale) per soddisfare i suoi requisiti, senza ulteriori dipendenze dall'organizzazione.
- Identificare i requisiti dello strumento di accesso utente: Sul mercato possono esistere diversi strumenti di accesso degli utenti che richiedono strutture di dati differenti. I data mart vengono utilizzati per supportare tutte queste strutture interne senza disturbare i dati DW. Un data mart può essere associato a uno strumento secondo le esigenze dell'utente. I data mart possono anche fornire dati aggiornati a tali strumenti quotidianamente.
- Identificare i problemi di controllo degli accessi: Se diversi segmenti di dati in un sistema DW richiedono privacy e devono essere accessibili da un insieme di utenti autorizzati, tutti questi dati possono essere spostati in data mart.
Costo del data mart
Il costo del data mart può essere stimato come segue:
- Costo hardware e software: Qualsiasi data mart appena aggiunto potrebbe richiedere hardware, software, potenza di elaborazione, rete e spazio di archiviazione su disco aggiuntivi per lavorare sulle query richieste dagli utenti finali. Ciò rende il data marting una strategia costosa. Quindi il budget dovrebbe essere pianificato con precisione.
- Accesso alla rete: Se la posizione del data mart è diversa da quella del data warehouse, tutti i dati dovrebbero essere trasferiti con il processo di caricamento del data mart. Quindi dovrebbe essere fornita una rete per trasferire enormi volumi di dati che possono essere costosi.
- Vincoli della finestra temporale: Il tempo impiegato per il processo di caricamento del data mart dipenderà da vari fattori come complessità e volumi di dati, capacità di rete, meccanismi di trasferimento dati, ecc.
Confronto tra data warehouse e data mart
S.No | Data Warehouse | Data Mart |
---|---|---|
1 | Complesso e costa di più da implementare. | Semplice ed economico da implementare. |
Due | Funziona a livello di organizzazione per l'intera azienda. | L'ambito è limitato a un particolare dipartimento. |
3 | L'interrogazione del DW è difficile per gli utenti aziendali a causa delle enormi dipendenze dei dati. | L'interrogazione del data mart è facile per gli utenti aziendali a causa dei dati limitati. |
4 | Il tempo di implementazione è più può essere in mesi o anni. | Il tempo di implementazione è inferiore può essere in giorni, settimane o mesi. |
5 | Raccoglie dati da vari sistemi di origine esterna. | Raccoglie i dati da alcuni sistemi di origine DW (o) interni (o) esterni centralizzati. |
6 | Si possono prendere decisioni strategiche. | Si possono prendere decisioni aziendali. |
Tipi di data mart
I data mart sono classificati in tre tipi: dipendenti, indipendenti e ibridi. Questa classificazione si basa su come sono stati popolati, ovvero da un data warehouse (o) da qualsiasi altra fonte di dati.
Estrazione, trasformazione e trasporto (ETT) è il processo utilizzato per popolare i dati del data mart da qualsiasi sistema di origine.
Diamo un'occhiata a ogni tipo in dettaglio !!
# 1) Data Mart dipendente
In un data mart dipendente, i dati provengono dallo stesso data warehouse esistente. Si tratta di un approccio dall'alto verso il basso perché la porzione di dati ristrutturati nel data mart viene estratta dal data warehouse centralizzato.
Un data mart può utilizzare i dati DW in modo logico o fisico come mostrato di seguito:
- Vista logica: In questo scenario, i dati del data mart non sono fisicamente separati dal DW. Si riferisce ai dati DW tramite viste virtuali (o) tabelle logicamente.
- Sottoinsieme fisico: In questo scenario, i dati del data mart sono fisicamente separati dal DW.
Una volta sviluppati uno o più data mart, è possibile consentire agli utenti di accedere solo ai data mart (o) per accedere sia ai data mart che ai data warehouse.
ETT è un processo semplificato nel caso di data mart dipendenti perché i dati utilizzabili sono già presenti nel DW centralizzato. Il set accurato di dati riepilogati dovrebbe essere semplicemente spostato nei rispettivi data mart.
Di seguito è mostrata un'immagine del data mart dipendente :
# 2) Data Mart indipendente
Un data mart indipendente è più adatto per i piccoli reparti di un'organizzazione. Qui i dati non provengono dal data warehouse esistente. Il data mart indipendente non dipende né dal DW aziendale né da altri data mart.
I data mart indipendenti sono sistemi autonomi in cui i dati vengono estratti, trasformati e caricati da origini dati esterne (o) interne. Questi sono facili da progettare e mantenere fino a quando non supportano semplici esigenze aziendali di reparto.
È necessario lavorare con ogni fase del processo ETT in caso di data mart indipendenti in modo simile a come i dati sono stati elaborati in DW centralizzato. Tuttavia, il numero di origini e i dati inseriti nei data mart potrebbero essere inferiori.
Rappresentazione pittorica di un Data Mart indipendente :
# 3) Data Mart ibrido
In un data mart ibrido, i dati vengono integrati sia dal DW che da altri sistemi operativi. I data mart ibridi sono flessibili con grandi strutture di archiviazione. Può anche fare riferimento ad altri dati di data mart.
Rappresentazione pittorica di un data mart ibrido:
Fasi di implementazione di un data mart
L'implementazione di Data Mart, considerata un po 'complessa, viene spiegata nei passaggi seguenti:
- Progettazione: Dal momento che gli utenti aziendali richiedono un data mart, la fase di progettazione prevede la raccolta dei requisiti, la creazione di dati appropriati dalle rispettive origini dati, la creazione delle strutture dati logiche e fisiche e dei diagrammi ER.
- Costruzione: Il team progetterà tutte le tabelle, le viste, gli indici, ecc. Nel sistema data mart.
- Popolamento: I dati verranno estratti, trasformati e caricati in data mart insieme ai metadati.
- Accesso: I dati del Data Mart sono disponibili per l'accesso da parte degli utenti finali. Possono interrogare i dati per la loro analisi e report.
- Gestione: Ciò comporta varie attività gestionali come i controlli di accesso degli utenti, l'ottimizzazione delle prestazioni dei data mart, la manutenzione dei data mart esistenti e la creazione di scenari di ripristino dei data mart in caso di guasto del sistema.
Struttura Di Un Data Mart
La struttura di ogni data mart viene creata secondo il requisito. Le strutture Data Mart sono chiamate Star join. Questa struttura sarà diversa da un data mart all'altro.
I join a stella sono strutture multidimensionali formate con tabelle dei fatti e delle dimensioni per supportare grandi quantità di dati. Star join avrà una tabella dei fatti al centro circondata dalle tabelle delle dimensioni.
I rispettivi dati della tabella dei fatti sono associati ai dati delle tabelle delle dimensioni con un riferimento di chiave esterna. Una tabella dei fatti può essere circondata da 20-30 tabelle delle dimensioni.
Analogamente al sistema DW, anche nei join a stella, le tabelle dei fatti contengono solo dati numerici ei rispettivi dati testuali possono essere descritti nelle tabelle dimensionali. Questa struttura assomiglia a uno schema a stella in DW.
Rappresentazione pittorica di una struttura a stella unita.
Ma i dati granulari del DW centralizzato sono la base per i dati di qualsiasi data mart. Molti calcoli verranno eseguiti sui dati DW normalizzati per trasformarli in dati di data mart multidimensionali che vengono archiviati sotto forma di cubi.
Funziona in modo simile al modo in cui i dati dei sistemi di origine legacy vengono trasformati in dati DW normalizzati.
Quando è utile un data mart pilota?
Un progetto pilota può essere implementato in un piccolo ambiente con un numero limitato di utenti per garantire che la distribuzione abbia esito positivo prima della distribuzione vera e propria. Tuttavia, questo non è sempre essenziale. Le distribuzioni pilota non saranno utili una volta raggiunto lo scopo.
È necessario considerare gli scenari seguenti consigliati per la distribuzione pilota:
- Se gli utenti finali sono nuovi nel sistema di data warehouse.
- Se gli utenti finali vogliono sentirsi a proprio agio nel recuperare i dati / i report da soli prima di passare alla produzione.
- Se gli utenti finali desiderano utilizzare gli strumenti (o) tecnologie più recenti.
- Se la direzione vuole vedere i vantaggi come una prova di concetto prima di renderlo una grande release.
- Se il team vuole assicurarsi che tutti i componenti ETL (o) i componenti dell'infrastruttura funzionino bene prima del rilascio.
Inconvenienti del Data Mart
Sebbene i data mart abbiano alcuni vantaggi rispetto al DW, presentano anche alcuni svantaggi, come spiegato di seguito:
- I data mart indesiderati che sono stati creati sono difficili da mantenere.
- I data mart sono pensati per le esigenze delle piccole imprese. L'aumento delle dimensioni dei data mart ne ridurrà le prestazioni.
- Se stai creando un numero maggiore di data mart, la direzione dovrebbe occuparsi adeguatamente del controllo delle versioni, della sicurezza e delle prestazioni.
- I data mart possono contenere dati storici (o) riepilogati (o) dettagliati. Tuttavia, gli aggiornamenti ai dati DW e ai dati data mart potrebbero non avvenire contemporaneamente a causa di problemi di incoerenza dei dati.
Conclusione
Molte organizzazioni si stanno orientando verso i data mart da una prospettiva di risparmio sui costi. Quindi questo tutorial si è concentrato sugli aspetti tecnici dei data mart nel sistema di data warehouse.
I metadati in ETL sono spiegati in dettaglio nel nostro prossimo tutorial.
=> Visita qui per vedere la serie di corsi di formazione sul data warehousing per tutti.
Lettura consigliata
- Esercitazione sul test del data warehouse con esempi | Guida al test ETL
- Tipi di dati Python
- Tipi di dati C ++
- Modello di dati dimensionale nel data warehouse - Tutorial con esempi
- Algoritmo Apriori nel data mining: implementazione con esempi
- Esempi di data mining: applicazioni più comuni del data mining 2021
- Fondamenti di data warehousing: una guida definitiva con esempi
- Esercitazione sul test del volume: esempi e strumenti per il test del volume