oracle data warehouse
Guida Oracle Data Warehouse con vantaggi, architettura, rischi e confronto con il sistema OLTP (Online Transaction Processing):
Nel precedente tutorial di Guida completa a Oracle , abbiamo acquisito informazioni sui prodotti e servizi Oracle in vari domini come applicazioni, database, sistemi operativi e così via. Questo articolo fornirà una conoscenza approfondita di Oracle Data Warehousing. Ma prima di ciò vediamo prima di tutto capire il concetto di Business Intelligence (BI).
Business Intelligence
La Business Intelligence è un dominio software che incarna determinati metodi, tecnologie, strumenti e applicazioni che aiutano a strutturare, perfezionare e trasformare i dati di massa in un formato intelligente e comprensibile che può essere utilizzato dai clienti per generare report personalizzati e aiuta anche a prendere affari decisioni.
Sono disponibili diverse opzioni per soddisfare questa esigenza come Data Warehousing, OLAP (Online Transaction Processing), Data Mining, Data Integration, Decision Engineering, Spreadsheets, ecc.
Enterprise Data Warehousing (EDW) è uno dei componenti principali della BI che soddisfa le esigenze di analisi e reporting delle aziende. Data Warehouse è un Relational Database Management System (RDBMS), che conserva i dati consolidati ricevuti da più origini per un uso successivo.
miglior firewall gratuito per Windows 10 2018
Cosa imparerai:
- Panoramica di Oracle Data Warehouse
- Confronto tra OLTP e Data Warehouse
- Data Warehouse e Data Mart contrastanti
- Panoramica del processo ETL
- Architettura del data warehouse
- Conclusione
Panoramica di Oracle Data Warehouse
Perché viene definito 'Data Warehouse'?
Proviamo a richiamare il significato della parola 'magazzino' per fare riferimento al termine 'magazzino dati'.
Un magazzino fisico è un deposito utilizzato per lo stoccaggio di merci ricevute da varie fonti, che possono essere successivamente fornite al cliente in base alle sue esigenze.
(Immagine fonte )
Allo stesso modo, il data warehouse è un repository di dati ricevuti da vari sistemi di origine. Queste fonti potrebbero essere qualsiasi sistema di archiviazione come data mart, file flat o qualsiasi dispositivo di archiviazione multimediale contenente dati per diversi domini aziendali come risorse umane, vendite, operazioni, gestione delle risorse e marketing, ecc.
Scopo di avere un data warehouse
Un'azienda potrebbe aver sentito parlare del concetto di data warehouse, ma può non essere sicura di dover includere quello nella propria azienda. Tuttavia, ci sarebbe sempre la necessità di scaricare dati da diverse fonti su un terreno comune e archiviarli in modo che lo spazio di archiviazione possa essere rilasciato dai sistemi di transazione. È qui che il sistema di Data Warehousing diventa un requisito aziendale.
Per crescere nel mercato, il management dovrebbe essere bravo nel processo decisionale che può essere preso solo dopo aver studiato a fondo le tendenze passate di un'organizzazione. Pertanto, questi dati archiviati vengono conservati nel data warehouse in un formato ben organizzato e calcolato in modo che possano essere indirizzati per analisi aziendali in futuro.
Vantaggi del data warehousing
Il Data Warehouse, se implementato con successo, potrebbe essere vantaggioso nei seguenti modi:
# 1) Ha semplificato il lavoro degli analisti fornendo una versione avanzata delle soluzioni di business intelligence. Estrae i dati da più sistemi di origine, li trasforma e li archivia che possono essere interrogati direttamente dall'azienda per l'analisi.
Offre inoltre vari strumenti che supportano quanto segue:
- Generazione di report aziendali personalizzati.
- Dashboard interattivi che visualizzano le informazioni richieste.
- Capacità di eseguire il drill-down dei dashboard solo per ottenere i dettagli.
- Data mining e analisi delle tendenze.
#Due) Anche dopo aver ricevuto i dati da vari sistemi di origine, i dati all'interno di un data warehouse rimangono coerenti a seguito delle trasformazioni avvenute durante il processo ETL. Dati coerenti danno fiducia a un decisore in termini di accuratezza.
# 3) I data warehouse sono anche definiti come un risparmio di tempo poiché i dati critici richiesti dalle parti interessate per prendere decisioni aziendali sono disponibili in un'unica posizione e possono essere recuperati facilmente.
# 4) Questi sono progettati per contenere dati storici e quindi possono essere interrogati per studiare le tendenze durante diversi periodi di tempo. Aiuta anche gli stakeholder a trarre il futuro percorso di crescita.
Rischi connessi all'utilizzo di Data Warehouse
Insieme ai vantaggi, ogni nuova implementazione comporta anche una serie di rischi che devono essere affrontati.
Di seguito sono elencati alcuni dei rischi coinvolti:
- La non compatibilità dei sistemi di origine con il sistema di data warehousing può finire per svolgere molto lavoro manuale.
- Una stima errata del tempo del processo ETL può portare all'interruzione del lavoro.
- Si tratta di sistemi di stoccaggio di fascia alta e quindi richiedono un'elevata manutenzione. Qualsiasi modifica al flusso di lavoro o aziendale può costare molto.
- La configurazione di un data warehouse richiede tempo in quanto richiede molto tempo per comprendere i flussi aziendali e identificare le capacità di integrazione per progettare un warehouse.
- La sicurezza dei dati è sempre un rischio qui in quanto contiene dati storici secolari che, se trapelati, possono avere un impatto sul business.
Confronto tra OLTP e Data Warehouse
Le differenze tra OLTP e Data Warehouse possono essere comprese dalla tabella seguente.
OLTP | Data Warehousing |
---|---|
Inserimento e aggiornamento sono le principali operazioni eseguite dagli utenti finali sui sistemi OLTP. | I data warehouse vengono interrogati principalmente utilizzando l'istruzione SELECT e possono essere aggiornati solo utilizzando i servizi ETL. |
I sistemi OLTP supportano le transazioni commerciali. | Data Warehouse supporta le decisioni aziendali prese dopo aver analizzato le transazioni commerciali completate. |
I dati rimangono volatili, ovvero continuano a cambiare | I dati non dovrebbero essere modificati. |
Contengono i dati più recenti. | Contengono i dati storici. |
Contiene i dati grezzi senza alcun calcolo. | Contiene dati riepilogati e ben calcolati. |
I dati verranno normalizzati. | I dati rimarranno denormalizzati. |
La dimensione del database Oracle può variare da 50 MB a 100 GB. | La dimensione del database Oracle può variare da 100 GB a 2 TB. |
Data Warehouse e Data Mart contrastanti
Data Warehouse e DataMart, non sono entrambi i termini sembrano simili e sembrano correlati all'archiviazione dei dati.
Sì, sono correlati ed entrambi vengono utilizzati per la memorizzazione dei dati. La differenza principale tra entrambi è la capacità di conservare i dati e questa differenza aiuta gli utenti finali a scegliere l'unità di archiviazione giusta per i loro sistemi.
Data Mart ha una minore capacità di conservare i dati rispetto al data warehouse e quindi può essere considerato come un sottoinsieme di esso. I data mart vengono solitamente identificati per archiviare dati limitati che potrebbero essere di un particolare reparto o linea di business, mentre i data warehouse possono essere utilizzati per conservare i dati consolidati per tutti.
Facciamo un esempio di un sito di e-commerce con varie categorie di merce come moda, accessori, articoli per la casa, libri e materiale scolastico, elettrodomestici, ecc.
Pertanto, i data mart possono essere progettati per archiviare la categoria di dati del prodotto mentre i data warehouse possono essere utilizzati per archiviare i dati completi del sito Web, inclusa la cronologia in un unico posto.
I data mart sono di dimensioni più piccole, possono essere creati molto più velocemente senza troppe analisi, come è richiesto per la progettazione di un data warehouse. Tuttavia, è necessario molto impegno per mantenere sincronizzati diversi data mart in modo da mantenere la coerenza dei dati.
Panoramica del processo ETL
ETL (Extraction, Transformation, and Loading) è un processo di estrazione dei dati da diversi sistemi di origine, trasformandoli e caricandoli nel sistema Data Warehouse. È un processo complesso che deve interagire con una varietà di sistemi di origine per l'estrazione dei dati e quindi anche tecnicamente impegnativo.
La trasformazione necessita di nuovo di molte analisi per comprendere il formato dei sistemi di origine e portare i dati nel formato comune in modo che gli stessi dati possano essere archiviati nel data warehouse.
Il processo ETL è un lavoro ricorrente che può essere eseguito giornalmente, settimanalmente o anche mensilmente a seconda dei requisiti aziendali.
Architettura del data warehouse
Comprendiamo l'architettura di un data warehouse che è principalmente progettato per archiviare dati raffinati per requisiti aziendali predefiniti. L'architettura è composta da 5 componenti con flusso di dati dall'alto verso il basso.
I componenti sono i seguenti:
- Origine dei dati
- Staging dei dati
- Data Warehouse (archiviazione dati)
- Data March (archiviazione dati)
- Presentazione dei dati
Cerchiamo di capire una per una tutte le tappe sopra elencate.
# 1) Fonti di dati
Esistono diversi sistemi di origine che fungono da input per i sistemi di data warehouse.
come visualizzare i file swf sul pc
Questi sistemi sorgente possono essere:
- Database relazionali come Oracle, DB2, MySQL, MS Access, ecc. Che possono essere utilizzati per registrare le transazioni quotidiane di qualsiasi organizzazione. Queste transazioni commerciali quotidiane potrebbero essere correlate a ERP, CRM, vendite, finanza e marketing, ecc.
- File flat
- servizi web
- Feed RSS e fonti simili.
# 2) Staging dei dati
Una volta che le origini dati sono a posto, il passaggio successivo consiste nell'estrarre questi dati dai sistemi di origine nell'area di gestione temporanea del magazzino.
Poiché i dati sono stati recuperati da diversi sistemi che seguono diversi formati di archiviazione, è necessario ristrutturare i dati in modo da portarli a un formato comune. Quindi, la trasformazione dei dati avviene come passaggio successivo.
Durante la trasformazione, si verifica la pulizia dei dati che include l'applicazione di regole aziendali, il filtraggio dei dati, la rimozione della ridondanza, la formattazione dei dati, l'ordinamento dei dati, ecc.
# 3) Data Warehouse (archiviazione dati)
Una volta che i dati sono stati estratti e trasformati, verranno caricati in un ambiente multidimensionale, ovvero Data Warehouse. Ora, questi dati elaborati possono essere utilizzati per analisi e altri scopi dagli utenti finali.
# 4) Data Mart (archiviazione dati)
Come accennato in precedenza, i dati sono ora pronti per essere utilizzati dagli utenti finali, come passaggio successivo è disponibile un processo opzionale per la creazione di data mart. Questi data mart possono essere utilizzati per archiviare i dati riepilogativi di un particolare reparto o di una linea di attività per un uso dedicato.
Per esempio, È possibile aggiungere data mart separati per reparti come Vendite, Finanza e Marketing, ecc. come passaggio successivo che conserverà dati specifici e consentirà a un analista di eseguire query dettagliate per esigenze aziendali. Impedisce inoltre a ogni altro utente finale di accedere al magazzino completo e quindi rende i dati protetti.
# 5) Strumenti di accesso ai dati (presentazione dei dati)
Esistono numerosi strumenti di Business Intelligence predefiniti che possono essere utilizzati dagli utenti per accedere a data warehouse o data mart. Questi strumenti front-end sono progettati in modo estremamente intuitivo, offrendo agli utenti una varietà di opzioni per accedere ai dati.
Le opzioni sono menzionate di seguito:
- Applicando la query a Oracle o qualsiasi altro database direttamente tramite SQL.
- Generazione di report.
- Sviluppo dell'applicazione.
- Utilizzo di strumenti di data mining ecc.
Pochi strumenti di immagazzinamento popolari disponibili sul mercato sono:
- Analytix DS
- Amazon Redshift
- Software Ab Initio
- Futures sul codice
- Gestione olistica dei dati
- Informatics Corporation
Cloud Data Warehousing
I data warehouse sono eccessivamente riconosciuti dal mondo. La prossima domanda che sorge: stiamo utilizzando un approccio ottimizzato per distribuire i data warehouse?
Successivamente è stato introdotto il Cloud Data Warehousing, che ha preso il sopravvento su Enterprise Data Warehousing (EDW). Il concetto di data warehouse basato su cloud ha offerto diversi vantaggi.
Questi sono i seguenti:
(i) Scalabilità: I dati sui sistemi cloud sono facilmente scalabili verso l'alto e verso il basso senza problemi mentre richiede molto tempo e risorse per eseguire il ridimensionamento sui data warehouse tradizionali.
(ii) Risparmio sui costi: I data warehouse basati su cloud hanno fatto una differenza notevole nell'investimento richiesto per una configurazione del magazzino. Hanno ridotto il costo iniziale di massa eliminando il costo di
-
- Manutenzione delle stanze hardware / server.
- Personale richiesto per la manutenzione.
- Altri costi operativi.
(iii) Prestazioni: Le prestazioni sono un altro fattore che ha consentito ai sistemi basati su cloud di dominare su quelli tradizionali. Se l'attività si espande a livello globale ed è necessario accedere ai dati da varie parti del mondo con tempi di consegna più rapidi, i magazzini basati su cloud sono i migliori da utilizzare.
Massively Parallel Processing (MPP) è uno dei metodi di elaborazione collaborativa utilizzati dai magazzini per ottenere lo stesso risultato.
(iv) Connettività: Come accennato in precedenza, se è necessario accedere ai dati da più posizioni geografiche, gli utenti necessitano di un'eccellente connettività a questi magazzini e un magazzino basato su cloud offre lo stesso.
Conclusione
Ci auguriamo che abbiate avuto un'idea chiara del sistema Oracle Data Warehousing dopo aver letto l'articolo precedente. Facci sapere se hai bisogno di approfondimenti su un particolare argomento relativo al data warehousing in modo da poter coprire lo stesso nei prossimi tutorial.
come eseguire un file jar windows 10
Tutorial PREV | PROSSIMO Tutorial
Lettura consigliata
- Che cos'è un data lake | Data Warehouse vs Data Lake
- Esercitazione sul test del data warehouse con esempi | Guida al test ETL
- I 10 principali strumenti di data warehouse e tecnologie di test più diffusi
- Modello di dati dimensionale nel data warehouse - Tutorial con esempi
- Metadati in Data Warehouse (ETL) spiegati con esempi
- Esercitazione sul test del data warehouse di test ETL (una guida completa)
- Tipi di schema nella modellazione del data warehouse - Schema Star & SnowFlake
- Che cos'è il processo ETL (Extract, Transform, Load) in Data Warehouse?