what is data lake data warehouse vs data lake
Questo tutorial spiega tutto su Data Lake, inclusi i suoi bisogni, definizione, architettura, vantaggi e differenze tra Data Lake e Data Warehouse:
Il termine 'Data Lake' viene utilizzato abbastanza spesso nel mondo IT di oggi. Ti sei mai chiesto cosa sia e da dove viene esattamente il termine?
Nell'era della tecnologia dell'informazione dove i dati si stanno amplificando giorno e notte in numerose forme, il concetto di data lake diventa sicuramente importante e utile.
Esploriamo qui cos'è un data lake e quali sono i suoi vantaggi, utilizzi e così via in dettaglio.
Cosa imparerai:
- Che cos'è un data lake e come funziona?
- Conclusione
Che cos'è un data lake e come funziona?
Un data lake è un sistema o un repository centralizzato di dati che ti consente di archiviare tutti i tuoi dati strutturati, semi-strutturati, non strutturati e binari nel loro formato naturale / nativo / grezzo.
I dati strutturati possono includere tabelle da RDBMS; i dati semi-strutturati includono file CSV, file XML, log, JSON, ecc .; i dati non strutturati possono includere PDF, documenti word, file di testo, e-mail, ecc .; e i dati binari possono includere file audio, video, immagini.
Segue un'architettura piatta per la memorizzazione dei dati. In genere, i dati vengono archiviati sotto forma di file o BLOB di oggetti.
(Immagine fonte )
Con un data lake, puoi archiviare tutta la tua azienda così com'è in un unico posto, senza la necessità di strutturare prima i dati. Puoi eseguire direttamente i vari tipi di analisi su di esso, inclusi apprendimento automatico, analisi in tempo reale, spostamento dei dati in sede, spostamento dei dati in tempo reale, dashboard e visualizzazioni.
Mantiene tutti i dati nella forma originale e presume che l'analisi avverrà in un secondo momento, su richiesta.
Analogia di Data Lake
(Immagine fonte )
Il termine Data Lake è stato coniato da James Dixon, l'allora CTO di Pentaho. Definisce il data mart (un sottoinsieme di un data warehouse) come simile a una bottiglia d'acqua riempita con acqua distillata pulita, confezionata e strutturata per un uso facile e diretto.
D'altra parte, è analogo a un corpo d'acqua nella sua forma naturale. I dati fluiscono dai flussi (varie funzioni aziendali / sistemi di origine) al lago. I consumatori di data lake, ovvero gli utenti hanno accesso al lago per analizzare, esaminare, raccogliere campioni e immergersi.
Proprio come l'acqua del lago soddisfa le diverse esigenze di persone come la pesca, il canottaggio, la fornitura di acqua potabile, ecc., Allo stesso modo, l'architettura del data lake ha molteplici scopi.
come trasformare un video di YouTube in un file wav
Un data scientist può utilizzarlo per esplorare i dati e creare un'ipotesi. Offre agli analisti di dati l'opportunità di analizzare i dati e scoprire i modelli. Fornisce agli utenti aziendali e alle parti interessate una modalità per esplorare i dati.
Offre inoltre agli analisti di reporting l'opportunità di progettare report e presentarli all'azienda. Al contrario, il data warehouse ha dati confezionati per scopi ben definiti proprio come una bottiglia bisleri che può essere utilizzata solo per l'acqua potabile.
Mercato Data Lake - Crescita, tendenze e previsioni
Il mercato del data lake è suddiviso in base a prodotto (soluzione o servizio), distribuzione (on-prem o cloud), settore dei clienti (vendita al dettaglio, banche, utility, assicurazioni, IT, sanità, telecomunicazioni, editoria, produzione) e geografico regioni.
Secondo il rapporto pubblicato da Mordor Intelligence, di seguito è riportata l'istantanea del mercato per il data lake:
(Immagine fonte )
# 1) Riepilogo del mercato
Il mercato dei Data Lakes è stato valutato a 3,74 miliardi di dollari nel 2019 e si prevede che toccherà i 17,60 miliardi di dollari entro il 2025, con un CAGR (tasso di crescita annuale composto) del 29,9% nel periodo di proiezione 2020-2025.
Questi serbatoi di dati si stanno rivelando sempre più un'opzione economica per molte organizzazioni rispetto ai data warehouse. Contrariamente ai data lake, il data warehousing richiede un'ulteriore elaborazione dei dati prima di entrare nel warehouse.
La spesa per la gestione di un data lake è inferiore rispetto a un data warehouse a causa dell'elevata elaborazione e dello spazio necessario per creare il database per i magazzini.
# 2) Giocatori principali
Si prevede che il mercato del Data Lake sarà un mercato consolidato dominato dai cinque attori chiave, come mostrato nell'immagine sottostante.
# 3) Tendenze chiave
- Si prevede che il suo utilizzo crescerà notevolmente nel settore bancario. Le banche stanno adottando i data lake per fornire analisi in movimento. Inoltre, sta aiutando a dissolvere molti silos nel settore bancario.
- Poiché vi è un enorme aumento dei pagamenti digitali / utilizzo di portafogli mobili in tutto il mondo, la portata dell'analisi dei big data e quindi l'opportunità per loro è in aumento.
- Si prevede che il Nord America avrà un'elevata adozione per i data lake. Uno studio condotto da Capgemini afferma che oltre il 60% delle organizzazioni finanziarie negli Stati Uniti pensa che l'analisi dei big data funga da elemento di differenziazione per il business e offra loro un vantaggio competitivo. Oltre il 90% delle organizzazioni ritiene che investire in progetti Big Data aumenti le possibilità di successo in futuro.
- Sono necessari per l'uso delle applicazioni dei contatori intelligenti e negli Stati Uniti si prevede che nel 2021 verranno installati circa 90 milioni di contatori intelligenti. Pertanto, è prevista una forte domanda per loro.
Perché è necessario il data lake?
Lo scopo di un data lake è fornire una vista non elaborata dei dati (dati nella sua forma più pura).
Esempi
Al giorno d'oggi, molte grandi aziende tra cui Google, Amazon, Cloudera, Oracle, Microsoft e poche altre hanno offerte di data lake.
Molte organizzazioni utilizzano servizi di archiviazione cloud come Azure Data Lake o Amazon S3. Le aziende utilizzano anche un file system distribuito come Apache Hadoop. Anche il concetto di un data lake personale che consente di gestire e condividere i propri big data si è evoluto.
it supporto tecnico intervista domande e risposte
Se parliamo di usi industriali, allora è molto adatto per il settore sanitario. A causa del formato non strutturato di molti dati nel settore sanitario ( Per esempio, Note del medico, dati clinici, anamnesi della malattia del paziente, ecc.) E la necessità di approfondimenti in tempo reale, un data lake è un'ottima opzione rispetto al data warehouse.
Offre soluzioni flessibili anche nel settore dell'istruzione, dove i dati sono molto vasti e molto grezzi.
Nel settore dei trasporti, principalmente nella gestione della catena di approvvigionamento o nella logistica, aiuta a fare previsioni e realizzare vantaggi in termini di riduzione dei costi.
Anche i settori dell'aviazione e dell'energia elettrica utilizzano i data lake.
Un esempio della sua implementazione è GE Predix (sviluppato da General Electric), una piattaforma di data lake industriale che offre forti competenze di governance dei dati per creare, distribuire e governare applicazioni industriali che si collegano alle risorse industriali, raccolgono e analizzano i dati e forniscono in tempo reale approfondimenti per il miglioramento delle infrastrutture e dei processi industriali.
Differenza tra Data Warehouse e Data Lake
Spesso le persone trovano difficile capire in che modo un lago è diverso da un data warehouse. Sostengono inoltre che sia lo stesso del data warehouse. Ma questa non è la realtà.
L'unico punto in comune tra il data lake e il data warehouse è che entrambi sono repository di archiviazione dei dati. Resto, sono diversi. Hanno diversi casi d'uso e scopi.
Le differenze sono chiarite di seguito:
Data Lake | Data Warehouse | |
---|---|---|
Analytics | Un data lake può essere utilizzato per machine learning, data discovery profiling e analisi predittiva. | Un data warehouse può essere utilizzato per Business Intelligence, visualizzazioni e report in batch. |
Dati | Un Data Lake manterrà tutti i dati grezzi. Può essere strutturato, non strutturato o semistrutturato. Potrebbe essere possibile che alcuni dei dati nel data lake non vengano mai utilizzati. | Un Data Warehouse incorpora solo i dati che vengono elaborati e perfezionati, ovvero i dati strutturati necessari per la creazione di report e la risoluzione di problemi aziendali specifici. |
Utenti | In genere, gli utenti di un data lake sono data scientist e sviluppatori di dati. | In genere, gli utenti del data warehouse sono professionisti aziendali, utenti operativi e analisti aziendali. |
Accessibilità | Il data lake è altamente accessibile e facile e veloce da aggiornare perché non ha alcuna struttura. | Nel data warehouse, l'aggiornamento dei dati è un'operazione più complicata e costosa perché i data warehouse sono strutturati in base alla progettazione. |
Schema | Schema su scrittura. Progettato prima dell'implementazione DW. | Schema in lettura. Scritto al momento dell'analisi. |
Architettura | Architettura piatta | Architettura gerarchica |
Scopo | Lo scopo dei dati grezzi archiviati nei data lake non è fisso o è indeterminato. A volte, i dati possono fluire in un data lake con in mente un uso futuro specifico o semplicemente per avere i dati a portata di mano. Il data lake ha dati meno organizzati e meno filtrati. | I dati trattati conservati nel Data warehouse hanno una finalità specifica e definita. Un DW ha organizzato e filtrato i dati. Quindi, richiede meno spazio di archiviazione rispetto al data lake. |
Conservazione | Progettato per l'archiviazione a basso costo. L'hardware del data lake è molto diverso dall'hardware del data warehouse. Utilizza server standard in combinazione con uno spazio di archiviazione economico. Ciò rende il data lake abbastanza economico e altamente scalabile a terabyte e petabyte. Questo viene fatto per conservare tutti i dati in un data lake in modo da poter tornare indietro in qualsiasi momento per eseguire l'analisi. | Costoso per grandi volumi di dati. Il data warehouse ha un costoso spazio di archiviazione su disco per renderlo altamente performante. Pertanto, per risparmiare spazio, il modello dati viene semplificato e nel data warehouse vengono conservati solo i dati realmente necessari per prendere decisioni aziendali. |
Supporto per i tipi di dati | Un Data Lake supporta molto bene i tipi di dati non tradizionali come i log del server, i dati dei sensori, l'attività dei social network, testo, immagini, multimedia, ecc. Tutti i dati vengono conservati indipendentemente dalla fonte e dalla struttura. | In genere, un data warehouse è costituito da dati recuperati da sistemi transazionali. Non supporta molto bene i tipi di dati non tradizionali. Archiviare e consumare i dati non tradizionali può essere costoso e difficile con il data warehouse. |
Sicurezza | La sicurezza dei data lake è in fase di 'maturazione' poiché si tratta di un concetto relativamente nuovo rispetto al data warehouse. | La sicurezza dei data warehouse è nella fase 'matura'. |
Agilità | Altamente agile; configurare e riconfigurare come richiesto. | Meno agile; configurazione fissa. |
Architettura di Data Lake
Diagramma di architettura
Sopra è il diagramma dell'architettura concettuale del data lake. Nella parte più a sinistra, puoi vedere che abbiamo le origini dati che possono essere strutturate, semi-strutturate o non strutturate.
Queste origini dati vengono combinate in un archivio di dati non elaborati che utilizza i dati nella loro forma non elaborata, ovvero dati senza alcuna trasformazione. Questo è uno storage a basso costo, permanente e scalabile.
Successivamente, abbiamo sandbox analitici che possono essere utilizzati per la scoperta dei dati, l'analisi esplorativa dei dati e la modellazione predittiva. Fondamentalmente, questo viene utilizzato dai data scientist per esplorare i dati, costruire nuove ipotesi e definire casi d'uso.
Poi c'è un motore di elaborazione in batch che elabora i dati grezzi in una forma utilizzabile dal consumatore, ovvero in un formato strutturato che può essere utilizzato per la segnalazione agli utenti finali.
Quindi abbiamo un motore di elaborazione in tempo reale che viene preso in streaming dei dati e lo trasforma.
Caratteristiche chiave di Data Lake
Per essere classificato come Data Lake, un repository di big data dovrebbe possedere i seguenti tre attributi:
# 1) Un unico archivio comune di dati solitamente ospitato all'interno di un file system distribuito (DFS).
I data lake di Hadoop supportano i dati nella loro forma nativa e acquisiscono le modifiche ai dati e la relativa semantica durante il ciclo di vita dei dati. Questo approccio è particolarmente vantaggioso per i controlli di conformità e gli audit interni.
Si tratta di un miglioramento rispetto al tradizionale Enterprise Data Warehouse in cui quando i dati passano attraverso trasformazioni, aggregazioni e modifiche, è difficile mettere i dati nel loro insieme quando richiesto e le aziende si sforzano di scoprire l'origine / origine dei dati.
# 2) Incorpora funzionalità di pianificazione e pianificazione dei lavori (ad esempio, tramite qualsiasi strumento di pianificazione come YARN, ecc.).
L'esecuzione del carico di lavoro è un'esigenza essenziale per le aziende Hadoop e YARN offre la gestione delle risorse e una piattaforma centrale per fornire processi costanti, sicurezza e strumenti di governance dei dati in tutti i cluster Hadoop, assicurando che i flussi di lavoro analitici possiedano il livello richiesto di accesso ai dati e potenza di calcolo.
# 3) Comprende l'insieme di utilità e funzioni necessarie per consumare, elaborare o lavorare con i dati.
L'accessibilità facile e veloce per gli utenti è uno dei tratti chiave di un data lake, poiché le organizzazioni memorizzano i dati nella loro forma nativa o pura.
In qualunque forma i dati siano cioè strutturati, non strutturati o semi-strutturati, vengono inseriti così come sono nel data lake. Consente ai proprietari dei dati di combinare i dati di clienti, fornitori e operazioni, eliminando qualsiasi barriera tecnica o politica alla condivisione dei dati.
Benefici
(Immagine fonte )
- Versatile : Abbastanza competente per archiviare tutti i tipi di dati strutturati / non strutturati, dai dati CRM alle attività sui social network.
- Maggiore flessibilità dello schema : Non necessita di pianificazione o conoscenza preliminare dell'analisi dei dati. Memorizza tutti i dati così come sono nella forma originale e presume che l'analisi avverrà in un secondo momento, su richiesta. Questo è molto utile per OLAP. Per esempio, il data lake Hadoop ti consente di essere privo di schemi in cui puoi separare lo schema dai dati.
- Analisi delle decisioni in tempo reale : Godono del vantaggio di un'enorme quantità di dati coerenti e algoritmi di apprendimento profondo per raggiungere l'analisi delle decisioni in tempo reale. Capace di ottenere valore da un numero illimitato di tipi di dati.
- Scalabile: Sono molto più scalabili dei data warehouse tradizionali e sono anche meno costosi.
- Analisi avanzata / compatibilità con SQL e altri linguaggi: Con i data lake, esistono numerosi modi per eseguire query sui dati. A differenza dei data warehouse tradizionali che supportano solo SQL per semplici analisi, offrono molte altre opzioni e supporto linguistico per analizzare i dati. Sono anche compatibili con strumenti di machine learning come Spark MLlib.
- Democratizzare i dati: Accesso democratizzato ai dati attraverso un'unica visualizzazione integrata dei dati in tutta l'organizzazione, utilizzando al contempo un'efficace piattaforma di gestione dei dati. Ciò garantisce la disponibilità completa dei dati.
- Migliore qualità dei dati: Nel complesso, si ottiene una migliore qualità dei dati con i data lake grazie a vantaggi tecnologici come l'archiviazione dei dati in formato nativo, scalabilità, versatilità, flessibilità dello schema, supporto SQL e altri linguaggi e analisi avanzate.
Sfide e rischi
I data lake offrono molti vantaggi. Ma sì, ci sono anche alcune sfide e rischi ad essi associati che un'organizzazione deve affrontare con attenzione.
Sono:
- Se non progettati correttamente, possono trasformarsi in acquitrini di dati. A volte, le organizzazioni finiscono per continuare a scaricare dati illimitati in questi laghi senza alcuna strategia e scopo in mente.
- A volte, gli analisti che desiderano utilizzare i dati non hanno alcuna conoscenza di come farlo poiché è piuttosto impegnativo eseguire il mining nei data lake. Pertanto, perdono rilevanza e slancio dopo un po 'di tempo. Le organizzazioni devono lavorare per rimuovere questa barriera per gli analisti.
- Dato che abbiamo molti dati disorganizzati nei data lake, non sono abbastanza freschi o aggiornati per essere utilizzati nella produzione. Pertanto, i dati in questi laghi rimangono in modalità pilota e non vengono mai messi in produzione.
- I dati non strutturati possono portare a dati inutilizzabili.
- A volte, le organizzazioni sperimentano che non sta avendo un impatto significativo sul business rispetto agli investimenti effettuati. Ciò richiede un cambiamento di mentalità. Affinché si verifichino impatti, le aziende devono incoraggiare manager e leader a prendere decisioni basate sull'analisi derivata da questi serbatoi di dati.
- Anche la sicurezza e il controllo degli accessi sono uno dei rischi quando si lavora con loro. Alcuni dei dati che possono richiedere la privacy e le normative vengono inseriti nei data lake senza alcuna supervisione.
Implementazione
In un'azienda, è abbastanza sensato eseguire l'implementazione del data lake in modo agile.
Cioè, per implementare prima un Data Lake MVP lo fa testare dagli utenti in termini di qualità, facilità di accesso, archiviazione e capacità analitiche, riceve feedback e quindi aggiunge i requisiti e le funzionalità complesse per aggiungere valore al Lake.
In generale, un'organizzazione passa attraverso le seguenti quattro fasi fondamentali di implementazione:
(Immagine fonte )
Fase 1:
Il Data Lake di base: In questa fase, il team stabilisce l'architettura di base, la tecnologia (basata su cloud o legacy) e le pratiche di sicurezza e governance per il data lake. È realizzato in grado di archiviare tutti i dati grezzi provenienti da varie fonti aziendali e combinare i dati interni ed esterni per fornire informazioni arricchite.
Fase 2:
The Sandbox: miglioramento delle capacità analitiche: In questa fase, i data scientist accedono al data reservoir per eseguire esperimenti preliminari per l'utilizzo di dati grezzi e progettare modelli analitici per soddisfare le esigenze aziendali.
Fase 3:
come rimuovere qualcosa da un array java
Data Warehouse e Data Lake Collaboration: In questa fase, l'organizzazione inizia a utilizzare il data lake in sinergia con i data warehouse esistenti. I dati a bassa priorità vengono inviati loro in modo che il limite di archiviazione dei data warehouse non venga superato.
Presenta una prospettiva per produrre intuizioni da dati freddi o interrogarli per scoprire informazioni che non sono indicizzate dai database convenzionali.
Fase 4:
Adozione end-to-end di Data Lake: Questa è l'ultima fase di acquisizione della maturità in cui si trasforma in un elemento chiave dell'architettura dei dati dell'organizzazione e dell'operazione di ricerca diretta in modo efficace. A questo punto, il data lake avrebbe sostituito EDW e sarebbe diventato l'unica fonte di tutti i dati aziendali.
Un'organizzazione può eseguire le seguenti operazioni tramite il data lake:
- Crea complesse soluzioni di analisi e modellazione dei dati per diverse esigenze aziendali.
- Progetta dashboard interattivi che consolidano le comprensioni dal data lake oltre a varie applicazioni e origini dati.
- Implementa programmi avanzati di analisi o robotica, poiché gestisce le operazioni di calcolo.
A questo punto, sta avendo anche una forte sicurezza e misure di governo.
Fornitori di Data Lake
Esistono diversi fornitori che forniscono strumenti per il data lake nel settore.
(Immagine fonte )
Se guardiamo alle grandi aziende:
- Computing fornisce uno strumento intelligente per il data lake. BDM (Big Data Management) 10.2.2 è l'ultima versione disponibile.
- C'è un venditore chiamato spettatore che fornisce anche lo strumento.
- L'azienda Talend che è popolare per i loro strumenti ETL fornisce anche lo strumento Data Lake.
- Quindi, abbiamo uno strumento open source chiamato Kylo dal Teradata azienda. Il team chiamato 'Think Big' nell'azienda di Teradata ha sviluppato questo strumento.
- L'azienda Cask Data Inc fornisce anche questi servizi.
- A partire dal Microsoft , potete trovare Azure data lake disponibile nel settore.
- Hvr-software fornisce anche soluzioni di consolidamento del data lake.
- Dati sul podio, una società Qlik fornisce prodotti di strumenti come pipeline di data lake, data lake multizona.
- Fiocco di neve ha anche un prodotto data lake.
- Zaloni è una società di data lake che gestisce enormi quantità di dati utilizzando i Big Data.
Quindi, questi sono tutti i fornitori di servizi popolari e fornitori di tali strumenti.
Se stai cercando di esercitarti e sviluppare le tue conoscenze sui data lake, puoi scegliere Informatica o Kylo. Se stai cercando un servizio basato su cloud, puoi optare per Looker, Informatica e Talend. Questi tre fornitori forniscono data lake nel cloud AWS. Puoi anche ottenere una prova gratuita di 1 mese da Kylo.
Conclusione
In questo tutorial, abbiamo discusso in dettaglio il concetto di data lake. Abbiamo esaminato l'idea di base alla base del data lake, la sua architettura, le caratteristiche chiave, i vantaggi, insieme ai suoi esempi, casi d'uso, ecc.
Abbiamo anche visto come un data lake sia diverso dal data warehouse. Abbiamo anche coperto i principali fornitori che forniscono servizi correlati.
Buona lettura!!
Lettura consigliata
- Esercitazione sul test del data warehouse con esempi | Guida al test ETL
- I 10 migliori strumenti di test e convalida dei dati strutturati per SEO
- Data mining: processo, tecniche e problemi principali nell'analisi dei dati
- Tutorial sul data mart - Tipi, esempi e implementazione del data mart
- I 10 principali strumenti di data warehouse e tecnologie di test più diffusi
- Modello di dati dimensionale nel data warehouse - Tutorial con esempi
- 10+ migliori strumenti di raccolta dati con strategie di raccolta dati
- Funzione pool di dati in IBM Rational Quality Manager per Test Data Management