big data tutorial beginners what is big data
Questo tutorial spiega tutto sulle nozioni di base sui Big Data. Il tutorial include vantaggi, sfide, tecnologie e strumenti insieme ad applicazioni di Big Data:
In questo mondo digitale con progressi tecnologici, scambiamo grandi quantità di dati ogni giorno come in Terabyte o Petabyte .
Se stiamo scambiando quella quantità di dati ogni giorno, dobbiamo anche mantenerla e archiviarla da qualche parte. La soluzione per gestire grandi volumi di dati con alta velocità e diversa varietà è Big Data.
Può gestire dati complessi provenienti da più fonti come diversi database, siti web, widget, ecc. Inoltre, può collegare e abbinare i dati provenienti da diverse fonti. Dà infatti un accesso più veloce ai dati ( Per esempio, social media).
Elenco dei tutorial in questa serie di Big Data
domande di intervista sui servizi web in java
Tutorial n. 1: Cosa sono i big data? (Questo tutorial)
Tutorial n. 2: Cos'è Hadoop? Esercitazione su Apache Hadoop per principianti
Tutorial n. 3: Hadoop HDFS - File system distribuito Hadoop
Tutorial n. 4: Architettura Hadoop e guida ai comandi HDFS
Tutorial n. 5: Hadoop MapReduce Tutorial con esempi | Cos'è MapReduce?
Tutorial # 6: Tutorial su Apache Hadoop YARN per principianti | Cos'è YARN?
Tutorial # 7: Esercitazione completa sul test Hadoop | Big Data Testing Guide
Cosa imparerai:
Cosa sono i big data?
La parola Huge non è sufficiente per spiegare BigData, alcune caratteristiche classificano i dati in BigData.
Abbiamo tre caratteristiche principali di BigData e se qualche dato soddisfa queste caratteristiche, verrà trattato come BigData. io t è la combinazione delle tre V menzionate di seguito:
- Volume
- Velocità
- Varietà
Volume : I dati dovrebbero essere di enorme volume. Big Data ha la soluzione per mantenere una grande quantità di dati che è in Terabyte o Petabyte. Possiamo eseguire operazioni CRUD (Crea, Leggi, Aggiorna ed Elimina) su BigData in modo semplice ed efficace.
Velocità : È responsabile di un accesso più rapido ai dati. Per esempio, al giorno d'oggi i social media hanno bisogno di uno scambio veloce di dati in una frazione di tempo e BigData è la soluzione migliore per questo. Quindi, la velocità è un'altra caratteristica ed è la velocità di elaborazione dei dati.
Varietà : Nei social media, abbiamo a che fare con dati non strutturati come registrazioni audio o video, immagini, ecc. Inoltre, vari settori come il dominio bancario necessitano di dati strutturati e semi-strutturati. BigData è la soluzione per mantenere entrambi i tipi di dati in un unico posto.
Varietà significa diversi tipi di dati come i dati strutturati / non strutturati provenienti da più fonti.
Dati strutturati : I dati che hanno una struttura adeguata o quelli che possono essere facilmente memorizzati in forma tabulare in qualsiasi DataBase relazionale come Oracle, SQL Server o MySQL sono noti come Dati strutturati. Possiamo elaborarlo o analizzarlo in modo semplice ed efficiente.
Un esempio di dati strutturati sono i dati archiviati in un database relazionale che può essere gestito utilizzando SQL (Structured Query Language). Per esempio, I dati dei dipendenti (nome, ID, designazione e stipendio) possono essere archiviati in formato tabulare.
In un database tradizionale, possiamo eseguire operazioni o elaborare dati non strutturati o semi-strutturati solo dopo che sono stati formattati o inseriti nel database relazionale. Esempi dei dati strutturati sono ERP, CRM, ecc.
Dati semi-strutturati: I dati semi-strutturati sono i dati che non sono completamente formattati. Non è memorizzato nelle tabelle di dati o in alcun database. Tuttavia, possiamo facilmente prepararlo ed elaborarlo poiché questi dati contengono tag o valori separati da virgole, ecc. Esempio dei dati semi-strutturati sono file XML, file CSV, ecc.
Dati non strutturati: I dati non strutturati sono i dati che non hanno alcuna struttura. Può essere in qualsiasi forma, non esiste un modello di dati predefinito. Non possiamo archiviarlo nei database tradizionali. È complesso ricercarlo ed elaborarlo.
Inoltre, il volume dei dati non strutturati è molto elevato. Esempio di dati non strutturati è il corpo dell'e-mail, audio, video, immagini, documenti ottenuti, ecc.
Sfide dei database tradizionali
- Il database tradizionale non supporta una varietà di dati, ovvero non è in grado di gestire dati non strutturati e semi-strutturati.
- Un database tradizionale è lento mentre gestisce una grande quantità di dati.
- Nei database tradizionali, l'elaborazione o l'analisi di una grande quantità di dati è molto difficile.
- Un database tradizionale è in grado di memorizzare dati in terabyte o petabyte.
- Un database tradizionale non può gestire dati storici e rapporti.
- Dopo un certo periodo di tempo è necessaria la pulizia dei dati del database.
- Il costo per mantenere una grande quantità di dati è molto alto con un database tradizionale.
- L'accuratezza dei dati è minore nel database tradizionale poiché i dati storici completi non vengono conservati al suo interno.
Big DataVantaggi rispetto al database tradizionale
- Big Data è responsabile della gestione, gestione ed elaborazione di diversi tipi di dati come Strutturato, Semi-strutturato e Non strutturato.
- È conveniente in termini di mantenimento di una grande quantità di dati. Funziona su un sistema di database distribuito.
- Possiamo salvare grandi quantità di dati per lungo tempo utilizzando le tecniche BigData. Quindi è facile gestire i dati storici e generare rapporti accurati.
- La velocità di elaborazione dei dati è molto veloce e quindi i social media utilizzano tecniche di Big Data.
- La precisione dei dati è un grande vantaggio dei Big Data.
- Consente agli utenti di prendere decisioni efficienti per la propria attività sulla base di dati attuali e storici.
- La gestione degli errori, il controllo della versione e l'esperienza del cliente sono molto efficaci in BigData.
Lettura consigliata => Big Data vs Big Data Analytics vs Data Science
Sfide e rischi in BigData
Sfide:
- Una delle principali sfide nei Big Data è la gestione di grandi quantità di dati. Oggigiorno i dati arrivano a un sistema da varie fonti con varietà. Quindi è una sfida molto grande per le aziende gestirla correttamente. Per esempio, per generare un report che contenga gli ultimi 20 anni di dati, è necessario salvare e mantenere gli ultimi 20 anni di dati di un sistema. Per fornire un report accurato, è necessario inserire solo i dati rilevanti nel sistema. Non dovrebbe contenere dati irrilevanti o non necessari, altrimenti mantenere quella quantità di dati sarà una grande sfida per le aziende.
- Un'altra sfida con questa tecnologia è la sincronizzazione di vari tipi di dati. Come tutti sappiamo, i Big Data supportano dati strutturati, non strutturati e semi-strutturati provenienti da fonti diverse, sincronizzarli e ottenere la coerenza dei dati è molto difficile.
- La prossima sfida che le aziende devono affrontare è il divario di esperti che possono aiutare e implementare i problemi che devono affrontare nel sistema. C'è un grande divario nel talento in questo campo.
- Gestire l'aspetto della conformità è costoso.
- La raccolta, l'aggregazione, l'archiviazione, l'analisi e il reporting dei dati di BigData ha un costo enorme. L'organizzazione dovrebbe essere in grado di gestire tutti questi costi.
Rischi:
differenza tra il port triggering e il port forwarding
- Può gestire una varietà di dati, ma se le aziende non sono in grado di comprendere adeguatamente i requisiti e controllare la fonte dei dati, fornirà risultati errati. Di conseguenza, sarà necessario molto tempo e denaro per indagare e correggere i risultati.
- La sicurezza dei dati è un altro rischio con BigData. Con un volume elevato di dati, ci sono maggiori possibilità che qualcuno li rubi. Gli hacker di dati possono rubare e vendere informazioni importanti (inclusi i dati storici) dell'azienda.
- Inoltre, la privacy dei dati è un altro rischio per BigData. Se vogliamo proteggere i dati personali e sensibili dagli hacker, allora dovrebbero essere protetti e devono passare tutte le politiche sulla privacy.
Big Data Technologies
Di seguito le tecnologie che possono essere utilizzate per gestire i Big Data:
- Apache Hadoop
- Microsoft HDInsight
- Nessun SQL
- Alveare
- Sqoop
- BigData in Excel
Una descrizione dettagliata di queste tecnologie sarà trattata nei nostri prossimi tutorial.
Strumenti per utilizzare i concetti di Big Data
Di seguito sono elencati gli strumenti open source che possono aiutare a utilizzare i concetti di Big Data:
# 1) Apache Hadoop
# 2) Lumify
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) Sistema HPCC BigData
Applicazioni dei Big Data
Di seguito sono riportati i domini in cui viene utilizzato:
- Bancario
- Media e intrattenimento
- Fornitori di servizi sanitari
- Assicurazione
- Formazione scolastica
- Al dettaglio
- Produzione
- Governo
BigData e Data Warehouse
Il data warehouse è un concetto di base che dobbiamo comprendere prima di discutere di Hadoop o BigData Testing.
Comprendiamo Data Warehouse da un esempio in tempo reale. Per esempio , c'è una società che ha stabilito le sue filiali in tre paesi diversi, supponiamo una filiale in India, Australia e Giappone.
In ogni filiale, tutti i dati del cliente vengono memorizzati nel database locale. Questi database locali possono essere normali RDBMS classici come Oracle o MySQL o SQL Server ecc. E tutti i dati dei clienti verranno memorizzati in essi quotidianamente.
Ora, ogni trimestre, semestre o anno, l'organizzazione desidera analizzare questi dati per lo sviluppo del business. Per fare lo stesso, l'organizzazione raccoglierà tutti questi dati da più fonti e poi li metterà insieme in un unico posto e questo posto verrà chiamato 'Data Warehouse'.
Data Warehouse è un tipo di database che contiene tutti i dati estratti da più origini o più tipi di database tramite 'ETL' (qual è E estrai, T ransform e L oad) processo. Una volta che i dati sono pronti nel Data Warehouse, possiamo utilizzarli per scopi analitici.
Quindi, per l'analisi, possiamo generare report dai dati disponibili nel Data Warehouse. È possibile generare più grafici e report utilizzando gli strumenti di Business Intelligence.
Abbiamo bisogno di Data Warehouse per scopi analitici per far crescere il business e prendere decisioni appropriate per le organizzazioni.
miglior downloader mp3 per Windows 10
In questo processo stanno accadendo tre cose, la prima è che abbiamo estratto i dati da più origini e li abbiamo inseriti in un'unica posizione che è Data Warehouse.
Qui utilizziamo il processo 'ETL', quindi durante il caricamento dei dati da più origini in un unico luogo, lo applicheremo nelle radici di trasformazione e quindi possiamo utilizzare vari tipi di strumenti ETL qui.
Una volta che i dati sono pronti in Data Warehouse, possiamo generare vari report per analizzare i dati aziendali utilizzando gli strumenti di Business Intelligence (BI) o li chiamiamo anche strumenti di reporting. Gli strumenti come Tableau o Cognos possono essere utilizzati per generare report e dashboard per analizzare i dati per il business.
OLTP e OLAP
Capiamo cosa sono OLTP e cosa sono OLAP?
Vengono chiamati database mantenuti localmente e utilizzati per scopi transazionali OLTP, ovvero elaborazione di transazioni online. Le transazioni quotidiane verranno archiviate qui e aggiornate immediatamente ed è per questo che le abbiamo chiamate Sistema OLTP.
Qui usiamo database tradizionali, abbiamo più tabelle e ci sono relazioni, quindi tutto è pianificato sistematicamente come da database. Non utilizziamo questi dati per scopi analitici. Qui possiamo utilizzare i database RDMBS classici come Oracle, MySQL, SQL Server, ecc.
Quando arriviamo alla parte del Data Warehouse, utilizziamo Teradata o Hadoop Systems, che sono anche una sorta di database ma i dati in un DataWarehouse vengono solitamente utilizzati per scopi analitici e sono chiamati OLAP o Processo di analisi online.
Qui, i dati possono essere aggiornati su base trimestrale, semestrale o annuale. A volte i dati vengono aggiornati anche 'Offerly', dove Offerly significa che i dati vengono aggiornati e recuperati per l'analisi in base alle esigenze del cliente.
Inoltre, i dati per l'analisi non vengono aggiornati quotidianamente perché otterremo i dati da più origini, in base a una pianificazione e possiamo eseguire questa attività ETL. Ecco come funziona il sistema di elaborazione analitica online.
Anche in questo caso, gli strumenti BI o Reporting possono generare report e dashboard e, in base a ciò, gli uomini d'affari prenderanno le decisioni per migliorare la propria attività.
Dove entra in gioco BigData?
BigData è il dato che va oltre la capacità di archiviazione ed elaborazione dei database convenzionali ed è nel formato strutturato e non strutturato, quindi non può essere gestito dai sistemi RDBMS locali.
Questo tipo di dati verrà generato in TeraBytes (TB) o PetaBytes (PB) o oltre ed è in rapido aumento al giorno d'oggi. Esistono più fonti per ottenere questo tipo di dati come Facebook, WhatsApp (che sono legati ai social network); Amazon, Flipkart relativo all'e-commerce; Gmail, Yahoo, Rediff relativi a Email e Google e altri motori di ricerca. Otteniamo anche bigdata da cellulari come dati SMS, registrazione delle chiamate, registri delle chiamate, ecc.
Conclusione
I big data sono la soluzione per gestire grandi quantità di dati in modo efficiente e sicuro. È anche responsabile della conservazione dei dati storici. I vantaggi di questa tecnologia sono molti ed è per questo che ogni azienda vuole passare ai Big Data
Autore: Vaishali Tarey, Technical Lead @ Syntel
Lettura consigliata
- Esercitazione sul data mart - Tipi, esempi e implementazione del data mart
- I 10 migliori strumenti di progettazione di database per creare modelli di dati complessi
- 20+ Tutorial MongoDB per principianti: corso MongoDB gratuito
- Che cos'è un data lake | Data Warehouse vs Data Lake
- I 10 migliori strumenti di test e convalida dei dati strutturati per SEO
- Modello di dati dimensionale nel data warehouse - Tutorial con esempi
- Data mining: processo, tecniche e problemi principali nell'analisi dei dati
- Come eseguire test basati sui dati in SoapUI Pro - SoapUI Tutorial # 14