Tutorial sui Big Data per principianti | Cosa sono i Big Data?

big data tutorial beginners what is big data

Prova Il Nostro Strumento Per Eliminare I Problemi

Seleziona Il Sistema Operativo Scegli Un Programma Di Proiezione (Facoltativamente)

Descrivi Il Tuo Problema

Questo tutorial spiega tutto sulle nozioni di base sui Big Data. Il tutorial include vantaggi, sfide, tecnologie e strumenti insieme ad applicazioni di Big Data:

In questo mondo digitale con progressi tecnologici, scambiamo grandi quantità di dati ogni giorno come in Terabyte o Petabyte .

Se stiamo scambiando quella quantità di dati ogni giorno, dobbiamo anche mantenerla e archiviarla da qualche parte. La soluzione per gestire grandi volumi di dati con alta velocità e diversa varietà è Big Data.

Può gestire dati complessi provenienti da più fonti come diversi database, siti web, widget, ecc. Inoltre, può collegare e abbinare i dati provenienti da diverse fonti. Dà infatti un accesso più veloce ai dati ( Per esempio, social media).

Tutorial sui Big Data

Elenco dei tutorial in questa serie di Big Data

domande di intervista sui servizi web in java

Tutorial n. 1: Cosa sono i big data? (Questo tutorial)
Tutorial n. 2: Cos'è Hadoop? Esercitazione su Apache Hadoop per principianti
Tutorial n. 3: Hadoop HDFS - File system distribuito Hadoop
Tutorial n. 4: Architettura Hadoop e guida ai comandi HDFS
Tutorial n. 5: Hadoop MapReduce Tutorial con esempi | Cos'è MapReduce?
Tutorial # 6: Tutorial su Apache Hadoop YARN per principianti | Cos'è YARN?
Tutorial # 7: Esercitazione completa sul test Hadoop | Big Data Testing Guide

Cosa imparerai:

Cosa sono i big data?
BigData e Data Warehouse
- OLTP e OLAP
Conclusione
- Lettura consigliata

Cosa sono i big data?

La parola Huge non è sufficiente per spiegare BigData, alcune caratteristiche classificano i dati in BigData.

Abbiamo tre caratteristiche principali di BigData e se qualche dato soddisfa queste caratteristiche, verrà trattato come BigData. io t è la combinazione delle tre V menzionate di seguito:

Volume
Velocità
Varietà

Tre V

Volume : I dati dovrebbero essere di enorme volume. Big Data ha la soluzione per mantenere una grande quantità di dati che è in Terabyte o Petabyte. Possiamo eseguire operazioni CRUD (Crea, Leggi, Aggiorna ed Elimina) su BigData in modo semplice ed efficace.

Velocità : È responsabile di un accesso più rapido ai dati. Per esempio, al giorno d'oggi i social media hanno bisogno di uno scambio veloce di dati in una frazione di tempo e BigData è la soluzione migliore per questo. Quindi, la velocità è un'altra caratteristica ed è la velocità di elaborazione dei dati.

Varietà : Nei social media, abbiamo a che fare con dati non strutturati come registrazioni audio o video, immagini, ecc. Inoltre, vari settori come il dominio bancario necessitano di dati strutturati e semi-strutturati. BigData è la soluzione per mantenere entrambi i tipi di dati in un unico posto.

Varietà significa diversi tipi di dati come i dati strutturati / non strutturati provenienti da più fonti.

Dati strutturati : I dati che hanno una struttura adeguata o quelli che possono essere facilmente memorizzati in forma tabulare in qualsiasi DataBase relazionale come Oracle, SQL Server o MySQL sono noti come Dati strutturati. Possiamo elaborarlo o analizzarlo in modo semplice ed efficiente.

Un esempio di dati strutturati sono i dati archiviati in un database relazionale che può essere gestito utilizzando SQL (Structured Query Language). Per esempio, I dati dei dipendenti (nome, ID, designazione e stipendio) possono essere archiviati in formato tabulare.

In un database tradizionale, possiamo eseguire operazioni o elaborare dati non strutturati o semi-strutturati solo dopo che sono stati formattati o inseriti nel database relazionale. Esempi dei dati strutturati sono ERP, CRM, ecc.

Dati semi-strutturati: I dati semi-strutturati sono i dati che non sono completamente formattati. Non è memorizzato nelle tabelle di dati o in alcun database. Tuttavia, possiamo facilmente prepararlo ed elaborarlo poiché questi dati contengono tag o valori separati da virgole, ecc. Esempio dei dati semi-strutturati sono file XML, file CSV, ecc.

Dati non strutturati: I dati non strutturati sono i dati che non hanno alcuna struttura. Può essere in qualsiasi forma, non esiste un modello di dati predefinito. Non possiamo archiviarlo nei database tradizionali. È complesso ricercarlo ed elaborarlo.

Inoltre, il volume dei dati non strutturati è molto elevato. Esempio di dati non strutturati è il corpo dell'e-mail, audio, video, immagini, documenti ottenuti, ecc.

Sfide dei database tradizionali

Il database tradizionale non supporta una varietà di dati, ovvero non è in grado di gestire dati non strutturati e semi-strutturati.
Un database tradizionale è lento mentre gestisce una grande quantità di dati.
Nei database tradizionali, l'elaborazione o l'analisi di una grande quantità di dati è molto difficile.
Un database tradizionale è in grado di memorizzare dati in terabyte o petabyte.
Un database tradizionale non può gestire dati storici e rapporti.
Dopo un certo periodo di tempo è necessaria la pulizia dei dati del database.
Il costo per mantenere una grande quantità di dati è molto alto con un database tradizionale.
L'accuratezza dei dati è minore nel database tradizionale poiché i dati storici completi non vengono conservati al suo interno.

Big DataVantaggi rispetto al database tradizionale

Vantaggi dei Big Data rispetto al database tradizionale

Big Data è responsabile della gestione, gestione ed elaborazione di diversi tipi di dati come Strutturato, Semi-strutturato e Non strutturato.
È conveniente in termini di mantenimento di una grande quantità di dati. Funziona su un sistema di database distribuito.
Possiamo salvare grandi quantità di dati per lungo tempo utilizzando le tecniche BigData. Quindi è facile gestire i dati storici e generare rapporti accurati.
La velocità di elaborazione dei dati è molto veloce e quindi i social media utilizzano tecniche di Big Data.
La precisione dei dati è un grande vantaggio dei Big Data.
Consente agli utenti di prendere decisioni efficienti per la propria attività sulla base di dati attuali e storici.
La gestione degli errori, il controllo della versione e l'esperienza del cliente sono molto efficaci in BigData.

Lettura consigliata => Big Data vs Big Data Analytics vs Data Science

Sfide e rischi in BigData

Sfide:

Una delle principali sfide nei Big Data è la gestione di grandi quantità di dati. Oggigiorno i dati arrivano a un sistema da varie fonti con varietà. Quindi è una sfida molto grande per le aziende gestirla correttamente. Per esempio, per generare un report che contenga gli ultimi 20 anni di dati, è necessario salvare e mantenere gli ultimi 20 anni di dati di un sistema. Per fornire un report accurato, è necessario inserire solo i dati rilevanti nel sistema. Non dovrebbe contenere dati irrilevanti o non necessari, altrimenti mantenere quella quantità di dati sarà una grande sfida per le aziende.
Un'altra sfida con questa tecnologia è la sincronizzazione di vari tipi di dati. Come tutti sappiamo, i Big Data supportano dati strutturati, non strutturati e semi-strutturati provenienti da fonti diverse, sincronizzarli e ottenere la coerenza dei dati è molto difficile.
La prossima sfida che le aziende devono affrontare è il divario di esperti che possono aiutare e implementare i problemi che devono affrontare nel sistema. C'è un grande divario nel talento in questo campo.
Gestire l'aspetto della conformità è costoso.
La raccolta, l'aggregazione, l'archiviazione, l'analisi e il reporting dei dati di BigData ha un costo enorme. L'organizzazione dovrebbe essere in grado di gestire tutti questi costi.

Rischi:

differenza tra il port triggering e il port forwarding

Può gestire una varietà di dati, ma se le aziende non sono in grado di comprendere adeguatamente i requisiti e controllare la fonte dei dati, fornirà risultati errati. Di conseguenza, sarà necessario molto tempo e denaro per indagare e correggere i risultati.
La sicurezza dei dati è un altro rischio con BigData. Con un volume elevato di dati, ci sono maggiori possibilità che qualcuno li rubi. Gli hacker di dati possono rubare e vendere informazioni importanti (inclusi i dati storici) dell'azienda.
Inoltre, la privacy dei dati è un altro rischio per BigData. Se vogliamo proteggere i dati personali e sensibili dagli hacker, allora dovrebbero essere protetti e devono passare tutte le politiche sulla privacy.

Big Data Technologies

Di seguito le tecnologie che possono essere utilizzate per gestire i Big Data:

Apache Hadoop
Microsoft HDInsight
Nessun SQL
Alveare
Sqoop
BigData in Excel

Una descrizione dettagliata di queste tecnologie sarà trattata nei nostri prossimi tutorial.

Strumenti per utilizzare i concetti di Big Data

Di seguito sono elencati gli strumenti open source che possono aiutare a utilizzare i concetti di Big Data:

# 1) Apache Hadoop
Logo Hadoop

# 2) Lumify
Lumify

# 3) Apache Storm
Tempesta

# 4) Apache Samoa
Samoa

# 5) Elasticsearch
elastico

# 6) MongoDB
MongoDB

# 7) Sistema HPCC BigData
Sistemi HPCC

Applicazioni dei Big Data

Di seguito sono riportati i domini in cui viene utilizzato:

Bancario
Media e intrattenimento
Fornitori di servizi sanitari
Assicurazione
Formazione scolastica
Al dettaglio
Produzione
Governo

BigData e Data Warehouse

Il data warehouse è un concetto di base che dobbiamo comprendere prima di discutere di Hadoop o BigData Testing.

Comprendiamo Data Warehouse da un esempio in tempo reale. Per esempio , c'è una società che ha stabilito le sue filiali in tre paesi diversi, supponiamo una filiale in India, Australia e Giappone.

In ogni filiale, tutti i dati del cliente vengono memorizzati nel database locale. Questi database locali possono essere normali RDBMS classici come Oracle o MySQL o SQL Server ecc. E tutti i dati dei clienti verranno memorizzati in essi quotidianamente.

Ora, ogni trimestre, semestre o anno, l'organizzazione desidera analizzare questi dati per lo sviluppo del business. Per fare lo stesso, l'organizzazione raccoglierà tutti questi dati da più fonti e poi li metterà insieme in un unico posto e questo posto verrà chiamato 'Data Warehouse'.

Data Warehouse è un tipo di database che contiene tutti i dati estratti da più origini o più tipi di database tramite 'ETL' (qual è E estrai, T ransform e L oad) processo. Una volta che i dati sono pronti nel Data Warehouse, possiamo utilizzarli per scopi analitici.

Quindi, per l'analisi, possiamo generare report dai dati disponibili nel Data Warehouse. È possibile generare più grafici e report utilizzando gli strumenti di Business Intelligence.

Abbiamo bisogno di Data Warehouse per scopi analitici per far crescere il business e prendere decisioni appropriate per le organizzazioni.

Organizzazione Data WareHouse

miglior downloader mp3 per Windows 10

In questo processo stanno accadendo tre cose, la prima è che abbiamo estratto i dati da più origini e li abbiamo inseriti in un'unica posizione che è Data Warehouse.

Qui utilizziamo il processo 'ETL', quindi durante il caricamento dei dati da più origini in un unico luogo, lo applicheremo nelle radici di trasformazione e quindi possiamo utilizzare vari tipi di strumenti ETL qui.

Una volta che i dati sono pronti in Data Warehouse, possiamo generare vari report per analizzare i dati aziendali utilizzando gli strumenti di Business Intelligence (BI) o li chiamiamo anche strumenti di reporting. Gli strumenti come Tableau o Cognos possono essere utilizzati per generare report e dashboard per analizzare i dati per il business.

OLTP e OLAP

Capiamo cosa sono OLTP e cosa sono OLAP?

Vengono chiamati database mantenuti localmente e utilizzati per scopi transazionali OLTP, ovvero elaborazione di transazioni online. Le transazioni quotidiane verranno archiviate qui e aggiornate immediatamente ed è per questo che le abbiamo chiamate Sistema OLTP.

Qui usiamo database tradizionali, abbiamo più tabelle e ci sono relazioni, quindi tutto è pianificato sistematicamente come da database. Non utilizziamo questi dati per scopi analitici. Qui possiamo utilizzare i database RDMBS classici come Oracle, MySQL, SQL Server, ecc.

Quando arriviamo alla parte del Data Warehouse, utilizziamo Teradata o Hadoop Systems, che sono anche una sorta di database ma i dati in un DataWarehouse vengono solitamente utilizzati per scopi analitici e sono chiamati OLAP o Processo di analisi online.

Qui, i dati possono essere aggiornati su base trimestrale, semestrale o annuale. A volte i dati vengono aggiornati anche 'Offerly', dove Offerly significa che i dati vengono aggiornati e recuperati per l'analisi in base alle esigenze del cliente.

Inoltre, i dati per l'analisi non vengono aggiornati quotidianamente perché otterremo i dati da più origini, in base a una pianificazione e possiamo eseguire questa attività ETL. Ecco come funziona il sistema di elaborazione analitica online.

Anche in questo caso, gli strumenti BI o Reporting possono generare report e dashboard e, in base a ciò, gli uomini d'affari prenderanno le decisioni per migliorare la propria attività.

Dove entra in gioco BigData?

BigData è il dato che va oltre la capacità di archiviazione ed elaborazione dei database convenzionali ed è nel formato strutturato e non strutturato, quindi non può essere gestito dai sistemi RDBMS locali.

Questo tipo di dati verrà generato in TeraBytes (TB) o PetaBytes (PB) o oltre ed è in rapido aumento al giorno d'oggi. Esistono più fonti per ottenere questo tipo di dati come Facebook, WhatsApp (che sono legati ai social network); Amazon, Flipkart relativo all'e-commerce; Gmail, Yahoo, Rediff relativi a Email e Google e altri motori di ricerca. Otteniamo anche bigdata da cellulari come dati SMS, registrazione delle chiamate, registri delle chiamate, ecc.

Conclusione

I big data sono la soluzione per gestire grandi quantità di dati in modo efficiente e sicuro. È anche responsabile della conservazione dei dati storici. I vantaggi di questa tecnologia sono molti ed è per questo che ogni azienda vuole passare ai Big Data

Autore: Vaishali Tarey, Technical Lead @ Syntel

PROSSIMO Tutorial

Tutorial sui Big Data per principianti | Cosa sono i big data?

Cosa sono i big data?

Sfide dei database tradizionali

Big DataVantaggi rispetto al database tradizionale

Sfide e rischi in BigData

Big Data Technologies

Strumenti per utilizzare i concetti di Big Data

Applicazioni dei Big Data

BigData e Data Warehouse

OLTP e OLAP

Conclusione

Lettura consigliata

Articoli Interessanti

Scelta Del Redattore

Recensione: luce del giorno

Super Bomberman R 2 presenterà un crossover Fall Guys al momento del lancio

Ecco il trailer ufficiale della serie TV di Halo

La nuova politica di GameStop richiede ai dipendenti di chiedere ai clienti perché diavolo fanno ancora acquisti lì (Fauxclusive)

Recensione: Everybody's Golf

Un giocatore di Starfield ha creato uno Star Destroyer Imperiale di Star Wars con le istruzioni

15 MIGLIOR software di controllo della versione (strumenti di gestione del codice sorgente)

È la settimana di Sylvari su Guild Wars 2!

I Tudor sono stati trasformati in un gioco casual per famiglie

Recensione: dalla polvere

Ecco i vincitori dei Game Awards 2017

Sony ha concesso il brevetto sui frontalini PS5, aprendo la strada a più colori