complete guide big data analytics
Questa è una guida completa all'analisi dei Big Data con i suoi casi d'uso, architettura, esempi e confronto con Big Data e Data Science:
L'analisi dei big data ha guadagnato terreno perché aziende come Facebook, Google e Amazon hanno creato i propri nuovi paradigmi di elaborazione e analisi dei dati distribuiti per comprendere le propensioni dei propri clienti per l'estrazione di valore dai big data.
In questo tutorial, spieghiamo l'analisi dei big data e la confrontiamo con Big Data e Data Science. Tratteremo gli attributi necessari che le aziende devono avere nella loro strategia per i big data e la metodologia che funziona. Citeremo anche le ultime tendenze e alcuni casi d'uso dell'analisi dei dati.
Come mostrato nell'immagine sottostante, Analytics richiede l'utilizzo di competenze IT, competenze aziendali e scienza dei dati. L'analisi dei big data è al centro dell'utilizzo dei valori dai big data e aiuta a ricavare informazioni utili per un'organizzazione.
(Immagine fonte )
Cosa imparerai:
- Cos'è Big Data Analytics
- Conclusione
Cos'è Big Data Analytics
Big Data Analytics si occupa dell'utilizzo di una raccolta di tecniche statistiche, strumenti e procedure di analisi dei Big Data.
Consigliato Lettura => Introduzione ai big data
È l'analisi che aiuta a estrarre modelli preziosi e insight significativi dai big data per supportare il processo decisionale basato sui dati. È a causa dell'emergere di nuove fonti di dati come i social media e i dati IoT che i big data e l'analisi sono diventati popolari.
Questa tendenza sta dando origine a un'area di pratica e studio chiamata 'scienza dei dati' che comprende le tecniche, gli strumenti, le tecnologie e i processi per l'estrazione dei dati, la pulizia, la modellazione e la visualizzazione.
Big Data Vs Big Data Analytics Vs Data Science
PER confronto tra big data, data science e analisi dei big data può essere compreso dalla tabella sottostante.
Base | Big Data | Scienza dei dati | Analisi dei Big Data |
---|---|---|---|
Strumenti e tecnologie | Ecosistema Hadoop, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Ruoli e abilità lavorative | Manutenzione dell'infrastruttura di archiviazione, elaborazione dei dati e conoscenza su Hadoop e sua integrazione con altri strumenti. | Trasformazione dei dati, ingegneria dei dati, data wrangling, modellazione dei dati e visualizzazione | BI e analisi avanzate, statistica, modellazione dei dati e apprendimento automatico, competenze matematiche, comunicazione, consulenza. |
Designazioni | Big Data Architect Sviluppatore di Big Data Big Data Engineer | Data Scientist Ingegnere di machine learning | Analista di Big Data Analista di affari Ingegnere di Business Intelligence Specialista in analisi aziendale Sviluppatore della visualizzazione dei dati Analytics Manager |
Circa. Stipendio annuale medio in USD | 100.000 | 90.000 | 70.000 |
Lettura consigliata = >> Data Science Vs Computer Science
Quello che dovrebbe avere ogni strategia di Big Data Analytics
Una strategia ben definita, integrata e completa contribuisce e supporta un prezioso processo decisionale basato sui dati in un'organizzazione. In questa sezione, abbiamo elencato i passaggi più critici che devono essere considerati quando si definisce una strategia di analisi dei big data.
Passaggio 1: valutazione
Una valutazione, già in linea con gli obiettivi di business, richiede il coinvolgimento delle principali parti interessate, la creazione di un team di membri con le giuste competenze, la valutazione di politiche, persone, processi e risorse tecnologiche e di dati. Se necessario, si possono coinvolgere i clienti del valutato in questo processo.
Passaggio 2: definizione delle priorità
Dopo la valutazione, è necessario derivare i casi d'uso, dare loro la priorità utilizzando l'analisi predittiva dei big data, l'analisi prescrittiva e l'analisi cognitiva. È inoltre possibile utilizzare uno strumento come la matrice di assegnazione delle priorità e filtrare ulteriormente i casi d'uso con l'aiuto del feedback e dell'input delle principali parti interessate.
Passaggio 3: RoadMap
In questo passaggio, è necessario creare una roadmap limitata nel tempo e pubblicarla per tutti. Una roadmap deve includere tutti i dettagli relativi a complessità, fondi, vantaggi intrinseci dei casi d'uso e progetti mappati.
Passaggio 4: gestione del cambiamento
L'implementazione della gestione delle modifiche richiede la gestione della disponibilità, integrità, sicurezza e usabilità dei dati. Un efficace programma di gestione delle modifiche, che utilizza qualsiasi governance dei dati esistente, incentiva le attività e i membri sulla base di un monitoraggio continuo.
Passaggio 5: set di abilità corretto
Identificare il giusto set di competenze è fondamentale per il successo dell'organizzazione tra le tendenze attuali del settore. Pertanto, è necessario seguire i leader giusti e portare programmi educativi per educare le parti interessate critiche.
Passaggio 6: affidabilità, scalabilità e sicurezza
Il giusto approccio e un'efficace strategia di analisi dei big data rendono il processo di analisi affidabile, con un uso efficace di modelli interpretabili che coinvolgono i principi della scienza dei dati. Una strategia di analisi dei big data deve includere anche aspetti di sicurezza fin dall'inizio per una pipeline di analisi robusta e strettamente integrata.
Pipeline di dati e processo per l'analisi dei dati
Quando si pianifica la pipeline di analisi dei dati, ci sono tre aspetti fondamentali da considerare. Questi sono i seguenti:
- Ingresso: Formato dei dati e la selezione della tecnologia da elaborare, si basa sulla natura sottostante dei dati. se i dati sono serie temporali e qualità.
- Produzione: Scelta dei connettori , report e visualizzazione dipendono dalle competenze tecniche degli utenti finali e dai loro requisiti di consumo dei dati.
- Volume: Soluzioni in scala sono pianificati in base al volume dei dati per evitare di sovraccaricare il sistema di elaborazione dei big data.
Parliamo ora di un processo tipico e delle fasi di una pipeline di analisi dei big data.
Fase 1: importazione dei dati
L'inserimento dei dati è il primo e più significativo passo nella pipeline dei dati. Considera tre aspetti dei dati.
- Fonte dei dati - È significativo per quanto riguarda la scelta dell'architettura della pipeline di big data.
- Struttura dei dati - La serializzazione è la chiave per mantenere una struttura omogenea in tutta la pipeline.
- Pulizia dei dati - L'analisi è valida quanto i dati senza problemi come valori mancanti e valori anomali, ecc.
Fase 2: ETL / Magazzino
Il prossimo modulo importante sono gli strumenti di archiviazione dei dati per eseguire ETL (Extract Transform Load). La memorizzazione dei dati in un data center adeguato dipende da,
- Hardware
- Competenza gestionale
- Budget
(Immagine fonte )
Alcuni strumenti testati nel tempo per ETL / Warehousing nei data center sono:
- Apache Hadoop
- Apache Hive
- Parquet Apache
- Motore di query Presto
Le società cloud come Google, AWS, Microsoft Azure forniscono questi strumenti in base al pagamento e risparmiano sulla spesa in conto capitale iniziale.
Fase 3: analisi e visualizzazione
Considerando la limitazione di Hadoop sull'esecuzione di query rapide, è necessario utilizzare piattaforme e strumenti di analisi che consentano query rapide e ad-hoc con la visualizzazione dei risultati richiesta.
>> Letture consigliate: Strumenti per Big Data
Fase 4: monitoraggio
Dopo la configurazione di un'infrastruttura per l'acquisizione, l'archiviazione e l'analisi con strumenti di visualizzazione, il passaggio successivo consiste nel disporre di strumenti di monitoraggio IT e dei dati da monitorare. Questi includono:
- Utilizzo della CPU o della GPU
- Consumo di memoria e risorse
- Reti
Alcuni strumenti da considerare sono:
- Datadog
- Grafana
Gli strumenti di monitoraggio sono indispensabili in una pipeline di analisi dei big data e aiutano a monitorare la qualità e l'integrità della pipeline.
Architettura di Big Data Analytics
Il diagramma dell'architettura seguente mostra come le moderne tecnologie utilizzano fonti di dati sia non strutturate che strutturate per l'elaborazione Hadoop & Map-reduce, sistemi di analisi in memoria e analisi in tempo reale per ottenere risultati combinati per operazioni e processi decisionali in tempo reale.
(Immagine fonte )
Tendenze attuali nell'analisi dei dati
In questa sezione, abbiamo elencato gli aspetti essenziali da cercare quando si implementano o si seguono le tendenze dell'analisi dei big data nel settore.
# 1) Fonti di Big Data
Esistono principalmente tre fonti di Big Data. Questi sono elencati di seguito:
- Dati sociali: Dati generati a causa dell'uso dei social media. Questi dati aiutano a comprendere il sentimenti e comportamento dei clienti e può essere utile nelle analisi di marketing.
- Dati macchina: Questi dati vengono acquisiti da apparecchiature e applicazioni industriali utilizzando sensori IoT. Aiuta a capire persone comportamento e fornisce approfondimenti su processi .
- Dati transazionali: Viene generato come risultato delle attività offline e online degli utenti relative a ordini di pagamento, fatture, ricevute, ecc. La maggior parte di questo tipo di dati necessita pre elaborazione e pulizia prima che possa essere utilizzato per l'analisi.
# 2) Archiviazione dati SQL / NoSQL
Se confrontati con i database tradizionali o RDBMS, i database NoSQL si dimostrano migliori per le attività richieste per l'analisi dei big data.
I database NoSQL possono gestire intrinsecamente dati non strutturati abbastanza bene e non si limitano a costose modifiche dello schema, scalabilità verticale e interferenza delle proprietà ACID.
# 3) Analisi predittiva
Predictive Analytics offre insight personalizzati che portano le organizzazioni a generare nuove risposte o acquisti da parte dei clienti e opportunità di cross-sell. Le organizzazioni utilizzano l'analisi predittiva per fare previsioni su singoli elementi a livelli granulari per prevedere i risultati futuri e prevenire potenziali problemi. Questo ulteriore è combinato con i dati storici e trasformato in analisi prescrittiva.
Alcune aree in cui l'analisi predittiva dei big data è stata utilizzata con successo sono il business, la protezione dei bambini, i sistemi di supporto alle decisioni cliniche, la previsione del portafoglio, le previsioni a livello economico e la sottoscrizione.
# 4) Apprendimento profondo
I big data sono schiaccianti per il computing convenzionale. Risulta che le tradizionali tecniche di machine learning per l'analisi dei dati si appiattiscono nelle prestazioni con l'aumento della varietà e del volume dei dati.
Analytics deve affrontare delle sfide per quanto riguarda le variazioni di formato, le sorgenti di input altamente distribuite, i dati di input sbilanciati e i dati di streaming in rapido movimento e gli algoritmi di deep learning affrontano in modo abbastanza efficiente tali sfide.
Il deep learning ha trovato il suo uso efficace nell'indicizzazione semantica, nello svolgimento di attività discriminatorie, nell'immagine semantica e nel tagging video, nel social targeting e anche negli approcci di apprendimento gerarchico multilivello nelle aree del riconoscimento degli oggetti, dell'etichettatura dei dati, del recupero delle informazioni e del linguaggio naturale in lavorazione.
# 5) Data lake
Memorizzare diversi set di dati in diversi sistemi e combinarli per l'analisi con i tradizionali approcci di gestione dei dati si rivela costoso e quasi impossibile. Pertanto, le organizzazioni stanno creando Data lake, che archiviano i dati nel loro formato nativo grezzo per analisi utilizzabili.
L'immagine seguente mostra un esempio di data lake nell'architettura big data.
(Immagine fonte )
Usi di Big Data Analytics
Di seguito abbiamo elencato alcuni casi d'uso prevalenti:
# 1) Analisi dei clienti
Big Data Analytics è utile per vari scopi, come il micro-marketing, il marketing one-to-one, la segmentazione più fine e la personalizzazione di massa per i clienti di un'azienda. Le aziende possono creare strategie per personalizzare i propri prodotti e servizi in base alle propensioni dei clienti all'up-sell o al cross-sell di una gamma di prodotti e servizi simile o diversa.
# 2) Analisi delle operazioni
L'analisi delle operazioni aiuta a migliorare il processo decisionale complessivo ei risultati aziendali sfruttando i dati esistenti e arricchendoli con i dati della macchina e dell'IoT.
Per esempio, L'analisi dei big data in ambito sanitario ha permesso di affrontare sfide e nuove opportunità legate all'ottimizzazione della spesa sanitaria, migliorando il monitoraggio degli studi clinici, la previsione e la pianificazione delle risposte alle epidemie di malattie come COVID-19.
# 3) Prevenzione delle frodi
Si ritiene che l'analisi dei big data abbia il potenziale per fornire un enorme vantaggio aiutando ad anticipare e ridurre i tentativi di frode, principalmente nei settori finanziario e assicurativo.
Per esempio, Le compagnie di assicurazione acquisiscono dati in tempo reale su demografia, guadagni, reclami medici, spese legali, condizioni meteorologiche, registrazioni vocali di un cliente e note del call center. Dettagli specifici in tempo reale aiutano a derivare modelli predittivi combinando le informazioni sopra menzionate con i dati storici per identificare tempestivamente le ipotesi fraudolente.
# 4) Ottimizzazione dei prezzi
Le aziende utilizzano l'analisi dei big data per aumentare i margini di profitto trovando il prezzo migliore a livello di prodotto e non a livello di categoria. Le grandi aziende trovano troppo opprimente ottenere i dettagli granulari e la complessità delle variabili di prezzo, che cambiano regolarmente per migliaia di prodotti.
Una strategia di ottimizzazione dei prezzi basata sull'analisi, come il punteggio dinamico delle trattative, consente alle aziende di impostare i prezzi per gruppi di prodotti e segmenti in base ai propri dati e approfondimenti sui singoli livelli di trattativa per ottenere vittorie rapide da clienti esigenti.
Domande frequenti
D # 1) L'analisi dei big data è una buona carriera?
Risposta: È un valore aggiunto per qualsiasi organizzazione, consentendo di prendere decisioni informate e fornendo un vantaggio rispetto ai concorrenti. Una mossa di carriera nei Big Data aumenta le tue possibilità di diventare un decisore chiave per un'organizzazione.
D # 2) Perché è importante l'analisi dei big data?
Risposta: Aiuta le organizzazioni a creare nuove opportunità di crescita e categorie di prodotti completamente nuove in grado di combinare e analizzare i dati del settore. Queste aziende dispongono di ampie informazioni su prodotti e servizi, acquirenti e fornitori, preferenze dei consumatori che possono essere acquisite e analizzate.
D # 3) Cosa è richiesto per l'analisi dei big data?
Risposta: La gamma di tecnologie che un buon analista di big data deve conoscere è enorme. Per padroneggiare l'analisi dei Big Data, è necessaria la comprensione di vari strumenti, software, hardware e piattaforme. Per esempio, Fogli di calcolo, query SQL e R / R Studio e Python sono alcuni strumenti di base.
A livello aziendale, strumenti come MATLAB, SPSS, SAS e Congnos sono importanti oltre a Linux, Hadoop, Java, Scala, Python, Spark, Hadoop e HIVE.
Domande oggettive:
D # 4) Quale dei database indicati di seguito non è un database NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Risposta: PostgreSQL
D # 5) Cassandra è un NoSQL?
- Vero
- Falso
Risposta: Vero
D # 6) Quale dei seguenti non è di proprietà di Hadoop?
domanda di intervista pl sql per esperti
- Open Source
- Basato su Java
- Elaborazione distribuita
- Tempo reale
Risposta: Tempo reale
D # 7) Scegli tutte le attività che NON vengono eseguite da un Data Scientist.
- Crea modelli di Machine Learning e migliora le loro prestazioni.
- Valutazione di modelli statistici per validare analisi
- Riassumi analisi avanzate utilizzando strumenti di visualizzazione dei dati
- Presentazione dei risultati dell'analisi tecnica ai team interni e ai clienti aziendali
Risposta: Presentazione dei risultati dell'analisi tecnica ai team interni e ai clienti aziendali
Ulteriore lettura = >> Differenze chiave tra Data Analyst e Data Scientist
D # 8) Quali attività vengono eseguite da un Data Analyst?
- Pulisci e organizza i dati grezzi
- Trovare tendenze interessanti nei dati
- creare dashboard e visualizzazioni per una facile interpretazione
- Tutti i precedenti
Risposta: Tutti i precedenti
D # 9) Quale delle seguenti operazioni viene eseguita da un Data Engineer?
- Integrazione di nuove origini dati alla pipeline di analisi dei dati esistente
- Lo sviluppo di API per il consumo di dati
- monitoraggio e test del sistema per prestazioni continue
- Tutti i precedenti
Risposta: Tutti i precedenti
D # 10) La sequenza corretta del flusso di dati per l'analisi è
- Origini dati, preparazione dei dati, trasformazione dei dati, progettazione di algoritmi, analisi dei dati
- Fonti di dati, trasformazione dei dati, progettazione di algoritmi, preparazione dei dati, analisi dei dati
- Fonti di dati, progettazione di algoritmi, preparazione dei dati, trasformazione dei dati, analisi dei dati
- Fonti di dati, preparazione dei dati, progettazione di algoritmi, trasformazione dei dati, analisi dei dati
Risposta: Origini dati, preparazione dei dati, trasformazione dei dati, progettazione di algoritmi, analisi dei dati
D # 11) L'analisi dei dati è un processo lineare.
- Vero
- Falso
Risposta: Falso
D # 12) L'analisi esplorativa NON lo è
- Risposta domande di analisi dei dati iniziali in dettaglio
- Determina i problemi con il set di dati
- Sviluppa uno schizzo di una risposta alla domanda
- Determina se i dati sono corretti per rispondere a una domanda
Risposta: Rispostadomande di analisi dei dati iniziali in dettaglio
D # 13) La domanda di previsione è un altro nome dato a una domanda inferenziale.
- Vero
- Falso
Risposta: Falso
Conclusione
Abbiamo coperto gli aspetti più importanti dell'analisi dei big data. Abbiamo spiegato i casi d'uso più diffusi e le tendenze nel settore dell'analisi dei big data per trarne i massimi benefici.
Lettura consigliata
- Le 7 migliori società di analisi dei dati nel 2021 (Elenco aggiornato 2021)
- I 15 migliori strumenti per Big Data (strumenti di analisi dei Big Data) nel 2021
- I 10 migliori strumenti di analisi dei dati per una perfetta gestione dei dati (2021 LIST)
- I 10 migliori strumenti di data science nel 2021 per eliminare la programmazione
- Tutorial sui Big Data per principianti | Cosa sono i big data?
- Le migliori 13 migliori società di big data del 2021
- I 10 migliori strumenti di modellazione dati per gestire progetti complessi
- Oltre 10 migliori strumenti di governance dei dati per soddisfare le tue esigenze di dati nel 2021