data mining process models
Questo tutorial sul processo di data mining tratta i modelli, i passaggi e le sfide del data mining coinvolti nel processo di estrazione dei dati:
Tecniche di data mining sono stati spiegati in dettaglio nel nostro precedente tutorial in questo Corso completo di data mining per tutti . Il data mining è un campo promettente nel mondo della scienza e della tecnologia.
Il data mining, noto anche come Knowledge Discovery nei database, è un processo di rilevamento di informazioni utili da grandi volumi di dati archiviati in database e data warehouse. Questa analisi viene eseguita per i processi decisionali nelle aziende.
Il data mining viene effettuato utilizzando varie tecniche come clustering, associazione e analisi di pattern sequenziali e albero decisionale.
Cosa imparerai:
- Che cos'è il data mining?
- Estrazione dei dati come processo
- Modelli di data mining
- Fasi del processo di data mining
- Processo di data mining in Oracle DBMS
- Processo di data mining in Datawarehouse
- Quali sono le applicazioni dell'estrazione dei dati?
- Sfide di data mining
- Conclusione
- Lettura consigliata
Che cos'è il data mining?
Il data mining è un processo di scoperta di modelli e conoscenze interessanti da grandi quantità di dati. Le origini dati possono includere database, data warehouse, Web e altri archivi di informazioni o dati che vengono trasmessi dinamicamente nel sistema.
Perché le aziende hanno bisogno dell'estrazione dei dati?
Con l'avvento dei Big Data, il data mining è diventato più diffuso. I big data sono insiemi di dati estremamente grandi che possono essere analizzati dai computer per rivelare determinati modelli, associazioni e tendenze che possono essere compresi dagli esseri umani. I big data contengono informazioni esaurienti su vari tipi e contenuti diversi.
Pertanto, con questa quantità di dati, semplici statistiche con intervento manuale non funzionerebbero. Questa esigenza è soddisfatta dal processo di data mining. Ciò porta a passare da semplici statistiche di dati a complessi algoritmi di data mining.
Il processo di data mining estrarrà le informazioni rilevanti dai dati grezzi come transazioni, foto, video, file flat ed elaborerà automaticamente le informazioni per generare report utili alle aziende per agire.
Pertanto, il processo di data mining è fondamentale per le aziende per prendere decisioni migliori scoprendo modelli e tendenze nei dati, riassumendo i dati ed estraendo le informazioni pertinenti.
Estrazione dei dati come processo
Qualsiasi problema aziendale esaminerà i dati grezzi per costruire un modello che descriverà le informazioni e tirerà fuori i report che saranno utilizzati dall'azienda. La creazione di un modello da origini dati e formati di dati è un processo iterativo poiché i dati grezzi sono disponibili in molte origini diverse e in molte forme.
I dati aumentano di giorno in giorno, quindi quando viene trovata una nuova origine dati, può modificare i risultati.
Di seguito è riportato lo schema del processo.
(Immagine fonte )
Modelli di data mining
Molte industrie come la produzione, il marketing, la chimica e l'aerospaziale stanno sfruttando il data mining. Pertanto, la domanda di processi di data mining standard e affidabili è aumentata drasticamente.
Gli importanti modelli di data mining includono:
# 1) Processo standard intersettoriale per il data mining (CRISP-DM)
CRISP-DM è un modello di data mining affidabile costituito da sei fasi. È un processo ciclico che fornisce un approccio strutturato al processo di data mining. Le sei fasi possono essere implementate in qualsiasi ordine, ma a volte richiederebbe il ritorno ai passaggi precedenti e la ripetizione delle azioni.
c ++ sleep_for
Le sei fasi di CRISP-DM includono:
# 1) Comprensione aziendale: In questa fase vengono fissati gli obiettivi delle imprese e vengono scoperti i fattori importanti che aiuteranno a raggiungere l'obiettivo.
# 2) Comprensione dei dati: Questo passaggio raccoglierà tutti i dati e popolerà i dati nello strumento (se si utilizza uno strumento). I dati sono elencati con la loro origine dati, posizione, come vengono acquisiti e se si verificano problemi. I dati vengono visualizzati e interrogati per verificarne la completezza.
# 3) Preparazione dei dati: Questo passaggio prevede la selezione dei dati appropriati, la pulizia, la costruzione di attributi dai dati, l'integrazione dei dati da più database.
# 4) Modellazione: In questa fase viene eseguita la selezione della tecnica di data mining come l'albero decisionale, la generazione del progetto di test per la valutazione del modello selezionato, la creazione di modelli dal set di dati e la valutazione del modello costruito con esperti per discutere il risultato.
# 5) Valutazione: Questo passaggio determinerà il grado in cui il modello risultante soddisfa i requisiti aziendali. La valutazione può essere eseguita testando il modello su applicazioni reali. Il modello viene esaminato per eventuali errori o passaggi che dovrebbero essere ripetuti.
# 6) Distribuzione: In questa fase viene elaborato un piano di distribuzione, viene formata una strategia per monitorare e mantenere i risultati del modello di data mining per verificarne l'utilità, vengono redatti rapporti finali e viene eseguita la revisione dell'intero processo per verificare eventuali errori e vedere se qualche passaggio viene ripetuto .
(Immagine fonte )
# 2) SEMMA (Campione, Esplora, Modifica, Modello, Valuta)
SEMMA è un'altra metodologia di data mining sviluppata da SAS Institute. L'acronimo SEMMA sta per campionare, esplorare, modificare, modellare, valutare.
SEMMA semplifica l'applicazione di tecniche statistiche e di visualizzazione esplorative, seleziona e trasforma le variabili predette significative, crea un modello utilizzando le variabili per ottenere il risultato e controlla la sua accuratezza. SEMMA è anche guidato da un ciclo altamente iterativo.
Passaggi in SEMMA
- Campione: In questo passaggio, viene estratto un set di dati di grandi dimensioni e viene estratto un campione che rappresenta i dati completi. Il campionamento ridurrà i costi computazionali e il tempo di elaborazione.
- Esplorare: I dati vengono esplorati per eventuali valori anomali e anomalie per una migliore comprensione dei dati. I dati vengono controllati visivamente per scoprire le tendenze e i raggruppamenti.
- Modificare: In questa fase, la manipolazione dei dati come il raggruppamento e il sottogruppo viene eseguita mantenendo a fuoco il modello da costruire.
- Modello: Sulla base delle esplorazioni e delle modifiche, vengono costruiti i modelli che spiegano i modelli nei dati.
- Valutare: In questa fase vengono valutate l'utilità e l'affidabilità del modello costruito. Il test del modello rispetto a dati reali viene eseguito qui.
Sia l'approccio SEMMA che quello CRISP funzionano per il processo di scoperta della conoscenza. Una volta costruiti, i modelli vengono utilizzati per le imprese e il lavoro di ricerca.
Fasi del processo di data mining
Il processo di data mining è diviso in due parti, ovvero Data Preprocessing e Data Mining. La pre-elaborazione dei dati implica la pulizia dei dati, l'integrazione dei dati, la riduzione dei dati e la trasformazione dei dati. La parte di data mining esegue il data mining, la valutazione dei modelli e la rappresentazione della conoscenza dei dati.
(Immagine fonte )
crea un array di stringhe in java
Perché preelaboriamo i dati?
Ci sono molti fattori che determinano l'utilità dei dati come accuratezza, completezza, coerenza, tempestività. I dati devono essere di qualità se soddisfano lo scopo previsto. Pertanto la preelaborazione è cruciale nel processo di data mining. Di seguito vengono illustrati i passaggi principali coinvolti nella preelaborazione dei dati.
# 1) Pulizia dei dati
La pulizia dei dati è il primo passo nel data mining. Ha importanza in quanto i dati sporchi se utilizzati direttamente nel mining possono causare confusione nelle procedure e produrre risultati imprecisi.
Fondamentalmente, questo passaggio comporta la rimozione di dati rumorosi o incompleti dalla raccolta. Sono disponibili molti metodi che generalmente puliscono i dati da soli, ma non sono affidabili.
Questa fase esegue le normali operazioni di pulizia:
(i) Compila i dati mancanti:
I dati mancanti possono essere riempiti con metodi come:
- Ignorando la tupla.
- Riempire manualmente il valore mancante.
- Usa la misura della tendenza centrale, mediana o
- Inserendo il valore più probabile.
(ii) Rimuovere i dati rumorosi: L'errore casuale è chiamato dati rumorosi.
I metodi per rimuovere il rumore sono:
Binning: I metodi di categorizzazione vengono applicati ordinando i valori in bucket o bin. La levigatura viene eseguita consultando i valori vicini.
La categorizzazione viene eseguita livellando per bin, ovvero ogni bin viene sostituito dalla media del bin. Arrotondamento in base a una mediana, in cui ogni valore bin viene sostituito da una mediana bin. Arrotondamento in base ai limiti del bin, ad esempio i valori minimo e massimo nel bin sono i limiti del bin e ogni valore del bin viene sostituito dal valore limite più vicino.
- Identificazione dei valori anomali
- Risoluzione delle incoerenze
# 2) Integrazione dei dati
Quando più origini dati eterogenee come database, cubi di dati o file vengono combinate per l'analisi, questo processo viene chiamato integrazione dei dati. Questo può aiutare a migliorare la precisione e la velocità del processo di data mining.
Database diversi hanno convenzioni di denominazione delle variabili diverse, causando ridondanze nei database. È possibile eseguire un'ulteriore pulizia dei dati per rimuovere le ridondanze e le incongruenze dall'integrazione dei dati senza compromettere l'affidabilità dei dati.
L'integrazione dei dati può essere eseguita utilizzando strumenti di migrazione dei dati come Oracle Data Service Integrator e Microsoft SQL ecc.
# 3) Riduzione dei dati
Questa tecnica viene applicata per ottenere dati rilevanti per l'analisi dalla raccolta di dati. La dimensione della rappresentazione è molto più piccola in volume pur mantenendo l'integrità. La riduzione dei dati viene eseguita utilizzando metodi come Naive Bayes, Decision Trees, rete neurale, ecc.
Alcune strategie di riduzione dei dati sono:
- Riduzione della dimensionalità: Riduzione del numero di attributi nel set di dati.
- Riduzione della numerosità: Sostituzione del volume di dati originale con forme più piccole di rappresentazione dei dati.
- Compressione dati: Rappresentazione compressa dei dati originali.
# 4) Trasformazione dei dati
In questo processo, i dati vengono trasformati in una forma adatta al processo di data mining. I dati vengono consolidati in modo che il processo di mining sia più efficiente e i modelli siano più facili da capire. La trasformazione dei dati implica la mappatura dei dati e il processo di generazione del codice.
Le strategie per la trasformazione dei dati sono:
- Lisciatura: Rimozione del rumore dai dati utilizzando clustering, tecniche di regressione, ecc.
- Aggregazione: Le operazioni di riepilogo vengono applicate ai dati.
- Normalizzazione: Ridimensionamento dei dati per rientrare in un intervallo più piccolo.
- Discretizzazione: I valori grezzi dei dati numerici vengono sostituiti da intervalli. Per esempio, Età.
# 5) Data mining
Il data mining è un processo per identificare modelli e conoscenze interessanti da una grande quantità di dati. In questi passaggi, vengono applicati modelli intelligenti per estrarre i modelli di dati. I dati sono rappresentati sotto forma di pattern e modelli sono strutturati utilizzando tecniche di classificazione e clustering.
# 6) Valutazione del modello
Questo passaggio implica l'identificazione di modelli interessanti che rappresentano la conoscenza sulla base di misure di interesse. I metodi di riepilogo e visualizzazione dei dati vengono utilizzati per rendere i dati comprensibili dall'utente.
# 7) Rappresentazione della conoscenza
La rappresentazione della conoscenza è una fase in cui la visualizzazione dei dati e gli strumenti di rappresentazione della conoscenza vengono utilizzati per rappresentare i dati estratti. I dati vengono visualizzati sotto forma di report, tabelle, ecc.
Processo di data mining in Oracle DBMS
RDBMS rappresenta i dati sotto forma di tabelle con righe e colonne. È possibile accedere ai dati scrivendo query di database.
I sistemi di gestione di database relazionali come Oracle supportano il data mining utilizzando CRISP-DM. Le funzionalità del database Oracle sono utili per la preparazione e la comprensione dei dati. Oracle supporta il data mining tramite interfaccia java, interfaccia PL / SQL, data mining automatizzato, funzioni SQL e interfacce utente grafiche.
Processo di data mining in Datawarehouse
Un data warehouse è modellato per una struttura dati multidimensionale denominata cubo di dati. Ogni cella in un cubo di dati memorizza il valore di alcune misure aggregate.
Data mining in spazio multidimensionale effettuato in stile OLAP (Online Analytical Processing) dove permette l'esplorazione di molteplici combinazioni di dimensioni a diversi livelli di granularità.
Quali sono le applicazioni dell'estrazione dei dati?
L'elenco delle aree in cui il data mining è ampiamente utilizzato include:
# 1) Analisi dei dati finanziari: Il data mining è ampiamente utilizzato nel settore bancario, investimenti, servizi di credito, mutui, prestiti automobilistici e servizi di investimento assicurativo e azionario. I dati raccolti da queste fonti sono completi, affidabili e di alta qualità. Ciò facilita l'analisi sistematica dei dati e il data mining.
# 2) Industrie al dettaglio e delle telecomunicazioni: Il settore della vendita al dettaglio raccoglie enormi quantità di dati sulle vendite, la cronologia degli acquisti dei clienti, il trasporto delle merci, il consumo e il servizio. Il data mining al dettaglio aiuta a identificare i comportamenti di acquisto dei clienti, i modelli di acquisto dei clienti e le tendenze, migliorare la qualità del servizio clienti, una migliore fidelizzazione e soddisfazione dei clienti.
# 3) Scienza e ingegneria: L'informatica e l'ingegneria del data mining possono aiutare a monitorare lo stato del sistema, migliorare le prestazioni del sistema, isolare i bug del software, rilevare il plagio del software e riconoscere i malfunzionamenti del sistema.
# 4) Rilevamento e prevenzione delle intrusioni: L'intrusione è definita come qualsiasi insieme di azioni che minacciano l'integrità, la riservatezza o la disponibilità delle risorse di rete. I metodi di data mining possono aiutare nel rilevamento delle intrusioni e nel sistema di prevenzione per migliorarne le prestazioni.
come installare eclipse c ++
# 5) Sistemi di raccomandazione: I sistemi di raccomandazione aiutano i consumatori fornendo raccomandazioni sui prodotti di interesse per gli utenti.
Sfide di data mining
Di seguito sono elencate le varie sfide coinvolte nel data mining.
- Il data mining richiede database di grandi dimensioni e raccolta di dati difficili da gestire.
- Il processo di data mining richiede esperti di dominio che sono ancora difficili da trovare.
- L'integrazione da database eterogenei è un processo complesso.
- Le pratiche a livello organizzativo devono essere modificate per utilizzare i risultati del data mining. Ristrutturare il processo richiede impegno e costi.
Conclusione
Il data mining è un processo iterativo in cui il processo di mining può essere perfezionato e nuovi dati possono essere integrati per ottenere risultati più efficienti. Il data mining soddisfa il requisito di un'analisi dei dati efficace, scalabile e flessibile.
Può essere considerato come una valutazione naturale della tecnologia dell'informazione. Come processo di scoperta della conoscenza, la preparazione dei dati e le attività di data mining completano il processo di data mining.
I processi di data mining possono essere eseguiti su qualsiasi tipo di dati come dati di database e database avanzati come serie temporali, ecc. Anche il processo di data mining presenta le sue sfide.
Restate sintonizzati sul nostro prossimo tutorial per saperne di più sugli esempi di data mining !!
Tutorial PREV | PROSSIMO Tutorial
Lettura consigliata
- Data mining: processo, tecniche e problemi principali nell'analisi dei dati
- Tecniche di data mining: algoritmi, metodi e principali strumenti di data mining
- 10 migliori strumenti di mappatura dei dati utili nel processo ETL (2021 LIST)
- I 10 migliori strumenti di progettazione di database per creare modelli di dati complessi
- Data mining vs machine learning vs intelligenza artificiale vs deep learning
- I 15 migliori strumenti gratuiti per il data mining: l'elenco più completo
- Testare il concetto, il processo e la strategia di gestione dei dati
- Parametrizzazione dei dati JMeter mediante variabili definite dall'utente