data mining process
Questo tutorial approfondito sul data mining spiega cos'è il data mining, inclusi i processi e le tecniche utilizzate per l'analisi dei dati:
Cerchiamo di comprendere il significato del termine mining prendendo l'esempio dell'estrazione dell'oro dalle rocce, che si chiama estrazione dell'oro. Qui la cosa utile è 'Gold', quindi si chiama gold mining.
Allo stesso modo, l'estrazione di informazioni utili da una grande quantità di dati viene definita estrazione di conoscenza ed è comunemente nota come estrazione di dati. Con il termine informazioni utili si indicano i dati che possono aiutarci a prevedere un output.
Ad esempio, trovare le tendenze di acquisto di un oggetto particolare (ad esempio il ferro) da una particolare fascia di età ( Esempio: 40-70 anni).
=>SCORRI GIÙper vedere l'intero elenco di 7 tutorial approfonditi sul data mining per principianti
Cosa imparerai:
i migliori download di musica mp3 per Android
- Elenco delle esercitazioni sul data mining
- Panoramica delle esercitazioni in questa serie di data mining
- Che cos'è il data mining?
- Quali tipi di dati possono essere estratti?
- Quali tecniche vengono utilizzate nel data mining?
- Problemi principali nell'analisi dei dati
- Conclusione
Elenco delle esercitazioni sul data mining
Tutorial n. 1: Data mining: processo, tecniche e problemi principali nell'analisi dei dati (Questo tutorial)
Tutorial n. 2: Tecniche di data mining: algoritmi, metodi e principali strumenti di data mining
Tutorial n. 3: Processo di data mining: modelli, fasi del processo e sfide coinvolte
Tutorial n. 4: Esempi di data mining: applicazioni più comuni del data mining 2019
Tutorial n. 5: Esempi di algoritmi di albero decisionale nel data mining
Tutorial # 6: Algoritmo Apriori nel data mining: implementazione con esempi
Tutorial # 7: Algoritmo di crescita del pattern frequente (FP) nel data mining
Panoramica delle esercitazioni in questa serie di data mining
Tutorial # | Cosa imparerai |
---|---|
Tutorial_ # 7: | Algoritmo di crescita del pattern frequente (FP) nel data mining Questo è un tutorial dettagliato sull'algoritmo di crescita dei pattern frequenti che rappresenta il database sotto forma di albero FP. Qui viene spiegato anche il confronto tra Crescita FP e Apriori. |
Tutorial_ # 1: | Data mining: processo, tecniche e problemi principali nell'analisi dei dati Questo tutorial approfondito sul data mining spiega che cos'è il data mining, inclusi i processi e le tecniche utilizzate per l'analisi dei dati. |
Tutorial_ # 2: | Tecniche di data mining: algoritmi, metodi e principali strumenti di data mining Questo tutorial sulle tecniche di data mining spiega algoritmi, strumenti di data mining e metodi per estrarre dati utili. |
Tutorial_ # 3: | Processo di data mining: modelli, fasi del processo e sfide coinvolte Questo tutorial sul processo di data mining copre i modelli di data mining, i passaggi e le sfide coinvolte nel processo di estrazione dei dati. |
Tutorial_ # 4: | Esempi di data mining: applicazioni più comuni del data mining 2019 Gli esempi di data mining più popolari nella vita reale sono trattati in questo tutorial. Imparerai di più sull'applicazione di data mining in finanza, marketing, sanità e CRM. |
Tutorial_ # 5: | Esempi di algoritmi di albero decisionale nel data mining Questo tutorial approfondito spiega tutto sull'algoritmo dell'albero decisionale nel data mining. Imparerai a conoscere gli esempi, l'algoritmo e la classificazione dell'albero decisionale. |
Tutorial_ # 6: | Algoritmo Apriori nel data mining: implementazione con esempi Questo è un semplice tutorial sull'algoritmo Apriori per scoprire i set di elementi frequenti nel data mining. Imparerai anche i passaggi in Apriori e capirai come funziona. |
Che cos'è il data mining?
Il data mining è molto richiesto oggi in quanto aiuta le aziende a studiare come possono aumentare le vendite dei loro prodotti. Possiamo capirlo da un esempio di un negozio di moda, che registrerà ogni suo cliente che acquista un articolo dal suo negozio.
Sulla base dei dati forniti dal cliente quali età, sesso, fascia di reddito, professione, ecc., Il negozio potrà scoprire quale tipologia di clienti acquista i diversi prodotti. Qui, possiamo vedere che il nome del cliente è inutile in quanto non possiamo prevedere l'andamento dell'acquisto in base al nome se quella persona acquisterà o meno un determinato prodotto.
In questo modo le informazioni utili possono essere trovate utilizzando la fascia di età, il sesso, la fascia di reddito, la professione, ecc. La ricerca di conoscenze o modelli interessanti nei dati è 'Data mining'. Altri termini che possono essere utilizzati sul posto sono Knowledge mining dai dati, Knowledge Extraction, Data Analysis, Pattern Analysis, ecc.
Un altro termine comunemente utilizzato nel data mining è Knowledge Discovery from Data o KDD.
Processo di analisi dei dati
Il processo di scoperta della conoscenza è una sequenza dei seguenti passaggi:
- Pulizia dei dati: Questo passaggio rimuove il rumore e i dati incoerenti dai dati di input.
- Integrazione dei dati: Questo passaggio combina più origini di dati. La pulizia dei dati e l'integrazione dei dati si uniscono per formare la preelaborazione dei dati. I dati preelaborati vengono quindi archiviati nel data warehouse.
- Selezione dei dati: Questi passaggi selezionano i dati per l'attività di analisi dal database.
- Trasformazione dei dati: In questa fase, vengono applicate varie tecniche di aggregazione e riepilogo dei dati per trasformare i dati in un modulo utile per il mining.
- Estrazione dei dati: In questa fase, i modelli di dati vengono estratti applicando metodi intelligenti.
- Valutazione del modello: I modelli di dati estratti vengono valutati e riconosciuti in base alle misure di interesse.
- Rappresentazione della conoscenza: Le tecniche di visualizzazione e rappresentazione della conoscenza vengono utilizzate per presentare la conoscenza estratta agli utenti.
I passaggi da 1 a 4 rientrano nella fase di preelaborazione dei dati. Qui, il data mining è rappresentato come un singolo passaggio ma si riferisce all'intero processo di knowledge discovery.
Quindi, possiamo dire, che l'analisi dei dati è il processo di scoperta di modelli e conoscenze interessanti da una grande quantità di dati. Le origini dati possono includere database, data warehouse, World Wide Web, file flat e altri file informativi.
Quali tipi di dati possono essere estratti?
Le forme più elementari di dati per il mining sono i dati del database, i dati del data warehouse e i dati transazionali. Le tecniche di data mining possono essere applicate anche ad altre forme come flussi di dati, dati sequenziati, dati di testo e dati spaziali.
# 1) Dati del database: Il sistema di gestione del database è un insieme di dati correlati e un insieme di programmi software per gestire e accedere ai dati. Il sistema di database relazionale è una raccolta di tabelle e ogni tabella è costituita da un insieme di attributi e tuple.
Il mining di database relazionali ricerca le tendenze e i modelli di dati Per esempio . rischio di credito dei clienti basato su età, reddito e rischio di credito precedente. Inoltre, il mining può rilevare deviazioni dal previsto Per esempio. un aumento significativo del prezzo di un articolo.
# 2) Dati del data warehouse: Un data warehouse è una raccolta di informazioni raccolte da più origini dati, archiviate in uno schema unificato in un unico sito. Un DW è modellato come una struttura di dati multidimensionale chiamata cubo di dati con celle e dimensioni che forniscono precalcolo e un accesso più rapido ai dati.
Il data mining viene eseguito in uno stile OLAP combinando le dimensioni a diversi livelli di granularità.
# 3) Dati transazionali: I dati transazionali acquisiscono una transazione. Ha un ID transazione e un elenco di elementi utilizzati nella transazione.
# 4) Altri tipi di dati: Altri dati possono includere: dati relativi al tempo, dati spaziali, dati ipertestuali e dati multimediali.
Quali tecniche vengono utilizzate nel data mining?
Il data mining è un dominio altamente guidato dalle applicazioni. Molte tecniche come la statistica, l'apprendimento automatico, il riconoscimento di modelli, il recupero delle informazioni, la visualizzazione, ecc. Influenzano lo sviluppo dei metodi di analisi dei dati.
Parliamo di alcuni di loro qui !!
Statistiche
Lo studio della raccolta, analisi, interpretazione e presentazione dei dati può essere effettuato utilizzando modelli statistici. Per esempio , le statistiche possono essere utilizzate per modellare il rumore e i dati mancanti, quindi questo modello può essere utilizzato in grandi set di dati per identificare il rumore e i valori mancanti nei dati.
Apprendimento automatico
ML viene utilizzato per migliorare le prestazioni in base ai dati. La principale area di ricerca è che i programmi per computer imparino automaticamente a riconoscere schemi complessi e prendere decisioni intelligenti basate sui dati.
Il machine learning si concentra sull'accuratezza e il data mining si concentra sull'efficienza e la scalabilità dei metodi di mining su grandi set di dati, dati complessi, ecc.
L'apprendimento automatico è di tre tipi:
- Apprendimento supervisionato: Il set di dati target è noto e la macchina viene addestrata in base ai valori target.
- Apprendimento senza supervisione: I valori target non sono noti e le macchine apprendono da sole.
- Apprendimento semi-supervisionato: Utilizza sia le tecniche di apprendimento supervisionato che non supervisionato.
Recupero informazioni (IR)
È la scienza della ricerca di documenti o informazioni nei documenti.
Utilizza due principi:
- I dati che devono essere cercati non sono strutturati.
- Le query sono formate principalmente da parole chiave.
Utilizzando l'analisi dei dati e l'IR, possiamo trovare i principali argomenti nella raccolta di documenti e anche i principali argomenti coinvolti in ciascun documento.
Problemi principali nell'analisi dei dati
Il data mining presenta una serie di problemi ad esso correlati, come indicato di seguito:
Metodologia mineraria
- Poiché esistono diverse applicazioni, continuano a emergere nuove attività di mining. Queste attività possono utilizzare lo stesso database in modi diversi e richiedono lo sviluppo di nuove tecniche di data mining.
- Durante la ricerca di conoscenza in grandi set di dati, dobbiamo esplorare lo spazio multidimensionale. Per trovare modelli interessanti, è necessario applicare varie combinazioni di dimensioni.
- Dati incerti, rumorosi e incompleti possono talvolta portare a derivazioni errate.
Interazione dell'utente
- Il processo di analisi dei dati dovrebbe essere altamente interattivo. È importante che il processo di mining sia interattivo per l'utente.
- La conoscenza del dominio, la conoscenza di base, i vincoli, ecc., Dovrebbero essere tutti incorporati nel processo di data mining.
- La conoscenza scoperta dall'estrazione dei dati dovrebbe essere utilizzabile per gli esseri umani. Il sistema dovrebbe adottare una rappresentazione espressiva della conoscenza, tecniche di visualizzazione user-friendly, ecc.
Efficienza e scalabilità
- Gli algoritmi di data mining dovrebbero essere efficienti e scalabili per estrarre in modo efficace dati interessanti da un'enorme quantità di dati nei repository di dati.
- Ampia distribuzione dei dati, complessità nel calcolo motiva lo sviluppo di algoritmi ad alta intensità di dati paralleli e distribuiti.
Diversità dei tipi di database
- La costruzione di strumenti di analisi dei dati efficaci ed efficienti per diverse applicazioni, un'ampia gamma di tipi di dati da dati non strutturati, dati temporali, ipertesti, dati multimediali e codice di programmi software rimane un'area di ricerca impegnativa e attiva.
Impatto sociale
- La divulgazione per l'utilizzo dei dati e la potenziale violazione della privacy individuale e la tutela dei diritti sono le aree di preoccupazione che devono essere affrontate.
Conclusione
Il data mining aiuta nel processo decisionale e nell'analisi di una grande quantità di dati. Al giorno d'oggi è la tecnica aziendale più comune. Consente l'analisi automatica dei dati e identifica tendenze e comportamenti popolari.
L'analisi dei dati può essere combinata con l'apprendimento automatico, le statistiche, l'intelligenza artificiale, ecc., Per l'analisi avanzata dei dati e lo studio del comportamento.
Il Data Mining dovrebbe essere applicato prendendo in considerazione vari fattori come il costo dell'estrazione di informazioni e modelli dai database (devono essere applicati algoritmi complessi che richiedono risorse esperte), il tipo di informazioni (poiché i dati storici potrebbero non essere gli stessi di ciò che sono al presente, quindi l'analisi non sarà utile).
miglior programma di aggiornamento del driver per Windows 7
Ci auguriamo che questo tutorial arricchito la tua conoscenza del concetto di Data Mining !!
Lettura consigliata
- I 10 migliori strumenti di analisi dei dati per una perfetta gestione dei dati (2021 LIST)
- Data mining vs machine learning vs intelligenza artificiale vs deep learning
- 10 migliori strumenti di mappatura dei dati utili nel processo ETL (2021 LIST)
- Cosa sono i dati del test? Testare le tecniche di preparazione dei dati con l'esempio
- Parametrizzazione dei dati JMeter mediante variabili definite dall'utente
- I 15 migliori strumenti gratuiti per il data mining: l'elenco più completo
- 10+ migliori strumenti di raccolta dati con strategie di raccolta dati
- Funzione pool di dati in IBM Rational Quality Manager per Test Data Management