data mining techniques
Questo tutorial approfondito sulle tecniche di data mining spiega algoritmi, strumenti di data mining e metodi per estrarre dati utili:
In questo Esercitazioni di formazione approfondite sul data mining per tutti , abbiamo esplorato tutto sul data mining nel nostro tutorial precedente.
In questo tutorial, impareremo le varie tecniche utilizzate per l'estrazione dei dati. Poiché sappiamo che il data mining è un concetto per estrarre informazioni utili dalla grande quantità di dati, alcune tecniche e metodi vengono applicati a grandi set di dati per estrarre informazioni utili.
Queste tecniche sono fondamentalmente sotto forma di metodi e algoritmi applicati ai set di dati. Alcune delle tecniche di data mining includono Estrazione di modelli frequenti, associazioni e correlazioni, classificazioni, raggruppamento, rilevamento di valori anomali e alcune tecniche avanzate come il data mining statistico, visivo e audio.
In genere, per le tecniche di data mining vengono utilizzati database relazionali, database transazionali e data warehouse. Tuttavia, esistono anche alcune tecniche di mining avanzate per dati complessi come serie temporali, sequenze simboliche e dati sequenziali biologici.
Cosa imparerai:
- Scopo delle tecniche di data mining
- Elenco delle tecniche di estrazione dei dati
- Principali algoritmi di data mining
- Metodi di estrazione dei dati
- I migliori strumenti di data mining
- Conclusione
- Lettura consigliata
Scopo delle tecniche di data mining
Con un'enorme quantità di dati archiviati ogni giorno, le aziende sono ora interessate a scoprire le tendenze da loro. Le tecniche di estrazione dei dati aiutano a convertire i dati grezzi in conoscenza utile. Per estrarre enormi quantità di dati, è necessario il software poiché è impossibile per un essere umano passare manualmente attraverso il grande volume di dati.
Un software di data mining analizza la relazione tra diversi elementi in database di grandi dimensioni che possono aiutare nel processo decisionale, saperne di più sui clienti, creare strategie di marketing, aumentare le vendite e ridurre i costi.
Elenco delle tecniche di estrazione dei dati
La tecnica di data mining che deve essere applicata dipende dalla prospettiva della nostra analisi dei dati.
Quindi parliamo delle varie tecniche di come l'estrazione dei dati può essere eseguita in diversi modi:
# 1) Analisi di estrazione / associazione di modelli frequenti
Questo tipo di tecnica di data mining cerca relazioni ricorrenti nel dataset specificato. Cercherà associazioni e correlazioni interessanti tra i diversi elementi nel database e identificherà un modello.
Un esempio, di questo tipo, sarebbe 'Analisi del carrello della spesa': scoprire 'quali prodotti i clienti probabilmente acquisteranno insieme nel negozio?' come pane e burro.
Applicazione: Progettazione del posizionamento dei prodotti sugli scaffali dei negozi, marketing, cross-selling dei prodotti.
copiatrice dvd gratuita per windows 10
I modelli possono essere rappresentati sotto forma di regole di associazione. La regola dell'associazione dice che il supporto e la fiducia sono i parametri per scoprire l'utilità degli elementi associati. Le transazioni che avevano entrambi gli articoli acquistati insieme in una volta sono note come supporto.
Le transazioni in cui i clienti hanno acquistato entrambi gli articoli ma uno dopo l'altro è la fiducia. Il pattern minato sarebbe considerato interessante se avesse un'estensione soglia minima di sostegno e soglia minima di affidabilità valore. I valori di soglia vengono decisi dagli esperti del dominio.
Pane => burro (supporto = 2%, confidenza-60%)
La dichiarazione di cui sopra è un esempio di una regola di associazione. Ciò significa che c'è una transazione del 2% che ha acquistato pane e burro insieme e il 60% dei clienti ha acquistato pane e burro.
Passaggi per implementare l'analisi dell'associazione:
- Trovare set di elementi frequenti. Itemset indica un insieme di elementi. Un insieme di elementi contenente k elementi è un insieme di elementi k. La frequenza di un insieme di elementi è il numero di transazioni che contengono l'insieme di elementi.
- Generazione di regole di associazione forti dai set di elementi frequenti. Per regole di associazione forti, intendiamo che la soglia minima di supporto e fiducia è soddisfatta.
Esistono vari metodi di mining di set di elementi frequenti, come l'algoritmo Apriori, l'approccio alla crescita del modello e il mining con il formato dati verticale. Questa tecnica è comunemente nota come analisi del paniere di mercato.
# 2) Analisi di correlazione
L'analisi della correlazione è solo un'estensione delle regole di associazione. A volte i parametri di supporto e fiducia possono ancora produrre modelli poco interessanti per gli utenti.
Un esempio a sostegno della dichiarazione di cui sopra può essere: su 1000 transazioni analizzate, 600 contenevano solo pane, mentre 750 contenevano burro e 400 contenevano sia pane che burro. Supponiamo che il supporto minimo per l'esecuzione della regola di associazione sia del 30% e la confidenza minima sia del 60%.
Il valore di supporto di 400/1000 = 40% e il valore di confidenza = 400/600 = 66% soddisfa la soglia. Tuttavia, vediamo che la probabilità di acquistare burro è del 75%, che è superiore al 66%. Ciò significa che il pane e il burro sono correlati negativamente in quanto l'acquisto di uno porterebbe a una diminuzione dell'acquisto dell'altro. I risultati sono ingannevoli.
Dall'esempio precedente, il supporto e la fiducia sono integrati con un'altra misura di interesse, ovvero l'analisi di correlazione che aiuterà a estrarre modelli interessanti.
A => B (supporto, fiducia, correlazione).
La regola di correlazione viene misurata in base al supporto, alla confidenza e alla correlazione tra i set di elementi A e B. La correlazione viene misurata tramite Lift e Chi-quadrato.
(Sollevo: Come dice la parola stessa, Lift rappresenta il grado in cui la presenza di un set di elementi aumenta la presenza di altri set di elementi.
L'incremento tra il verificarsi di A e B può essere misurato da:
che cos'è un sito di condivisione di file
Lift (A, B) = P (A U B) / P (A). P (B).
Se è<1, then A and B are negatively correlated.
Se è> 1. Quindi A e B sono correlati positivamente, il che significa che il verificarsi di uno implica il verificarsi dell'altro.
Se è = 1, non c'è correlazione tra loro.
(ii) Chi-quadrato: Questa è un'altra misura di correlazione. Misura la differenza al quadrato tra il valore osservato e atteso per uno slot (coppia A e B) diviso per il valore atteso.
Se è> 1, è correlato negativamente.
# 3) Classificazione
La classificazione aiuta nella creazione di modelli di importanti classi di dati. Un modello o un classificatore viene costruito per prevedere le etichette della classe. Le etichette sono le classi definite con valori discreti come 'sì' o 'no', 'sicuro' o 'rischioso'. È un tipo di apprendimento supervisionato poiché la classe dell'etichetta è già nota.
La classificazione dei dati è un processo in due fasi:
- Fase di apprendimento: Il modello è costruito qui. Un algoritmo predefinito viene applicato ai dati da analizzare con un'etichetta di classe fornita e vengono costruite le regole di classificazione.
- Fase di classificazione: Il modello viene utilizzato per prevedere le etichette delle classi per determinati dati. L'accuratezza delle regole di classificazione è stimata dai dati del test che, se trovati accurati, vengono utilizzati per la classificazione di nuove tuple di dati.
Gli elementi nel set di elementi verranno assegnati alle categorie di destinazione per prevedere le funzioni a livello di etichetta di classe.
Applicazione: Banche per identificare i richiedenti di prestito come rischio basso, medio o alto, aziende che progettano campagne di marketing in base alla classificazione per gruppi di età
# 4) Induzione dell'albero decisionale
Il metodo di induzione degli alberi decisionali rientra nell'analisi della classificazione. Un albero decisionale è una struttura ad albero facile da capire e semplice e veloce. In questo, ogni nodo non foglia rappresenta un test su un attributo e ogni ramo rappresenta il risultato del test e il nodo foglia rappresenta l'etichetta della classe.
I valori degli attributi in una tupla vengono testati rispetto all'albero decisionale dalla radice al nodo foglia. Gli alberi decisionali sono popolari in quanto non richiedono alcuna conoscenza del dominio. Questi possono rappresentare dati multidimensionali. Gli alberi decisionali possono essere facilmente convertiti in regole di classificazione.
Applicazione: Gli alberi decisionali sono costruiti in medicina, produzione, produzione, astronomia, ecc. Un esempio può essere visto di seguito:
# 5) Classificazione di Bayes
La classificazione bayesiana è un altro metodo di analisi della classificazione. I classificatori Bayes prevedono la probabilità che una data tupla appartenga a una particolare classe. Si basa sul teorema di Bayes, che si basa sulla teoria della probabilità e della decisione.
La classificazione di Bayes lavora sulla probabilità a posteriori e sulla probabilità a priori per il processo decisionale. Per probabilità a posteriori, l'ipotesi è composta dalle informazioni fornite, cioè i valori degli attributi sono noti, mentre per la probabilità a priori, le ipotesi sono date indipendentemente dai valori degli attributi.
# 6) Analisi di clustering
È una tecnica per partizionare un insieme di dati in cluster o gruppi di oggetti. Il clustering viene eseguito utilizzando algoritmi. È un tipo di apprendimento non supervisionato poiché le informazioni sull'etichetta non sono note. I metodi di clustering identificano i dati simili o diversi tra loro e viene eseguita l'analisi delle caratteristiche.
L'analisi dei cluster può essere utilizzata come fase preliminare per l'applicazione di vari altri algoritmi come la caratterizzazione, la selezione di sottoinsiemi di attributi, ecc. L'analisi dei cluster può essere utilizzata anche per il rilevamento dei valori anomali, come gli acquisti elevati nelle transazioni con carta di credito.
Applicazioni: Riconoscimento delle immagini, ricerca sul Web e sicurezza.
# 7) Rilevamento dei valori anomali
Il processo di ricerca di oggetti di dati che possiedono un comportamento eccezionale rispetto agli altri oggetti è chiamato rilevamento dei valori anomali. Il rilevamento dei valori anomali e l'analisi dei cluster sono correlati tra loro. I metodi anomali sono classificati in statistici, basati sulla prossimità, basati su cluster e basati sulla classificazione.
Esistono diversi tipi di valori anomali, alcuni di essi sono:
- Valore anomalo globale: L'oggetto dati ha deviato in modo significativo dal resto del set di dati.
- Valori anomali contestuali: Dipende da alcuni fattori come giorno, ora e luogo. Se un oggetto dati devia in modo significativo con riferimento a un contesto.
- Valori anomali collettivi: Quando un gruppo di oggetti dati ha un comportamento diverso dall'intero set di dati.
Applicazione: Rilevamento dei rischi di frode con carta di credito, rilevamento di novità, ecc.
# 8) Pattern sequenziali
Una tendenza o alcuni modelli coerenti vengono riconosciuti in questo tipo di data mining. La comprensione del comportamento di acquisto dei clienti e dei modelli sequenziali vengono utilizzati dai negozi per mostrare i loro prodotti sugli scaffali.
Applicazione: Esempio di e-commerce in cui quando acquisti l'articolo A, verrà mostrato che l'articolo B viene spesso acquistato con l'articolo A guardando la cronologia degli acquisti passati.
# 9) Analisi di regressione
Questo tipo di analisi è supervisionato e identifica quali set di elementi tra le diverse relazioni sono correlati o indipendenti l'uno dall'altro. Può prevedere le vendite, i profitti, la temperatura, prevedere il comportamento umano, ecc. Ha un valore impostato di dati che è già noto.
Quando viene fornito un input, l'algoritmo di regressione confronterà l'input e il valore previsto e l'errore viene calcolato per ottenere il risultato accurato.
Applicazione: Confronto tra attività di marketing e sviluppo prodotto.
Principali algoritmi di data mining
Le tecniche di data mining vengono applicate tramite gli algoritmi sottostanti. Questi algoritmi vengono eseguiti sul software di estrazione dei dati e vengono applicati in base alle esigenze aziendali.
Alcuni degli algoritmi ampiamente utilizzati dalle organizzazioni per analizzare i set di dati sono definiti di seguito:
la migliore app gratuita per scaricare musica per Android
- K-significa: È una tecnica di analisi dei cluster popolare in cui un gruppo di elementi simili è raggruppato insieme.
- Algoritmo Apriori: È una tecnica di mining di set di elementi frequente e le regole di associazione vengono applicate ad essa sui database transazionali. Rileverà i set di elementi frequenti ed evidenzierà le tendenze generali.
- K Vicino più vicino: Questo metodo viene utilizzato per la classificazione e l'analisi di regressione. Il k vicino più vicino è l'apprendimento pigro dove memorizza i dati di addestramento e quando arrivano nuovi dati senza etichetta, classificherà i dati di input.
- Navi Bayes: Si tratta di un gruppo di semplici algoritmi di classificazione probabilistica che presumono che le caratteristiche di ogni oggetto dati siano indipendenti dall'altra. È un'applicazione del teorema di Bayes.
- AdaBoost: È un meta-algoritmo di apprendimento automatico, utilizzato per migliorare le prestazioni. Adaboost è sensibile ai dati rumorosi e ai valori anomali.
Metodi di estrazione dei dati
Di seguito vengono illustrati alcuni metodi avanzati di data mining per la gestione di tipi di dati complessi.
I dati nel mondo di oggi sono di vari tipi che vanno da dati semplici a dati complessi. Per estrarre tipi di dati complessi, come dati di serie temporali, multidimensionali, spaziali e multimediali, sono necessari algoritmi e tecniche avanzati.
Alcuni di loro sono descritti di seguito:
- CLIC: È stato il primo metodo di clustering a trovare i cluster in un sottospazio multidimensionale.
- P3C: È un noto metodo di clustering per dati multidimensionali da moderati ad alti.
- LAGO: È un metodo basato su k-means mirato a raggruppare i dati di dimensionalità da moderata ad alta. L'algoritmo partiziona i dati in k set disgiunti di elementi, rimuovendo i possibili valori anomali.
- BIGODINO: È un algoritmo di clustering di correlazione, individua correlazioni sia lineari che non lineari.
I migliori strumenti di data mining
Gli strumenti di data mining sono software utilizzati per estrarre i dati. Gli strumenti eseguono algoritmi nel back-end. Questi strumenti sono disponibili sul mercato come open source, software libero e versione con licenza.
Alcuni degli strumenti di estrazione dei dati includono:
# 1) RapidMiner
RapidMiner è una piattaforma software open source per i team di analisi che unisce preparazione dei dati, apprendimento automatico e distribuzione di modelli predittivi. Questo strumento viene utilizzato per condurre analisi di data mining e creare modelli di dati. Dispone di set di grandi dimensioni per algoritmi di classificazione, cluster, estrazione di regole di associazione e regressione.
# 2) Arancione
È uno strumento open source contenente la visualizzazione dei dati e il pacchetto di analisi. Orange può essere importato in qualsiasi ambiente Python funzionante. È adatto per nuovi ricercatori e piccoli progetti.
# 3) LINGUA
KEEL (Knowledge Extraction based on Evolutionary Learning) è un open-source ( GPLv3 ) Strumento software Java che può essere utilizzato per un gran numero di diverse attività di rilevamento dei dati della conoscenza.
# 4) SPSS
IBM SPSS Modeler è un'applicazione software di data mining e analisi del testo di IBM. Viene utilizzato per costruire modelli predittivi e condurre altre attività analitiche.
# 5) KNIME
È uno strumento gratuito e open source contenente pacchetto di pulizia e analisi dei dati, algoritmi specializzati nelle aree di Sentiment Analysis e Social Network Analysis. KNIME può integrare dati da varie fonti nella stessa analisi. Ha un'interfaccia con Java, Python e R Programming.
Domanda importante: in che modo la classificazione è diversa dalla previsione?
La classificazione è un raggruppamento di dati. Un esempio di classificazione è il raggruppamento in base al gruppo di età, alle condizioni mediche, ecc. Mentre la previsione deriva un risultato utilizzando i dati classificati.
Un esempio di Predictive Analysis prevede gli interessi in base al gruppo di età, il trattamento per una condizione medica. La previsione è anche nota come stima per valori continui.
Termine importante: data mining predittivo
Il data mining predittivo viene eseguito per prevedere o prevedere determinate tendenze dei dati utilizzando la business intelligence e altri dati. Aiuta le aziende a disporre di analisi migliori e a prendere decisioni migliori. L'analisi predittiva è spesso combinata con il data mining predittivo.
Il Predictive Data Mining rileva i dati rilevanti per l'analisi. L'analisi predittiva utilizza i dati per prevedere il risultato.
Conclusione
In questo tutorial, abbiamo discusso le varie tecniche di data mining che possono aiutare le organizzazioni e le aziende a trovare le informazioni più utili e pertinenti. Queste informazioni vengono utilizzate per creare modelli in grado di prevedere il comportamento dei clienti affinché le aziende possano agire su di esso.
Leggendo tutte le suddette informazioni sulle tecniche di data mining, si può determinare ancora meglio la sua credibilità e fattibilità. Le tecniche di estrazione dei dati includono l'utilizzo dei dati, la riformattazione dei dati, la ristrutturazione dei dati. Il formato delle informazioni necessarie si basa sulla tecnica e sull'analisi da eseguire.
Infine, tutte le tecniche, i metodi e i sistemi di data mining aiutano nella scoperta di nuove innovazioni creative.
Tutorial PREV | PROSSIMO Tutorial
Lettura consigliata
- Data mining: processo, tecniche e problemi principali nell'analisi dei dati
- I 10 migliori strumenti di modellazione dati per gestire progetti complessi
- I 15 migliori strumenti gratuiti per il data mining: l'elenco più completo
- 10+ migliori strumenti di raccolta dati con strategie di raccolta dati
- I 10 migliori strumenti di progettazione di database per creare modelli di dati complessi
- Oltre 10 migliori strumenti di governance dei dati per soddisfare le tue esigenze di dati nel 2021
- Data mining vs machine learning vs intelligenza artificiale vs deep learning
- I 14 MIGLIORI strumenti di gestione dei dati dei test nel 2021