WEKA Explorer: visualizzazione, raggruppamento, estrazione di regole di associazione

weka explorer visualization

Prova Il Nostro Strumento Per Eliminare I Problemi

Seleziona Il Sistema Operativo Scegli Un Programma Di Proiezione (Facoltativamente)

Descrivi Il Tuo Problema

Questo tutorial spiega come eseguire la visualizzazione dei dati, l'analisi dei cluster K-means e l'estrazione delle regole di associazione utilizzando WEKA Explorer:

Nel Tutorial precedente , abbiamo appreso di WEKA Dataset, Classifier e J48 Algorithm for Decision Tree.

Come abbiamo visto prima, WEKA è uno strumento di data mining open source utilizzato da molti ricercatori e studenti per eseguire molte attività di apprendimento automatico. Gli utenti possono anche creare i propri metodi di apprendimento automatico ed eseguire esperimenti su set di dati di esempio forniti nella directory WEKA.

La visualizzazione dei dati in WEKA può essere eseguita utilizzando set di dati di esempio o set di dati creati dall'utente in formato .arff, .csv.

=> Leggi la serie completa di formazione sull'apprendimento automatico

WEKA Explorer

L'estrazione delle regole di associazione viene eseguita utilizzando l'algoritmo Apriori. È l'unico algoritmo fornito da WEKA per eseguire frequenti pattern mining.

Ci sono molti algoritmi presenti in WEKA per eseguire l'analisi dei cluster come FartherestFirst, FilteredCluster e HierachicalCluster, ecc. Di questi, useremo SimpleKmeans, che è il metodo più semplice di clustering.

Cosa imparerai:

Estrazione di regole di associazione con WEKA Explorer
Algoritmo K-means utilizzando WEKA Explorer
Implementare la visualizzazione dei dati utilizzando WEKA
- Visualizzazione dati
- Visualizzazione dei dati tramite WEKA Explorer
Conclusione
- Lettura consigliata

Estrazione di regole di associazione con WEKA Explorer

Vediamo come implementare Association Rule Mining utilizzando WEKA Explorer.

Mining delle regole di associazione

È stato sviluppato e progettato da Srikant e Aggarwal nel 1994. Ci aiuta a trovare schemi nei dati. È un processo di data mining che trova funzionalità che si verificano insieme o funzionalità correlate.

java programmazione intervista domande e risposte per esperti

Le applicazioni delle regole di associazione includono l'analisi del paniere di mercato, per analizzare gli articoli acquistati in un unico paniere; Cross Marketing, per lavorare con altre aziende che aumentano il valore del nostro prodotto aziendale come concessionario di veicoli e compagnia petrolifera.

Le regole di associazione vengono estratte dopo che vengono trovati set di elementi frequenti in un set di dati di grandi dimensioni. Questi set di dati vengono rilevati utilizzando algoritmi di mining come Apriori e FP Growth. Il mining frequente di Itemset estrae i dati utilizzando misure di supporto e affidabilità.

Supporto e fiducia

Supporto misura la probabilità che due articoli vengano acquistati insieme in un'unica transazione, come il pane e il burro. Fiducia è una misura che indica la probabilità che due articoli vengano acquistati uno dopo l'altro ma non insieme, come il software antivirus per laptop e computer.

Si presume che il supporto della soglia minima e i valori di confidenza della soglia minima consentano di eliminare le transazioni e individuare l'insieme di elementi che si verifica più di frequente.

Implementazione tramite WEKA Explorer

WEKA contiene un'implementazione di Algoritmo Apriori per l'apprendimento delle regole dell'associazione. Apriori funziona solo con attributi binari, dati categoriali (dati nominali) quindi, se il set di dati contiene valori numerici, convertirli prima in nominali.

Apriori rileva tutte le regole con supporto minimo e soglia di fiducia.

Segui i passaggi seguenti:

# 1) Prepara un set di dati di file Excel e chiamalo come ' apriori.csv '.

file Excel

#Due) Apri WEKA Explorer e nella scheda Preprocesso scegli il file 'apriori.csv'.

Scegli il file

# 3) Il file viene ora caricato in WEKA Explorer.

File caricato

# 4) Rimuovi il campo Transazione selezionando la casella di controllo e facendo clic su Rimuovi come mostrato nell'immagine sottostante. Ora salva il file come 'aprioritest.arff'.

Rimuovi transazione

salva una priorità

# 5) Vai alla scheda Associato. Le regole apriori possono essere estratte da qui.

# 6) Fare clic su Scegli per impostare i parametri di supporto e affidabilità. I vari parametri che possono essere impostati qui sono:

' lowerBoundMinSupport ' e ' upperBoundMinSupport ', Questo è l'intervallo del livello di supporto in cui funzionerà il nostro algoritmo.
Delta è l'incremento del supporto. In questo caso, 0,05 è l'incremento del supporto da 0,1 a 1.
metricType può essere 'Fiducia', 'Sollevamento', 'Leva finanziaria' e 'Convinzione'. Questo ci dice come classifichiamo le regole dell'associazione. In generale, viene scelta la fiducia.
numRules indica il numero di regole di associazione da minare. Per impostazione predefinita, è impostato su 10.
significanceLevel descrive qual è il significato del livello di fiducia.

Parametri di supporto e fiducia

# 7) La casella di testo accanto al pulsante di scelta mostra il ' Apriori-N-10-T-0-C-0.9-D 0.05-U1.0-M0.1-S-1.0-c-1 ', Che descrive le regole riepilogate impostate per l'algoritmo nella scheda delle impostazioni.

Socio

# 8) Fare clic sul pulsante Start. Le regole di associazione vengono generate nel pannello di destra. Questo pannello è composto da 2 sezioni. Il primo è l'algoritmo, il set di dati scelto per l'esecuzione. La seconda parte mostra le informazioni Apriori.

Informazioni Apriori

Cerchiamo di capire le informazioni sulla corsa nel pannello di destra:

Lo schema ci ha usato Apriori.
Istanze e attributi: ha 6 istanze e 4 attributi.
Il supporto minimo e la confidenza minima sono rispettivamente 0,4 e 0,9. Su 6 istanze, vengono trovate 2 istanze con supporto minimo,
Il numero di cicli eseguiti per la regola dell'associazione mineraria è 12.
I grandi set di elementi generati sono 3: L (1), L (2), L (3) ma non sono classificati in quanto le loro dimensioni sono rispettivamente 7, 11 e 5.
Le regole trovate sono classificate. L'interpretazione di queste regole è la seguente:
- Burro T 4 => Birra F 4: significa su 6, 4 casi mostrano che per il burro vero, la birra è falsa. Questo dà una forte associazione. Il livello di fiducia è 0,1.

Produzione

Le regole di associazione possono essere estratte utilizzando WEKA Explorer con Algoritmo Apriori. Questo algoritmo può essere applicato a tutti i tipi di set di dati disponibili nella directory WEKA e ad altri set di dati creati dall'utente. Il supporto e la confidenza e altri parametri possono essere impostati utilizzando la finestra di impostazione dell'algoritmo.

Algoritmo K-means utilizzando WEKA Explorer

Vediamo come implementare l'algoritmo K-means per il clustering utilizzando WEKA Explorer.

Che cos'è l'analisi cluster

Gli algoritmi di clustering sono algoritmi di apprendimento non supervisionati utilizzati per creare gruppi di dati con caratteristiche simili. Aggrega oggetti con somiglianze in gruppi e sottogruppi portando così al partizionamento dei set di dati. L'analisi dei cluster è il processo di suddivisione dei set di dati in sottoinsiemi. Questi sottoinsiemi sono chiamati cluster e l'insieme di cluster è chiamato clustering.

Cluster Analysis viene utilizzata in molte applicazioni come il riconoscimento di immagini, il riconoscimento di modelli, la ricerca sul Web e la sicurezza, nella business intelligence come il raggruppamento di clienti con gusti simili.

Che cos'è il clustering K-means

K significa che il clustering è l'algoritmo di clustering più semplice. Nell'algoritmo di K-Clustering, il set di dati è partizionato in K-cluster. Una funzione obiettivo viene utilizzata per trovare la qualità delle partizioni in modo che oggetti simili si trovino in un cluster e oggetti dissimili in altri gruppi.

In questo metodo, si trova che il centroide di un cluster rappresenta un cluster. Il centroide viene considerato come il centro del cluster che viene calcolato come il valore medio dei punti all'interno del cluster. Ora la qualità del raggruppamento si trova misurando la distanza euclidea tra il punto e il centro. Questa distanza dovrebbe essere massima.

Come funziona l'algoritmo di clustering K-Mean

Passo 1: Scegli un valore di K dove K è il numero di cluster.

Passo 2: Itera ogni punto e assegna il gruppo che ha il centro più vicino ad esso. Quando ogni elemento viene iterato, calcola il centroide di tutti i cluster.

Passaggio 3: Itera ogni elemento dal set di dati e calcola la distanza euclidea tra il punto e il centroide di ogni cluster. Se nel cluster è presente un punto che non gli è più vicino, riassegnare quel punto al cluster più vicino e dopo aver eseguito l'operazione a tutti i punti nel set di dati, calcolare nuovamente il centroide di ciascun cluster.

Passaggio 4: Eseguire il passaggio 3 fino a quando non è stata eseguita alcuna nuova assegnazione tra le due iterazioni consecutive.

K-significa implementazione del clustering con WEKA

I passaggi per l'implementazione utilizzando Weka sono i seguenti:

# 1) Apri WEKA Explorer e fai clic su Apri file nella scheda Preprocesso. Scegli il set di dati 'vote.arff'.

vota.arff

#Due) Vai alla scheda 'Cluster' e fai clic sul pulsante 'Scegli'. Selezionare il metodo di clustering come 'SimpleKMeans'.

SimpleKmeans

# 3) Scegli Impostazioni e imposta i seguenti campi:

Funzione di distanza come euclidea
Il numero di cluster è 6. Con un numero maggiore di cluster, la somma dell'errore al quadrato si ridurrà.
Seme come 10. di

Fare clic su Ok e avviare l'algoritmo.

Impostazioni Kmeans

# 4) Fare clic su Start nel pannello di sinistra. L'algoritmo mostra i risultati sullo schermo bianco. Analizziamo le informazioni sulla corsa:

Schema, relazione, istanze e attributi descrivono la proprietà del set di dati e il metodo di clustering utilizzato. In questo caso, il dataset di vote.arff ha 435 istanze e 13 attributi.
Con l'ammasso Kmeans, il numero di iterazioni è 5.
La somma dell'errore al quadrato è 1098,0. Questo errore si ridurrà con un aumento del numero di cluster.
I 5 cluster finali con centroidi sono rappresentati sotto forma di tabella. Nel nostro caso, i Centroidi dei cluster sono 168.0, 47.0, 37.0, 122.0.33.0 e 28.0.
Le istanze cluster rappresentano il numero e la percentuale delle istanze totali che rientrano nel cluster.

Informazioni sulla corsa

Informazioni Kmeans

# 5) Scegliere 'Classes to Clusters Evaluations' e fare clic su Start.

L'algoritmo assegnerà l'etichetta della classe al cluster. Il cluster 0 rappresenta repubblicano e il cluster 3 rappresenta democratico. L'istanza cluster non corretta è del 39,77%, che può essere ridotta ignorando gli attributi non importanti.

Classi a valutazioni di cluster

# 6) Per ignorare gli attributi non importanti. Fare clic sul pulsante 'Ignora attributi' e selezionare gli attributi da rimuovere.

# 7) Utilizzare la scheda 'Visualizza' per visualizzare il risultato dell'algoritmo di clustering. Vai alla scheda e fai clic su qualsiasi casella. Sposta il jitter al massimo.

L'asse X e l'asse Y rappresentano l'attributo.
Il colore blu rappresenta l'etichetta di classe democratico e il colore rosso rappresenta l'etichetta di classe repubblicano.
Il jitter viene utilizzato per visualizzare i cluster.
Fare clic sulla casella sul lato destro della finestra per modificare l'attributo della coordinata x e visualizzare il raggruppamento rispetto ad altri attributi.

Classi

Produzione

K significa che il clustering è un semplice metodo di analisi dei cluster. Il numero di cluster può essere impostato utilizzando la scheda di impostazione. Il centroide di ogni cluster viene calcolato come la media di tutti i punti all'interno dei cluster. Con l'aumento del numero di cluster, la somma degli errori quadrati si riduce. Gli oggetti all'interno del cluster presentano caratteristiche e proprietà simili. I cluster rappresentano le etichette della classe.

Implementare la visualizzazione dei dati utilizzando WEKA

Visualizzazione dati

Il metodo di rappresentazione dei dati attraverso grafici e diagrammi con l'obiettivo di comprendere chiaramente i dati è la visualizzazione dei dati.

Esistono molti modi per rappresentare i dati. Alcuni di loro sono i seguenti:

# 1) Visualizzazione orientata ai pixel: Qui il colore del pixel rappresenta il valore della dimensione. Il colore del pixel rappresenta i valori corrispondenti.

PixelOriented

# 2) Rappresentazione geometrica: I dataset multidimensionali sono rappresentati in grafici a dispersione 2D, 3D e 4D.

ScatterPlot

# 3) Visualizzazione basata su icone: I dati sono rappresentati utilizzando i volti e le figure stilizzate di Chernoff. I volti di Chernoff usano la capacità della mente umana di riconoscere le caratteristiche facciali e le differenze tra loro. La figura stilizzata utilizza 5 figure stilizzate per rappresentare dati multidimensionali.

Cheronoff

# 4) Visualizzazione gerarchica dei dati: I set di dati vengono rappresentati utilizzando le mappe ad albero. Rappresenta i dati gerarchici come un insieme di triangoli nidificati.

Mappe ad albero

Visualizzazione dei dati tramite WEKA Explorer

La visualizzazione dei dati tramite WEKA viene eseguita sul set di dati IRIS.arff.

I passaggi coinvolti sono i seguenti:

# 1) Vai alla scheda Preprocesso e apri il set di dati IRIS.arff.

miglior software per copiare dvd in mp4

#Due) Il set di dati ha 4 attributi e 1 etichetta di classe. Gli attributi in questo set di dati sono:

Sepallength: Digitare -numeric
Larghezza sepale: Tipo- numerico
Petalength: Tipo-numerico
Larghezza petalo: Tipo-numerico
Classe: Tipo nominale

Visualizzazione

# 3) Per visualizzare il set di dati, vai alla scheda Visualizza. La scheda mostra la matrice del grafico degli attributi. Gli attributi del set di dati sono contrassegnati sull'asse xe sull'asse y mentre le istanze vengono tracciate. La casella con l'attributo dell'asse x e l'attributo dell'asse y può essere ingrandita.

Visualizza scheda

# 4) Clicca sulla casella della trama per ingrandirla. Per esempio, x: lunghezza petalo e y: larghezza petalo. Le etichette delle classi sono rappresentate in diversi colori.

Etichetta di classe - Iris-setosa: colore blu
Etichetta di classe - Iris-versicolor: rosso
Etichetta di classe-Iris-virginica-verde

Questi colori possono essere modificati. Per cambiare il colore, fai clic sull'etichetta della classe in basso, apparirà una finestra a colori.

Visualizza scheda

Finestra di colore

# 5) Fare clic sull'istanza rappresentata da 'x' nel grafico. Fornirà i dettagli dell'istanza. Per esempio:

Numero istanza: 91
Sepalength: 5.5
Larghezza sepale: 2.6
Petalength: 4.4
Larghezza petalo: 1.2
Classe: Iris-versicolor

Alcuni punti del grafico appaiono più scuri di altri punti. Questi punti rappresentano 2 o più istanze con la stessa etichetta di classe e lo stesso valore di attributi tracciati sul grafico come la larghezza del petalo e la lunghezza del petalo.

La figura seguente rappresenta un punto con 2 informazioni sull'istanza.

Dettagli dell

Istanze di Weka

# 6) Gli attributi degli assi X e Y possono essere modificati dal pannello di destra in Visualizza grafico. L'utente può visualizzare diversi grafici.

# 7) Il Jitter viene utilizzato per aggiungere casualità alla trama. A volte i punti si sovrappongono. Con il jitter, le macchie più scure rappresentano più istanze.

Jitter

# 8) Per ottenere una visualizzazione più chiara del set di dati e rimuovere i valori anomali, l'utente può selezionare un'istanza dal menu a discesa. Fare clic sul menu a discesa 'seleziona istanza'. Scegli 'Rettangolo'. Con questo, l'utente sarà in grado di selezionare punti nel grafico tracciando un rettangolo.

Seleziona Istanza

# 9) Fare clic su 'Invia'. Verranno visualizzati solo i punti del dataset selezionati e gli altri punti verranno esclusi dal grafico.

La figura seguente mostra i punti dalla forma rettangolare selezionata. Il grafico rappresenta i punti con solo 3 etichette di classe. L'utente può fare clic su 'Salva' per salvare il set di dati o su 'Ripristina' per selezionare un'altra istanza. Il set di dati verrà salvato in un file .ARFF separato.

Istanza rettangolare

Produzione:

La visualizzazione dei dati tramite WEKA è semplificata con l'aiuto del box plot. L'utente può visualizzare qualsiasi livello di granularità. Gli attributi vengono tracciati sull'asse X e sull'asse y mentre le istanze vengono tracciate rispetto agli assi X e Y. Alcuni punti rappresentano più istanze che sono rappresentate da punti con colore scuro.

Conclusione

WEKA è uno strumento di data mining efficiente per eseguire molte attività di data mining e per sperimentare nuovi metodi su set di dati. WEKA è stato sviluppato dal Dipartimento di Informatica, Università di Waikato in Nuova Zelanda.

Il mondo di oggi è sommerso dai dati che vanno dalla spesa al supermercato alle telecamere di sicurezza a casa nostra. Il data mining utilizza questi dati grezzi, li converte in informazioni per fare previsioni. WEKA con l'aiuto dell'algoritmo Apriori aiuta nelle regole di associazione mineraria nel set di dati. Apriori è un algoritmo di pattern mining frequente che conta il numero di occorrenze di un set di elementi nella transazione.

Cluster Analysis è una tecnica per scoprire cluster di dati che rappresentano caratteristiche simili. WEKA fornisce molti algoritmi per eseguire l'analisi dei cluster, di cui i simplekmeans sono molto utilizzati.

La visualizzazione dei dati in WEKA può essere eseguita su tutti i set di dati nella directory WEKA. Il set di dati non elaborato può essere visualizzato così come altri set di dati risultanti di altri algoritmi come la classificazione, il raggruppamento e l'associazione possono essere visualizzati utilizzando WEKA.

=> Visita qui per l'esclusiva serie di machine learning

WEKA Explorer: visualizzazione, raggruppamento, estrazione di regole di associazione

Estrazione di regole di associazione con WEKA Explorer

Mining delle regole di associazione

Supporto e fiducia

Implementazione tramite WEKA Explorer

Algoritmo K-means utilizzando WEKA Explorer

Che cos'è l'analisi cluster

Che cos'è il clustering K-means

Come funziona l'algoritmo di clustering K-Mean

K-significa implementazione del clustering con WEKA

Implementare la visualizzazione dei dati utilizzando WEKA

Visualizzazione dati

Visualizzazione dei dati tramite WEKA Explorer

Conclusione

Lettura consigliata

Articoli Interessanti

Scelta Del Redattore

Recensione: NCAA Football 12

Anarchy Reigns Achievement and Trophy Guide

Codici Roblox Neighbours (gennaio 2024)

Questo giocatore della Stardew Valley ha aperto un mercato proprio fuori da quello di Pierre

Battlefield 2042 mette in mostra più Specialisti, risponde alle critiche sulla beta aperta

Recensione: Monster Monpiece

Outriders riceve un grande aggiornamento di New Horizon questa settimana, con un nuovo sistema di trasmogrificazione e altro ancora

Come ottenere munizioni infinite nel remake di Resident Evil 4

Il Humble Bundle di questa settimana è così po-mo

Apex Legends è ora anime con l'evento Gaiden

Top 15+ importanti domande di intervista sui comandi Unix per principianti

Funimation ha portato gli anime di Sega's Sands of Destruction negli Stati Uniti