weka explorer visualization
Questo tutorial spiega come eseguire la visualizzazione dei dati, l'analisi dei cluster K-means e l'estrazione delle regole di associazione utilizzando WEKA Explorer:
Nel Tutorial precedente , abbiamo appreso di WEKA Dataset, Classifier e J48 Algorithm for Decision Tree.
Come abbiamo visto prima, WEKA è uno strumento di data mining open source utilizzato da molti ricercatori e studenti per eseguire molte attività di apprendimento automatico. Gli utenti possono anche creare i propri metodi di apprendimento automatico ed eseguire esperimenti su set di dati di esempio forniti nella directory WEKA.
La visualizzazione dei dati in WEKA può essere eseguita utilizzando set di dati di esempio o set di dati creati dall'utente in formato .arff, .csv.
=> Leggi la serie completa di formazione sull'apprendimento automatico
L'estrazione delle regole di associazione viene eseguita utilizzando l'algoritmo Apriori. È l'unico algoritmo fornito da WEKA per eseguire frequenti pattern mining.
Ci sono molti algoritmi presenti in WEKA per eseguire l'analisi dei cluster come FartherestFirst, FilteredCluster e HierachicalCluster, ecc. Di questi, useremo SimpleKmeans, che è il metodo più semplice di clustering.
Cosa imparerai:
- Estrazione di regole di associazione con WEKA Explorer
- Algoritmo K-means utilizzando WEKA Explorer
- Implementare la visualizzazione dei dati utilizzando WEKA
- Conclusione
Estrazione di regole di associazione con WEKA Explorer
Vediamo come implementare Association Rule Mining utilizzando WEKA Explorer.
Mining delle regole di associazione
È stato sviluppato e progettato da Srikant e Aggarwal nel 1994. Ci aiuta a trovare schemi nei dati. È un processo di data mining che trova funzionalità che si verificano insieme o funzionalità correlate.
java programmazione intervista domande e risposte per esperti
Le applicazioni delle regole di associazione includono l'analisi del paniere di mercato, per analizzare gli articoli acquistati in un unico paniere; Cross Marketing, per lavorare con altre aziende che aumentano il valore del nostro prodotto aziendale come concessionario di veicoli e compagnia petrolifera.
Le regole di associazione vengono estratte dopo che vengono trovati set di elementi frequenti in un set di dati di grandi dimensioni. Questi set di dati vengono rilevati utilizzando algoritmi di mining come Apriori e FP Growth. Il mining frequente di Itemset estrae i dati utilizzando misure di supporto e affidabilità.
Supporto e fiducia
Supporto misura la probabilità che due articoli vengano acquistati insieme in un'unica transazione, come il pane e il burro. Fiducia è una misura che indica la probabilità che due articoli vengano acquistati uno dopo l'altro ma non insieme, come il software antivirus per laptop e computer.
Si presume che il supporto della soglia minima e i valori di confidenza della soglia minima consentano di eliminare le transazioni e individuare l'insieme di elementi che si verifica più di frequente.
Implementazione tramite WEKA Explorer
WEKA contiene un'implementazione di Algoritmo Apriori per l'apprendimento delle regole dell'associazione. Apriori funziona solo con attributi binari, dati categoriali (dati nominali) quindi, se il set di dati contiene valori numerici, convertirli prima in nominali.
Apriori rileva tutte le regole con supporto minimo e soglia di fiducia.
Segui i passaggi seguenti:
# 1) Prepara un set di dati di file Excel e chiamalo come ' apriori.csv '.
#Due) Apri WEKA Explorer e nella scheda Preprocesso scegli il file 'apriori.csv'.
# 3) Il file viene ora caricato in WEKA Explorer.
# 4) Rimuovi il campo Transazione selezionando la casella di controllo e facendo clic su Rimuovi come mostrato nell'immagine sottostante. Ora salva il file come 'aprioritest.arff'.
# 5) Vai alla scheda Associato. Le regole apriori possono essere estratte da qui.
# 6) Fare clic su Scegli per impostare i parametri di supporto e affidabilità. I vari parametri che possono essere impostati qui sono:
- ' lowerBoundMinSupport ' e ' upperBoundMinSupport ', Questo è l'intervallo del livello di supporto in cui funzionerà il nostro algoritmo.
- Delta è l'incremento del supporto. In questo caso, 0,05 è l'incremento del supporto da 0,1 a 1.
- metricType può essere 'Fiducia', 'Sollevamento', 'Leva finanziaria' e 'Convinzione'. Questo ci dice come classifichiamo le regole dell'associazione. In generale, viene scelta la fiducia.
- numRules indica il numero di regole di associazione da minare. Per impostazione predefinita, è impostato su 10.
- significanceLevel descrive qual è il significato del livello di fiducia.
# 7) La casella di testo accanto al pulsante di scelta mostra il ' Apriori-N-10-T-0-C-0.9-D 0.05-U1.0-M0.1-S-1.0-c-1 ', Che descrive le regole riepilogate impostate per l'algoritmo nella scheda delle impostazioni.
# 8) Fare clic sul pulsante Start. Le regole di associazione vengono generate nel pannello di destra. Questo pannello è composto da 2 sezioni. Il primo è l'algoritmo, il set di dati scelto per l'esecuzione. La seconda parte mostra le informazioni Apriori.
Cerchiamo di capire le informazioni sulla corsa nel pannello di destra:
- Lo schema ci ha usato Apriori.
- Istanze e attributi: ha 6 istanze e 4 attributi.
- Il supporto minimo e la confidenza minima sono rispettivamente 0,4 e 0,9. Su 6 istanze, vengono trovate 2 istanze con supporto minimo,
- Il numero di cicli eseguiti per la regola dell'associazione mineraria è 12.
- I grandi set di elementi generati sono 3: L (1), L (2), L (3) ma non sono classificati in quanto le loro dimensioni sono rispettivamente 7, 11 e 5.
- Le regole trovate sono classificate. L'interpretazione di queste regole è la seguente:
- Burro T 4 => Birra F 4: significa su 6, 4 casi mostrano che per il burro vero, la birra è falsa. Questo dà una forte associazione. Il livello di fiducia è 0,1.
Produzione
Le regole di associazione possono essere estratte utilizzando WEKA Explorer con Algoritmo Apriori. Questo algoritmo può essere applicato a tutti i tipi di set di dati disponibili nella directory WEKA e ad altri set di dati creati dall'utente. Il supporto e la confidenza e altri parametri possono essere impostati utilizzando la finestra di impostazione dell'algoritmo.
Algoritmo K-means utilizzando WEKA Explorer
Vediamo come implementare l'algoritmo K-means per il clustering utilizzando WEKA Explorer.
Che cos'è l'analisi cluster
Gli algoritmi di clustering sono algoritmi di apprendimento non supervisionati utilizzati per creare gruppi di dati con caratteristiche simili. Aggrega oggetti con somiglianze in gruppi e sottogruppi portando così al partizionamento dei set di dati. L'analisi dei cluster è il processo di suddivisione dei set di dati in sottoinsiemi. Questi sottoinsiemi sono chiamati cluster e l'insieme di cluster è chiamato clustering.
Cluster Analysis viene utilizzata in molte applicazioni come il riconoscimento di immagini, il riconoscimento di modelli, la ricerca sul Web e la sicurezza, nella business intelligence come il raggruppamento di clienti con gusti simili.
Che cos'è il clustering K-means
K significa che il clustering è l'algoritmo di clustering più semplice. Nell'algoritmo di K-Clustering, il set di dati è partizionato in K-cluster. Una funzione obiettivo viene utilizzata per trovare la qualità delle partizioni in modo che oggetti simili si trovino in un cluster e oggetti dissimili in altri gruppi.
In questo metodo, si trova che il centroide di un cluster rappresenta un cluster. Il centroide viene considerato come il centro del cluster che viene calcolato come il valore medio dei punti all'interno del cluster. Ora la qualità del raggruppamento si trova misurando la distanza euclidea tra il punto e il centro. Questa distanza dovrebbe essere massima.
Come funziona l'algoritmo di clustering K-Mean
Passo 1: Scegli un valore di K dove K è il numero di cluster.
Passo 2: Itera ogni punto e assegna il gruppo che ha il centro più vicino ad esso. Quando ogni elemento viene iterato, calcola il centroide di tutti i cluster.
Passaggio 3: Itera ogni elemento dal set di dati e calcola la distanza euclidea tra il punto e il centroide di ogni cluster. Se nel cluster è presente un punto che non gli è più vicino, riassegnare quel punto al cluster più vicino e dopo aver eseguito l'operazione a tutti i punti nel set di dati, calcolare nuovamente il centroide di ciascun cluster.
Passaggio 4: Eseguire il passaggio 3 fino a quando non è stata eseguita alcuna nuova assegnazione tra le due iterazioni consecutive.
K-significa implementazione del clustering con WEKA
I passaggi per l'implementazione utilizzando Weka sono i seguenti:
# 1) Apri WEKA Explorer e fai clic su Apri file nella scheda Preprocesso. Scegli il set di dati 'vote.arff'.
#Due) Vai alla scheda 'Cluster' e fai clic sul pulsante 'Scegli'. Selezionare il metodo di clustering come 'SimpleKMeans'.
# 3) Scegli Impostazioni e imposta i seguenti campi:
- Funzione di distanza come euclidea
- Il numero di cluster è 6. Con un numero maggiore di cluster, la somma dell'errore al quadrato si ridurrà.
- Seme come 10. di
Fare clic su Ok e avviare l'algoritmo.
# 4) Fare clic su Start nel pannello di sinistra. L'algoritmo mostra i risultati sullo schermo bianco. Analizziamo le informazioni sulla corsa:
- Schema, relazione, istanze e attributi descrivono la proprietà del set di dati e il metodo di clustering utilizzato. In questo caso, il dataset di vote.arff ha 435 istanze e 13 attributi.
- Con l'ammasso Kmeans, il numero di iterazioni è 5.
- La somma dell'errore al quadrato è 1098,0. Questo errore si ridurrà con un aumento del numero di cluster.
- I 5 cluster finali con centroidi sono rappresentati sotto forma di tabella. Nel nostro caso, i Centroidi dei cluster sono 168.0, 47.0, 37.0, 122.0.33.0 e 28.0.
- Le istanze cluster rappresentano il numero e la percentuale delle istanze totali che rientrano nel cluster.
# 5) Scegliere 'Classes to Clusters Evaluations' e fare clic su Start.
L'algoritmo assegnerà l'etichetta della classe al cluster. Il cluster 0 rappresenta repubblicano e il cluster 3 rappresenta democratico. L'istanza cluster non corretta è del 39,77%, che può essere ridotta ignorando gli attributi non importanti.
# 6) Per ignorare gli attributi non importanti. Fare clic sul pulsante 'Ignora attributi' e selezionare gli attributi da rimuovere.
# 7) Utilizzare la scheda 'Visualizza' per visualizzare il risultato dell'algoritmo di clustering. Vai alla scheda e fai clic su qualsiasi casella. Sposta il jitter al massimo.
- L'asse X e l'asse Y rappresentano l'attributo.
- Il colore blu rappresenta l'etichetta di classe democratico e il colore rosso rappresenta l'etichetta di classe repubblicano.
- Il jitter viene utilizzato per visualizzare i cluster.
- Fare clic sulla casella sul lato destro della finestra per modificare l'attributo della coordinata x e visualizzare il raggruppamento rispetto ad altri attributi.
Produzione
K significa che il clustering è un semplice metodo di analisi dei cluster. Il numero di cluster può essere impostato utilizzando la scheda di impostazione. Il centroide di ogni cluster viene calcolato come la media di tutti i punti all'interno dei cluster. Con l'aumento del numero di cluster, la somma degli errori quadrati si riduce. Gli oggetti all'interno del cluster presentano caratteristiche e proprietà simili. I cluster rappresentano le etichette della classe.
Implementare la visualizzazione dei dati utilizzando WEKA
Visualizzazione dati
Il metodo di rappresentazione dei dati attraverso grafici e diagrammi con l'obiettivo di comprendere chiaramente i dati è la visualizzazione dei dati.
Esistono molti modi per rappresentare i dati. Alcuni di loro sono i seguenti:
# 1) Visualizzazione orientata ai pixel: Qui il colore del pixel rappresenta il valore della dimensione. Il colore del pixel rappresenta i valori corrispondenti.
# 2) Rappresentazione geometrica: I dataset multidimensionali sono rappresentati in grafici a dispersione 2D, 3D e 4D.
# 3) Visualizzazione basata su icone: I dati sono rappresentati utilizzando i volti e le figure stilizzate di Chernoff. I volti di Chernoff usano la capacità della mente umana di riconoscere le caratteristiche facciali e le differenze tra loro. La figura stilizzata utilizza 5 figure stilizzate per rappresentare dati multidimensionali.
# 4) Visualizzazione gerarchica dei dati: I set di dati vengono rappresentati utilizzando le mappe ad albero. Rappresenta i dati gerarchici come un insieme di triangoli nidificati.
Visualizzazione dei dati tramite WEKA Explorer
La visualizzazione dei dati tramite WEKA viene eseguita sul set di dati IRIS.arff.
I passaggi coinvolti sono i seguenti:
# 1) Vai alla scheda Preprocesso e apri il set di dati IRIS.arff.
miglior software per copiare dvd in mp4
#Due) Il set di dati ha 4 attributi e 1 etichetta di classe. Gli attributi in questo set di dati sono:
- Sepallength: Digitare -numeric
- Larghezza sepale: Tipo- numerico
- Petalength: Tipo-numerico
- Larghezza petalo: Tipo-numerico
- Classe: Tipo nominale
# 3) Per visualizzare il set di dati, vai alla scheda Visualizza. La scheda mostra la matrice del grafico degli attributi. Gli attributi del set di dati sono contrassegnati sull'asse xe sull'asse y mentre le istanze vengono tracciate. La casella con l'attributo dell'asse x e l'attributo dell'asse y può essere ingrandita.
# 4) Clicca sulla casella della trama per ingrandirla. Per esempio, x: lunghezza petalo e y: larghezza petalo. Le etichette delle classi sono rappresentate in diversi colori.
- Etichetta di classe - Iris-setosa: colore blu
- Etichetta di classe - Iris-versicolor: rosso
- Etichetta di classe-Iris-virginica-verde
Questi colori possono essere modificati. Per cambiare il colore, fai clic sull'etichetta della classe in basso, apparirà una finestra a colori.
# 5) Fare clic sull'istanza rappresentata da 'x' nel grafico. Fornirà i dettagli dell'istanza. Per esempio:
- Numero istanza: 91
- Sepalength: 5.5
- Larghezza sepale: 2.6
- Petalength: 4.4
- Larghezza petalo: 1.2
- Classe: Iris-versicolor
Alcuni punti del grafico appaiono più scuri di altri punti. Questi punti rappresentano 2 o più istanze con la stessa etichetta di classe e lo stesso valore di attributi tracciati sul grafico come la larghezza del petalo e la lunghezza del petalo.
La figura seguente rappresenta un punto con 2 informazioni sull'istanza.
# 6) Gli attributi degli assi X e Y possono essere modificati dal pannello di destra in Visualizza grafico. L'utente può visualizzare diversi grafici.
# 7) Il Jitter viene utilizzato per aggiungere casualità alla trama. A volte i punti si sovrappongono. Con il jitter, le macchie più scure rappresentano più istanze.
# 8) Per ottenere una visualizzazione più chiara del set di dati e rimuovere i valori anomali, l'utente può selezionare un'istanza dal menu a discesa. Fare clic sul menu a discesa 'seleziona istanza'. Scegli 'Rettangolo'. Con questo, l'utente sarà in grado di selezionare punti nel grafico tracciando un rettangolo.
# 9) Fare clic su 'Invia'. Verranno visualizzati solo i punti del dataset selezionati e gli altri punti verranno esclusi dal grafico.
La figura seguente mostra i punti dalla forma rettangolare selezionata. Il grafico rappresenta i punti con solo 3 etichette di classe. L'utente può fare clic su 'Salva' per salvare il set di dati o su 'Ripristina' per selezionare un'altra istanza. Il set di dati verrà salvato in un file .ARFF separato.
Produzione:
La visualizzazione dei dati tramite WEKA è semplificata con l'aiuto del box plot. L'utente può visualizzare qualsiasi livello di granularità. Gli attributi vengono tracciati sull'asse X e sull'asse y mentre le istanze vengono tracciate rispetto agli assi X e Y. Alcuni punti rappresentano più istanze che sono rappresentate da punti con colore scuro.
Conclusione
WEKA è uno strumento di data mining efficiente per eseguire molte attività di data mining e per sperimentare nuovi metodi su set di dati. WEKA è stato sviluppato dal Dipartimento di Informatica, Università di Waikato in Nuova Zelanda.
Il mondo di oggi è sommerso dai dati che vanno dalla spesa al supermercato alle telecamere di sicurezza a casa nostra. Il data mining utilizza questi dati grezzi, li converte in informazioni per fare previsioni. WEKA con l'aiuto dell'algoritmo Apriori aiuta nelle regole di associazione mineraria nel set di dati. Apriori è un algoritmo di pattern mining frequente che conta il numero di occorrenze di un set di elementi nella transazione.
Cluster Analysis è una tecnica per scoprire cluster di dati che rappresentano caratteristiche simili. WEKA fornisce molti algoritmi per eseguire l'analisi dei cluster, di cui i simplekmeans sono molto utilizzati.
La visualizzazione dei dati in WEKA può essere eseguita su tutti i set di dati nella directory WEKA. Il set di dati non elaborato può essere visualizzato così come altri set di dati risultanti di altri algoritmi come la classificazione, il raggruppamento e l'associazione possono essere visualizzati utilizzando WEKA.
=> Visita qui per l'esclusiva serie di machine learning
Lettura consigliata
- Tutorial Weka - Come scaricare, installare e utilizzare lo strumento Weka
- Set di dati WEKA, classificatore e algoritmo J48 per albero decisionale
- 15 MIGLIORI strumenti e software per la visualizzazione dei dati nel 2021
- Tutorial D3.js - Framework di visualizzazione dei dati per principianti
- Tutorial sulla visualizzazione dei dati D3.js - Forme, grafici, animazioni
- 7 Principi di test del software: clustering dei difetti e principio di Pareto
- Data mining: processo, tecniche e problemi principali nell'analisi dei dati
- Tecniche di data mining: algoritmi, metodi e principali strumenti di data mining