weka tutorial how download
Questo tutorial WEKA spiega cos'è lo strumento Weka Machine Learning, le sue funzionalità e come scaricare, installare e utilizzare il software Weka Machine Learning:
Nel Tutorial precedente , abbiamo imparato a conoscere Support Vector Machine in ML e concetti associati come Hyperplane, Support Vectors & Applications of SVM.
L'apprendimento automatico è un campo della scienza in cui le macchine agiscono come un sistema artificialmente intelligente. Le macchine possono apprendere da sole senza richiedere alcuna codifica esplicita. È un processo iterativo che accede ai dati, apprende da solo e prevede il risultato. Per eseguire attività di apprendimento automatico sono necessari molti strumenti e script.
WEKA è una piattaforma di machine learning composta da molti strumenti che facilitano molte attività di machine learning.
=> Leggi la serie completa di formazione sull'apprendimento automatico
migliore app spia mobile per iphone
Cosa imparerai:
- Cos'è WEKA
- Conclusione
Cos'è WEKA
Weka è uno strumento open source progettato e sviluppato dagli scienziati / ricercatori dell'Università di Waikato, in Nuova Zelanda. WEKA è l'acronimo di Waikato Environment for Knowledge Analysis. È sviluppato dalla comunità scientifica internazionale e distribuito con licenza GNU GPL gratuita.
WEKA è completamente sviluppato in Java. Fornisce l'integrazione con il database SQL utilizzando la connettività del database Java. Fornisce molti algoritmi di apprendimento automatico per implementare attività di data mining. Questi algoritmi possono essere utilizzati direttamente utilizzando lo strumento WEKA o possono essere utilizzati con altre applicazioni utilizzando il linguaggio di programmazione Java.
Fornisce molti strumenti per la pre-elaborazione dei dati, la classificazione, il clustering, l'analisi di regressione, la creazione di regole di associazione, l'estrazione delle caratteristiche e la visualizzazione dei dati. È uno strumento potente che supporta lo sviluppo di nuovi algoritmi nell'apprendimento automatico.
Perché utilizzare lo strumento di apprendimento automatico WEKA
Con WEKA, gli algoritmi di apprendimento automatico sono subito disponibili per gli utenti. Gli specialisti di ML possono utilizzare questi metodi per estrarre informazioni utili da grandi volumi di dati. Qui, gli specialisti possono creare un ambiente per sviluppare nuovi metodi di apprendimento automatico e implementarli su dati reali.
WEKA è utilizzato dai ricercatori di machine learning e scienze applicate per scopi di apprendimento. È uno strumento efficiente per eseguire molte attività di data mining.
Download e installazione WEKA
# 1) Scarica il software da Qui .
Controlla la configurazione del sistema informatico e scarica la versione stabile di WEKA (attualmente 3.8) da questa pagina.
#Due) Dopo il download riuscito, apri il percorso del file e fai doppio clic sul file scaricato. Apparirà la procedura guidata Step Up. Fare clic su Avanti.
# 3) Si apriranno i termini del contratto di licenza. Leggilo attentamente e fai clic su 'Accetto'.
# 4) In base alle proprie esigenze, selezionare i componenti da installare. Si consiglia l'installazione completa dei componenti. Fare clic su Avanti.
# 5) Selezionare la cartella di destinazione e fare clic su Avanti.
# 6) Quindi, inizierà l'installazione.
# 7) Se Java non è installato nel sistema, installerà prima Java.
# 8) Al termine dell'installazione, apparirà la seguente finestra. Fare clic su Avanti.
# 9) Seleziona la casella di controllo Avvia Weka. Fare clic su Fine.
# 10) Si apre la finestra WEKA Tool and Explorer.
#undici) Il manuale WEKA può essere scaricato da Qui.
Interfaccia utente grafica di WEKA
La GUI di WEKA offre cinque opzioni: Explorer, Experimenter, flusso di conoscenza, workbench e semplice CLI. Cerchiamo di capire ciascuno di questi individualmente.
# 1) CLI semplice
La CLI semplice è Weka Shell con riga di comando e output. Con 'help' è possibile visualizzare la panoramica di tutti i comandi. La CLI semplice offre l'accesso a tutte le classi come classificatori, cluster e filtri, ecc.
Alcuni dei semplici comandi della CLI sono:
- Rompere: Per interrompere il thread corrente
- Uscita: Esci dalla CLI
- Aiuto() : Restituisce la guida per il comando specificato
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: Per richiamare una classe WEKA, anteponila a Java. Questo comando indicherà a WEKA di caricare la classe e di eseguirla con i parametri dati. In questo comando viene richiamato il classificatore J48 sul set di dati IRIS.
# 2) Explorer
Le finestre di WEKA Explorer mostrano diverse schede a partire da preprocess. Inizialmente, la scheda Preelaborazione è attiva, poiché prima il set di dati viene preelaborato prima di applicarvi algoritmi ed esplorare il set di dati.
Le schede sono le seguenti:
- Pre-elaborazione: Scegli e modifica i dati caricati.
- Classificare: Applicare algoritmi di addestramento e test ai dati che classificheranno e regrediranno i dati.
- Grappolo: Formare cluster dai dati.
- Socio: Estrarre la regola di associazione per i dati.
- Seleziona attributi: Vengono applicate le misure di selezione degli attributi.
- Visualizzare: Si vede la rappresentazione 2D dei dati.
- Barra di stato: La sezione più in basso della finestra mostra la barra di stato. Questa sezione mostra cosa sta succedendo attualmente sotto forma di messaggio, ad esempio il caricamento di un file. Fare clic con il tasto destro su questo, Memoria informazione può essere visto, e anche Correre spazzatura collettore per liberare spazio può essere eseguito.
- Pulsante Log: Memorizza un registro di tutte le azioni in Weka con il timestamp. I registri vengono visualizzati in una finestra separata quando si fa clic sul pulsante Registro.
- Icona dell'uccello WEKA: Presente nell'angolo in basso a destra mostra WEKA bird con rappresenta il numero di processi in esecuzione contemporaneamente (per x.). Quando il processo è in esecuzione, l'uccello si muoverà.
# 3) Sperimentatore
Il pulsante Sperimentatore WEKA consente agli utenti di creare, eseguire e modificare diversi schemi in un esperimento su un set di dati. Lo sperimentatore ha 2 tipi di configurazione: Semplice e avanzato. Entrambe le configurazioni consentono agli utenti di eseguire esperimenti in locale e su computer remoti.
- I pulsanti 'Apri' e 'Nuovo' apriranno una nuova finestra dell'esperimento che gli utenti possono eseguire.
- Risultati: Imposta il file di destinazione dei risultati da ARFF, JDFC e file CSV.
- Tipo di esperimento: L'utente può scegliere tra la convalida incrociata e la ripartizione percentuale di training / test. L'utente può scegliere tra Classificazione e Regressione in base al set di dati e al classificatore utilizzati.
- Set di dati: L'utente può navigare e selezionare i set di dati da qui. La casella di controllo del percorso relativo viene selezionata se si lavora su macchine diverse. Il formato dei set di dati supportati è ARFF, C4.5, CSV, libsvm, bsi e XRFF.
- Iterazione: Il numero di iterazione predefinito è impostato su 10. Prima i set di dati e prima gli algoritmi aiutano a passare dal set di dati agli algoritmi in modo che gli algoritmi possano essere eseguiti su tutti i set di dati.
- Algoritmi: Nuovi algoritmi vengono aggiunti da 'New Button'. L'utente può scegliere un classificatore.
- Salva l'esperimento utilizzando il pulsante Salva.
- Esegui l'esperimento utilizzando il pulsante Esegui.
# 4) Flusso di conoscenza
Il flusso di conoscenza mostra una rappresentazione grafica degli algoritmi WEKA. L'utente può selezionare i componenti e creare un flusso di lavoro per analizzare i set di dati. I dati possono essere gestiti in batch o in modo incrementale. È possibile progettare flussi di lavoro paralleli e ciascuno verrà eseguito in un thread separato.
I diversi componenti disponibili sono Origini dati, salvataggi, filtri, classificatori, cluster, valutazione e visualizzazione.
# 5) Banco da lavoro
WEKA ha un modulo workbench che contiene tutte le GUI in una singola finestra.
Caratteristiche di WEKA Explorer
# 1) Set di dati
Un set di dati è composto da elementi. Rappresenta un oggetto per esempio: nel database di marketing, rappresenterà clienti e prodotti. I set di dati sono descritti da attributi. Il set di dati contiene tuple di dati in un database. Un set di dati ha attributi che possono essere nominali, numerici o stringa. In Weka, il set di dati è rappresentato da weka.core.Instances classe.
Rappresentazione del set di dati con 5 esempi:
@dati
soleggiato, FALSO, 85,85, n
soleggiato, VERO, 80,90, n
coperto, FALSO, 83,86, sì
piovoso, FALSO, 70,96, sì
piovoso, FALSO, 68,80, sì
Cos'è un attributo?
Un attributo è un campo dati che rappresenta la caratteristica di un oggetto dati. Per esempio, in un database clienti, gli attributi saranno customer_id, customer_email, customer_address, ecc. Gli attributi hanno tipi diversi.
Questi possibili tipi sono:
A) Attributi nominali: Attributo che si riferisce a un nome e ha valori predefiniti come colore, tempo atmosferico. Questi attributi sono chiamati attributi categoriali . Questi attributi non hanno alcun ordine e i loro valori sono anche chiamati enumerazioni.
@attribute outlook {soleggiato, coperto, piovoso}: dichiarazione dell'attributo nominale.
B) Attributi binari: Questi attributi rappresentano solo i valori 0 e 1. Questi sono il tipo di attributi nominali con solo 2 categorie. Questi attributi sono anche chiamati booleani.
C) Attributi ordinali: Gli attributi che conservano un certo ordine o rango tra di loro sono attributi ordinali. I valori successivi non possono essere previsti ma viene mantenuto solo l'ordine. Esempio: dimensione, grado, ecc.
D) Attributi numerici: Gli attributi che rappresentano quantità misurabili sono attributi numerici. Questi sono rappresentati da numeri reali o interi. Esempio: temperatura, umidità.
@ attributo umidità reale: dichiarazione di un attributo numerico
E) Attributi stringa: Questi attributi rappresentano un elenco di caratteri rappresentati tra virgolette doppie.
# 2) Formato dati ARFF
WEKA lavora sul file ARFF per l'analisi dei dati. ARFF sta per Attribute Relation File Format. Ha 3 sezioni: relazione, attributi e dati. Ogni sezione inizia con '@'.
I file ARFF accettano attributi di dati nominali, numerici, stringa, data e relazionali. Alcuni dei noti set di dati di machine learning sono presenti in WEKA come ARFF.
Il formato per ARFF è:
@relazione
@attributo
@dati
Un esempio di un file ARFF è:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) Formato dati XRFF
XRFF sta per l'attributo XML Relation File Format. Rappresenta i dati che possono memorizzare commenti, attributi e pesi delle istanze. Ha estensione .xrff e estensione file .xrff.gz (formato compresso). I file XRFF rappresentavano i dati in formato XML.
# 4) Connettività al database
Con WEKA, è facile connettersi a un database utilizzando un driver JDBC. Il driver JDBC è necessario per connettersi al database, esempio:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Oracolo (oracle.jdbc.driver.OracleDriver)
# 5) Classificatori
Per prevedere i dati di output, WEKA contiene classificatori. Gli algoritmi di classificazione disponibili per l'apprendimento sono alberi decisionali, macchine vettoriali di supporto, classificatori basati su istanze, regressione logistica e reti bayesiane. A seconda del requisito utilizzando prove e test, l'utente può trovare un algoritmo adatto per l'analisi dei dati. I classificatori vengono utilizzati per classificare i set di dati in base alle caratteristiche degli attributi.
# 6) Clustering
WEKA utilizza la scheda Cluster per prevedere le somiglianze nel set di dati. In base al clustering, l'utente può scoprire gli attributi utili per l'analisi e ignorare altri attributi. Gli algoritmi disponibili per il clustering in WEKA sono k-means, EM, Cobweb, X-means e FarhtestFirst.
# 7) Associazione
L'unico algoritmo disponibile in WEKA per scoprire le regole di associazione è Apriori.
# 8) Misure della sezione degli attributi
WEKA utilizza 2 approcci per la migliore selezione degli attributi a scopo di calcolo:
- Utilizzando l'algoritmo del metodo di ricerca: Algoritmo migliore, selezione in avanti, casuale, esaustivo, genetico e algoritmo di classificazione.
- Utilizzo degli algoritmi del metodo di valutazione: Basato sulla correlazione, wrapper, guadagno di informazioni, chi quadrato.
# 9) Visualizzazione
WEKA supporta la rappresentazione 2D di dati, visualizzazioni 3D con rotazione e rappresentazione 1D di un singolo attributo. Ha l'opzione 'Jitter' per attributi nominali e punti dati 'nascosti'.
Altre caratteristiche principali di WEKA sono:
- Si tratta di uno strumento open source con interfaccia utente grafica sotto forma di 'Explorer', 'Experimenter' e 'Knowledge Flow'.
- È indipendente dalla piattaforma.
- Contiene 49 strumenti di pre-elaborazione dei dati.
- In WEKA sono presenti 76 algoritmi di classificazione e regressione, 8 algoritmi di clustering
- Dispone di 15 algoritmi di selezione degli attributi e 10 algoritmi di selezione delle caratteristiche.
- Dispone di 3 algoritmi per trovare la regola di associazione.
- Utilizzando WEKA, gli utenti possono sviluppare codice personalizzato per l'apprendimento automatico.
Conclusione
In questo tutorial WEKA, abbiamo fornito un'introduzione al software di apprendimento automatico WEKA open source e spiegato il processo di download e installazione passo passo. Abbiamo anche visto le cinque opzioni disponibili per l'interfaccia utente grafica di Weka, vale a dire Explorer, Experimenter, Knowledge flow, Workbench e Simple CLI.
Abbiamo anche imparato a conoscere le caratteristiche di WEKA con esempi. Le funzionalità includono dataset, formato dati ARFF, connettività database, ecc.
=> Visita qui per l'esclusiva serie di machine learning
Lettura consigliata
- Set di dati WEKA, classificatore e algoritmo J48 per albero decisionale
- WEKA Explorer: visualizzazione, raggruppamento, estrazione di regole di associazione
- 11 strumenti software di machine learning più popolari nel 2021
- Una guida completa alla rete neurale artificiale nell'apprendimento automatico
- Data mining vs machine learning vs intelligenza artificiale vs deep learning
- Tutorial sull'apprendimento automatico: introduzione al machine learning e alle sue applicazioni
- Le 13 migliori società di machine learning (elenco aggiornato 2021)
- Cos'è Support Vector Machine (SVM) nel machine learning