Skip to content

Ασκήσεις σε μεθόδους Μηχανικής Μάθησης μέσω του διαγωνισμού “Titanic: Machine Learning From Disaster” που φιλοξενείται στην πλατφόρμα kaggle, χρησιμοποιώντας το Weka.

Notifications You must be signed in to change notification settings

JohnBarakl/Machine-learning-exercise-on-titanic-dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Machine-learning-exercise-on-titanic-dataset

Ασκήσεις σε μεθόδους Μηχανικής Μάθησης μέσω του διαγωνισμού “Titanic: Machine Learning From Disaster” που φιλοξενείται στην πλατφόρμα kaggle, χρησιμοποιώντας το Weka.

Το περιεχόμενο των εργασιών βρίσκεται μαζί με σχολιασμό στο αρχείο Report-greek.pdf.

Οι ασκήσεις έγιναν στο πλαίσιο εργασίας του μαθήματος "Τεχνητή Νοημοσύνη".

Ζητούμενα

Άσκηση 1: Classification - Ταξινόμηση

  1. Ποια μεταβλητή έχει το μεγαλύτερο αριθμό ελλιπών τιμών και πόσες είναι αυτές;
  2. Ποιες από τις μεταβλητές είναι συνεχείς και ποιες κατηγορικές;
  3. Η μεταβλητή που θέλουμε να προβλέψουμε είναι η “survived”. Να εφαρμόσετε τρεις αλγορίθμους ταξινόμησης:
    • Logistic Regression (στο WEKA: Logistic).
    • Dec. Trees (στο WEKA: J48).
    • KNN (στο WEKA ΙΒk) με Κ=10.
  4. Τι ποσοστό των παραδειγμάτων ταξινομείται σωστά σε κάθε περίπτωση;
  5. Να αξιολογήσετε την επίδοση τους καταγράφοντας τη μετρική ακρίβειας accuracy (ονομάζεται Correctly Classified Instances στο Weka) για τον κάθε αλγόριθμο με 2 τρόπους:
    • Με percentage split 66%.
    • Με 10-cross validation.
  6. Ποιον από τους 3 αλγορίθμους θα επιλέγατε για πρόβλεψη σε άγνωστα δεδομένα και γιατί;
    • Προαιρετικά πειραματιστείτε με επιπλέον αλγορίθμους ταξινόμησης και καταγράψτε την ακρίβειά τους με χρήση 10-fold cross-validation.
    • Με ποιον αλγόριθμο πετύχατε τη μεγαλύτερη ακρίβεια;
  7. Χρησιμοποιείστε το φίλτρο ReplaceMissingValues για αντικατάσταση των ελλιπών τιμών και επαναλάβετε το βήμα 4. Υπήρξε βελτίωση της ακρίβειας των ταξινομητών;
  8. Προαιρετικά μπορείτε να χρησιμοποιήσετε το μοντέλο σας για πρόβλεψη της μεταβλητής survived στο test-set και να υποβάλετε τις προβλέψεις σας στο kaggle (μετά από κατάλληλη επεξεργασία ώστε η μορφή τους να είναι αποδεκτή).

Άσκηση 2: Clustering - Ομαδοποίηση

  • Να εκτελέσετε τον αλγόριθμο k-Means για k=3. Καταγράψτε το μέγεθος της κάθε ομάδας.
  • Προσοχή στην εξαρτημένη μεταβλητή survived!.
    • Χρειάζεται;
    • Αν όχι να την αφαιρέσετε.

Άσκηση 3: Association Rules – Κανόνες Συσχέτισης

Εφαρμόστε τον αλγόριθμο Apriori για να βρείτε τους 5 κανόνες με τη μεγαλύτερη εμπιστοσύνη (confidence) που έχουν υποστήριξη (support) ≥ 0.1.

About

Ασκήσεις σε μεθόδους Μηχανικής Μάθησης μέσω του διαγωνισμού “Titanic: Machine Learning From Disaster” που φιλοξενείται στην πλατφόρμα kaggle, χρησιμοποιώντας το Weka.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published