Ασκήσεις σε μεθόδους Μηχανικής Μάθησης μέσω του διαγωνισμού “Titanic: Machine Learning From Disaster” που φιλοξενείται στην πλατφόρμα kaggle, χρησιμοποιώντας το Weka.
Το περιεχόμενο των εργασιών βρίσκεται μαζί με σχολιασμό στο αρχείο Report-greek.pdf.
Οι ασκήσεις έγιναν στο πλαίσιο εργασίας του μαθήματος "Τεχνητή Νοημοσύνη".
- Ποια μεταβλητή έχει το μεγαλύτερο αριθμό ελλιπών τιμών και πόσες είναι αυτές;
- Ποιες από τις μεταβλητές είναι συνεχείς και ποιες κατηγορικές;
- Η μεταβλητή που θέλουμε να προβλέψουμε είναι η “survived”. Να εφαρμόσετε τρεις αλγορίθμους
ταξινόμησης:
- Logistic Regression (στο WEKA: Logistic).
- Dec. Trees (στο WEKA: J48).
- KNN (στο WEKA ΙΒk) με Κ=10.
- Τι ποσοστό των παραδειγμάτων ταξινομείται σωστά σε κάθε περίπτωση;
- Να αξιολογήσετε την επίδοση τους καταγράφοντας τη μετρική ακρίβειας accuracy (ονομάζεται
Correctly Classified Instances στο Weka) για τον κάθε αλγόριθμο με 2 τρόπους:
- Με percentage split 66%.
- Με 10-cross validation.
- Ποιον από τους 3 αλγορίθμους θα επιλέγατε για πρόβλεψη σε άγνωστα δεδομένα και γιατί;
- Προαιρετικά πειραματιστείτε με επιπλέον αλγορίθμους ταξινόμησης και καταγράψτε την ακρίβειά τους με χρήση 10-fold cross-validation.
- Με ποιον αλγόριθμο πετύχατε τη μεγαλύτερη ακρίβεια;
- Χρησιμοποιείστε το φίλτρο ReplaceMissingValues για αντικατάσταση των ελλιπών τιμών και επαναλάβετε το βήμα 4. Υπήρξε βελτίωση της ακρίβειας των ταξινομητών;
- Προαιρετικά μπορείτε να χρησιμοποιήσετε το μοντέλο σας για πρόβλεψη της μεταβλητής survived στο test-set και να υποβάλετε τις προβλέψεις σας στο kaggle (μετά από κατάλληλη επεξεργασία ώστε η μορφή τους να είναι αποδεκτή).
- Να εκτελέσετε τον αλγόριθμο k-Means για k=3. Καταγράψτε το μέγεθος της κάθε ομάδας.
- Προσοχή στην εξαρτημένη μεταβλητή survived!.
- Χρειάζεται;
- Αν όχι να την αφαιρέσετε.
Εφαρμόστε τον αλγόριθμο Apriori για να βρείτε τους 5 κανόνες με τη μεγαλύτερη εμπιστοσύνη (confidence) που έχουν υποστήριξη (support) ≥ 0.1.