An airline company is striving to identify customer characteristics through a comprehensive analysis of flight data. Based on the results of this analysis, the company will manage and segment customers more effectively. Through this segmentation, the company can provide services and offers tailored to each customer segment, with the goal of optimizing the airline business and enhancing overall customer satisfaction.
Tabel 1 β Informasi Data
Tabel 2 β Data Deskriptif Numerikal
Tabel 3 β Data Deskriptive Kategori
- Dataset terdiri dari 22 kolom dan 62,988 baris.
- Terdapat nilai null pada 7 kolom.
- Tidak terdapat duplikat pada data. <br
- MEMBER_NO dan avg_discount memiliki distribusi normal, sedangkan kolom lainnya menunjukkan distribusi positive skewed (Mean > Median). <br
- Terdapat anomali pada kolom AGE dengan maksimal usia 110 tahun.
- GENDER didominasi oleh Male/laki-laki sebanyak 48,134.<br
- WORK_COUNTRY didominasi oleh CN (Cina), WORK_PROVINCE terbanyak adalah Guangdong, dan WORK_CITY terbanyak adalah Guangzhou.
- Kolom FFP_DATE,FIRST_FLIGHT_DATE,LOAD_TIME,LAST_FLIGHT_DATE seharusnya tipe datanya adalah DateTime bukan Object.
- Terdapat terlalu banyak unique values pada fitur kategorikal WORK_CITY, WORK_PROVINCE, dan WORK_COUNTRY sehingga kemungkinan fitur-fitur ini bukan kandidat yang baik untuk clstering.
Gambar 1 β Displot Numerikal
### Insight : 1. MEMBER_NO memiliki unique values sebanyak jumlah baris sehingga kolom ini tidak akan dipakai selanjutnya.
2. Distribusi pada kolom FFP_TIER mengindikasikan bahwa fitur ini merupakan fitur kategorikal.
3. Kolom AGE dan avg_discount emmiliki distribusi data yang normal, sedangkan kolom lainya yang belum disebutkan diatas terlihat memiliki distribusi positive skewed.
Gambar 3 - Region Work
Gambar 4 - Flight Date
### Insight : 1. Member mayoritas bekerja di CN (China), di provinsi Guang Dong, dan kota GuangZhou.
1. Pada FIRST_FLIGHT_DATE terdapat value yang sangat jauh berbeda dengan values lainya yaitu tahun 1905.
2. Total pendaftaran member terbanyak ada di tahun 2012.
3. Penerbangan pertama dari member airlines juga ada di tahun 2012.
Gambar 5 - Multivariate Numerikal
### Insight : ### Insights:
1. FFP_TIER memiliki korelasi positif kuat dengan Points_Sum, SEG_KM_SUM, SUM_YR_2, BP_SUM, dan FLIGHT_COUNT.
2. AGE tidak memiliki korelasi kuat dengan fitur apapun.
3. FLIGHT_COUNT memiliki korelasi positive kuat dengan Points_Sum, EXCHANGE_COUNT, SEG_KM_SUM, SUM_YR_1, SUM_YR_2, dan BP_SUM.
4. Terdapat kemungkinan redundansi antara BP_SUM dengan Points_Sum dan SEG_KM_SUM. BP_SUM memiliki korelasi positive kuat dengan EXCHANGE_COUNT, SUM_YR_1, dan SUM_YR_2.
5. SUM_YR_1 memiliki korelasi positive kuat dengan Points_Sum, SEG_KM_SUM, dan SUM_YR_2.
6. SUM_YR_2 memiliki korelasi positive kuat dengan Points_Sum, dan SEG_KM_SUM.
7. SEG_KM_SUM memiliki korelasi positif kuat dengan Points_Sum dan EXCHANGE_COUNT.
8. AVG_INTERVAL memiliki korelasi positif kuat dengan MAX_INTERVAL.
8. EXCHANGE_COUNT memiliki korelasi positif kuat dengan Points_Sum.
<
1. Missing Value
Gambar 6- Handling missing values
2. Feature Engineering
Gambar 7 - Feature Engineering
3. Feature Selection
Tujuan utama dalam mengklasifikasikan pelanggan berdasarkan karakteristik mereka dalam beberapa dimensi yang penting bagi bisnis untuk memahami dan mengelola interaksi dengan pelanggan. Dari landasan tersebut, berikut fitur yang dipilih untuk clustering:
a. Fitur "LOYALTY" merepresentasikan Lenght: Jangka waktu keanggotaan pelanggan dari pertama kali mendaftar hingga periode observasi (semakin lama pelanggan menjadi anggota berarti pelanggan "loyal" atau semakin baik).
b. Fitur "AVG_INTERVAL" merepresentasikan interval: Jangka waktu antara penerbangan (semakin kecil berarti pelanggan baru saja melakukan penerbangan, oleh karena itu semakin kecil semakin baik).
c. Fitur "FLIGHT_COUNT" merepresentasikan Frequency: Jumlah penerbangan pelanggan dalam periode observasi (semakin besar semakin baik yang berarti pelanggan sering melakukan penerbangan).
d. Fitur "SEG_KM_SUM" merepresentasikan jarak tempuh: Jumlah jarak yang ditempuh selama periode observasi (semakin jauh jarak tempuhnya maka akan semakin besar biaya yang dibayarkan oleh customer).
4. Handling Outliers
Fitur 'FLIGHT_COUNT', 'SEG_KM_SUM', dan 'AVG_INTERVAL' terlihat memiliki outliers akan ditangani dengan metode IQR.
Gambar 8 - Handling Outlier
5. Standardization
Gambar 9 - Handling Outlier
Gambar 10 - Elbow Method
Dari Elbow graph diatas terlihat bahwa setelah titik ke 4 (k=5), pengurangan inertia mulai kurang signifikan.
Oleh karena itu, k = 5 menjadi titik optimal untuk pengelompokan berdasarkan analisis diatas.
Gambar 11 - Kmeans Clustering
Gambar 12 - Principal Component Analysis (PCA)
Berdasarkan hasil PCA :
1. Terdapat titik-titik dari kelas yang berbeda terpisah dengan jelas di plot, ini menunjukkan bahwa model dapat membedakan kelas-kelas tersebut dengan baik.
2. Titik yang berdekatan menunjukkan kemiripan antara observasi, sedangkan titik yang jauh menunjukkan perbedaan signifikan antara observasi.
Gambar 13 - Total Customer per Cluster
Gambar 14 - Value of Feature in each Cluster
-
Cluster 0 (Inexperienced Flyers):
- Pelanggan dalam cluster ini adalah anggota baru dari program maskapai.
- Mereka belum melakukan banyak penerbangan, meskipun interval rata-rata antar penerbangan mereka singkat.
- Pelanggan dalam cluster ini mungkin termasuk individu yang baru mulai menjelajahi atau menggunakan layanan penerbangan, seperti mahasiswa atau orang-orang yang baru memulai karir profesional.
-
Cluster 1 (Rare Flyers):
- Pelanggan dalam cluster ini sudah menjadi anggota lebih lama daripada Cluster 0, namun jumlah penerbangan dan jarak yang mereka tempuh masih sedikit.
- Interval rata-rata antar penerbangan mereka paling tinggi di antara cluster lainnya, menunjukkan bahwa mereka jarang melakukan penerbangan.
- Pelanggan dalam cluster ini mungkin terdiri dari individu yang hanya melakukan perjalanan pribadi atau liburan jangka panjang yang jarang terbang, atau mereka yang memilih untuk menggunakan moda transportasi lain.
-
Cluster 2 (Infrequent Flyers):
- Pelanggan dalam cluster ini merupakan yang paling lama menjadi anggota dibandingkan dengan cluster lainnya.
- Meskipun durasi keanggotaannya lama, mereka masih melakukan penerbangan dengan jumlah dan jarak yang tergolong sedikit.
- Interval rata-rata antar penerbangan mereka moderat, menunjukkan bahwa mereka melakukan perjalanan secara sporadis atau hanya pada kesempatan tertentu.
- Pelanggan dalam cluster ini mungkin terdiri dari individu yang lebih memilih untuk bepergian hanya pada waktu-waktu khusus, seperti liburan tahunan atau perjalanan bisnis yang jarang.
-
Cluster 3 (Regular Flyers):
- Pelanggan dalam cluster ini adalah yang baru-baru ini menjadi anggota, tetapi mereka melakukan penerbangan dengan jumlah yang lebih banyak dibandingkan dengan rata-rata.
- Total jarak yang mereka tempuh juga cukup signifikan.
- Interval rata-rata antar penerbangan mereka moderat, menunjukkan bahwa mereka melakukan perjalanan secara teratur, mungkin untuk kepentingan bisnis atau pekerjaan.
- Pelanggan dalam cluster ini mungkin terdiri dari pebisnis atau profesional yang melakukan perjalanan rutin untuk pertemuan bisnis atau pekerjaan.
-
Cluster 4 (Frequent Flyers):
- Pelanggan dalam cluster ini adalah yang paling lama menjadi anggota kedua setelah Cluster 2.
- Mereka melakukan jumlah penerbangan dan total jarak tempuh yang paling tinggi dibandingkan dengan cluster lainnya.
- Interval rata-rata antar penerbangan mereka singkat, menunjukkan bahwa mereka sering melakukan perjalanan udara.
- Pelanggan dalam cluster ini mungkin terdiri dari eksekutif bisnis yang sering melakukan perjalanan internasional atau nasional, atau mungkin pelancong yang sering bepergian untuk liburan atau kegiatan rekreasi lainnya.
-
Cluster 0 (Inexperienced Flyers):
- Rekomendasi Bisnis: Berikan penawaran khusus untuk memikat pelanggan baru, seperti diskon untuk penerbangan pertama mereka atau poin bonus saat mendaftar. Fokuskan pada layanan yang mudah dipahami dan jangan terlalu rumit karena mereka baru mengenal layanan penerbangan.
-
Cluster 1 (Rare Flyers):
- Rekomendasi Bisnis: Tawarkan paket liburan jangka panjang atau promosi spesial untuk destinasi tertentu yang jarang dikunjungi. Berikan fleksibilitas dalam reservasi dan penawaran istimewa untuk meningkatkan minat mereka dalam bepergian lebih sering.
-
Cluster 2 (Infrequent Flyers):
- Rekomendasi Bisnis: Buat program loyalitas yang menarik dengan poin atau penghargaan yang dapat dikumpulkan dari setiap penerbangan. Tawarkan paket liburan atau kebijakan fleksibel yang memungkinkan mereka merencanakan perjalanan jangka panjang atau liburan secara efektif.
-
Cluster 3 (Regular Flyers):
- Rekomendasi Bisnis: Fokuskan pada layanan premium dan keuntungan bisnis yang cepat, seperti akses prioritas, lounge bandara eksklusif, atau pelayanan pelanggan yang unggul. Tawarkan program loyalitas yang memberikan nilai tambah dan kenyamanan bagi pelanggan yang sering melakukan perjalanan.
-
Cluster 4 (Frequent Flyers):
- Rekomendasi Bisnis: Tingkatkan layanan eksklusif untuk pelanggan yang sering terbang, seperti upgrade otomatis, akses lounge VIP global, atau kesempatan eksklusif untuk pengalaman perjalanan yang lebih mewah. Tawarkan kebijakan fleksibel yang mengakomodasi perjalanan sering mereka.
Caruana, R. & Niculescu-Mizil, A., 2006. An empirical comparison of supervised learning algorithms. Proceedings of the 23rd International Conference on Machine Learning, pp.161-168. doi: 10.1145/1143844.1143865.
Powers, D. M., 2011. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. [online] Available at: https://doi.org/10.48550/arXiv.2010.16061 [Accessed 16 July 2024].