Skip to content

Customer Segmentation in Airlines Using Unsupervised K-Means Modeling

Notifications You must be signed in to change notification settings

Juliana9417/Airlines_Data_Clustering

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Β 

History

20 Commits
Β 
Β 
Β 
Β 
Β 
Β 

Repository files navigation

Airline Customer Value Analysis Case


πŸ“‚ Stage 0 : Problem Statement

An airline company is striving to identify customer characteristics through a comprehensive analysis of flight data. Based on the results of this analysis, the company will manage and segment customers more effectively. Through this segmentation, the company can provide services and offers tailored to each customer segment, with the goal of optimizing the airline business and enhancing overall customer satisfaction.



πŸ“‚ Stage 1 : Exploratory Data Analysis

Dataset

Tabel 1 – Informasi Data

data

Descriptive Statistics

Tabel 2 – Data Deskriptif Numerikal

data deskriptif numerikal


Tabel 3 – Data Deskriptive Kategori

data deskriptif kategori


Insight Data Deskriptif :

  1. Dataset terdiri dari 22 kolom dan 62,988 baris.
  2. Terdapat nilai null pada 7 kolom.
  3. Tidak terdapat duplikat pada data. <br
  4. MEMBER_NO dan avg_discount memiliki distribusi normal, sedangkan kolom lainnya menunjukkan distribusi positive skewed (Mean > Median). <br
  5. Terdapat anomali pada kolom AGE dengan maksimal usia 110 tahun.
  6. GENDER didominasi oleh Male/laki-laki sebanyak 48,134.<br
  7. WORK_COUNTRY didominasi oleh CN (Cina), WORK_PROVINCE terbanyak adalah Guangdong, dan WORK_CITY terbanyak adalah Guangzhou.
  8. Kolom FFP_DATE,FIRST_FLIGHT_DATE,LOAD_TIME,LAST_FLIGHT_DATE seharusnya tipe datanya adalah DateTime bukan Object.
  9. Terdapat terlalu banyak unique values pada fitur kategorikal WORK_CITY, WORK_PROVINCE, dan WORK_COUNTRY sehingga kemungkinan fitur-fitur ini bukan kandidat yang baik untuk clstering.


Univariate Analisis :

displot numerikal Gambar 1 – Displot Numerikal


violin numerikal Gambar 2 – Violin Numerikal


### Insight : 1. MEMBER_NO memiliki unique values sebanyak jumlah baris sehingga kolom ini tidak akan dipakai selanjutnya.
2. Distribusi pada kolom FFP_TIER mengindikasikan bahwa fitur ini merupakan fitur kategorikal.
3. Kolom AGE dan avg_discount emmiliki distribusi data yang normal, sedangkan kolom lainya yang belum disebutkan diatas terlihat memiliki distribusi positive skewed.

work kategori

Gambar 3 - Region Work


flight date

Gambar 4 - Flight Date


### Insight : 1. Member mayoritas bekerja di CN (China), di provinsi Guang Dong, dan kota GuangZhou.
1. Pada FIRST_FLIGHT_DATE terdapat value yang sangat jauh berbeda dengan values lainya yaitu tahun 1905.
2. Total pendaftaran member terbanyak ada di tahun 2012.
3. Penerbangan pertama dari member airlines juga ada di tahun 2012.

Multivariate Analisis :

multivariate

Gambar 5 - Multivariate Numerikal


### Insight : ### Insights:
1. FFP_TIER memiliki korelasi positif kuat dengan Points_Sum, SEG_KM_SUM, SUM_YR_2, BP_SUM, dan FLIGHT_COUNT.
2. AGE tidak memiliki korelasi kuat dengan fitur apapun.
3. FLIGHT_COUNT memiliki korelasi positive kuat dengan Points_Sum, EXCHANGE_COUNT, SEG_KM_SUM, SUM_YR_1, SUM_YR_2, dan BP_SUM.
4. Terdapat kemungkinan redundansi antara BP_SUM dengan Points_Sum dan SEG_KM_SUM. BP_SUM memiliki korelasi positive kuat dengan EXCHANGE_COUNT, SUM_YR_1, dan SUM_YR_2.
5. SUM_YR_1 memiliki korelasi positive kuat dengan Points_Sum, SEG_KM_SUM, dan SUM_YR_2.
6. SUM_YR_2 memiliki korelasi positive kuat dengan Points_Sum, dan SEG_KM_SUM.
7. SEG_KM_SUM memiliki korelasi positif kuat dengan Points_Sum dan EXCHANGE_COUNT.
8. AVG_INTERVAL memiliki korelasi positif kuat dengan MAX_INTERVAL.
8. EXCHANGE_COUNT memiliki korelasi positif kuat dengan Points_Sum.

<

πŸ“‚ Stage 2 : Data Pre-Processing


1. Missing Value

missing value

Gambar 6- Handling missing values



2. Feature Engineering

feature engineering

Gambar 7 - Feature Engineering



3. Feature Selection

Tujuan utama dalam mengklasifikasikan pelanggan berdasarkan karakteristik mereka dalam beberapa dimensi yang penting bagi bisnis untuk memahami dan mengelola interaksi dengan pelanggan. Dari landasan tersebut, berikut fitur yang dipilih untuk clustering:

a. Fitur "LOYALTY" merepresentasikan Lenght: Jangka waktu keanggotaan pelanggan dari pertama kali mendaftar hingga periode observasi (semakin lama pelanggan menjadi anggota berarti pelanggan "loyal" atau semakin baik).
b. Fitur "AVG_INTERVAL" merepresentasikan interval: Jangka waktu antara penerbangan (semakin kecil berarti pelanggan baru saja melakukan penerbangan, oleh karena itu semakin kecil semakin baik).
c. Fitur "FLIGHT_COUNT" merepresentasikan Frequency: Jumlah penerbangan pelanggan dalam periode observasi (semakin besar semakin baik yang berarti pelanggan sering melakukan penerbangan).
d. Fitur "SEG_KM_SUM" merepresentasikan jarak tempuh: Jumlah jarak yang ditempuh selama periode observasi (semakin jauh jarak tempuhnya maka akan semakin besar biaya yang dibayarkan oleh customer).



4. Handling Outliers
Fitur 'FLIGHT_COUNT', 'SEG_KM_SUM', dan 'AVG_INTERVAL' terlihat memiliki outliers akan ditangani dengan metode IQR.

handling outlier

Gambar 8 - Handling Outlier


5. Standardization

standardization

Gambar 9 - Handling Outlier


πŸ“‚ Stage 3 : Modelling

Elbow Method

Elbow

Gambar 10 - Elbow Method


Dari Elbow graph diatas terlihat bahwa setelah titik ke 4 (k=5), pengurangan inertia mulai kurang signifikan.
Oleh karena itu, k = 5 menjadi titik optimal untuk pengelompokan berdasarkan analisis diatas.

K-Means Clustering

kmeans

Gambar 11 - Kmeans Clustering


Principal Component Analysis (PCA)

pca

Gambar 12 - Principal Component Analysis (PCA)


Berdasarkan hasil PCA :
1. Terdapat titik-titik dari kelas yang berbeda terpisah dengan jelas di plot, ini menunjukkan bahwa model dapat membedakan kelas-kelas tersebut dengan baik.
2. Titik yang berdekatan menunjukkan kemiripan antara observasi, sedangkan titik yang jauh menunjukkan perbedaan signifikan antara observasi.

Customer Count and Observe the Value of Feature in Cluster

total customer

Gambar 13 - Total Customer per Cluster


clustering

Gambar 14 - Value of Feature in each Cluster

Business Insight and Recomendations:


  1. Cluster 0 (Inexperienced Flyers):

    • Pelanggan dalam cluster ini adalah anggota baru dari program maskapai.
    • Mereka belum melakukan banyak penerbangan, meskipun interval rata-rata antar penerbangan mereka singkat.
    • Pelanggan dalam cluster ini mungkin termasuk individu yang baru mulai menjelajahi atau menggunakan layanan penerbangan, seperti mahasiswa atau orang-orang yang baru memulai karir profesional.
  2. Cluster 1 (Rare Flyers):

    • Pelanggan dalam cluster ini sudah menjadi anggota lebih lama daripada Cluster 0, namun jumlah penerbangan dan jarak yang mereka tempuh masih sedikit.
    • Interval rata-rata antar penerbangan mereka paling tinggi di antara cluster lainnya, menunjukkan bahwa mereka jarang melakukan penerbangan.
    • Pelanggan dalam cluster ini mungkin terdiri dari individu yang hanya melakukan perjalanan pribadi atau liburan jangka panjang yang jarang terbang, atau mereka yang memilih untuk menggunakan moda transportasi lain.
  3. Cluster 2 (Infrequent Flyers):

    • Pelanggan dalam cluster ini merupakan yang paling lama menjadi anggota dibandingkan dengan cluster lainnya.
    • Meskipun durasi keanggotaannya lama, mereka masih melakukan penerbangan dengan jumlah dan jarak yang tergolong sedikit.
    • Interval rata-rata antar penerbangan mereka moderat, menunjukkan bahwa mereka melakukan perjalanan secara sporadis atau hanya pada kesempatan tertentu.
    • Pelanggan dalam cluster ini mungkin terdiri dari individu yang lebih memilih untuk bepergian hanya pada waktu-waktu khusus, seperti liburan tahunan atau perjalanan bisnis yang jarang.
  4. Cluster 3 (Regular Flyers):

    • Pelanggan dalam cluster ini adalah yang baru-baru ini menjadi anggota, tetapi mereka melakukan penerbangan dengan jumlah yang lebih banyak dibandingkan dengan rata-rata.
    • Total jarak yang mereka tempuh juga cukup signifikan.
    • Interval rata-rata antar penerbangan mereka moderat, menunjukkan bahwa mereka melakukan perjalanan secara teratur, mungkin untuk kepentingan bisnis atau pekerjaan.
    • Pelanggan dalam cluster ini mungkin terdiri dari pebisnis atau profesional yang melakukan perjalanan rutin untuk pertemuan bisnis atau pekerjaan.
  5. Cluster 4 (Frequent Flyers):

    • Pelanggan dalam cluster ini adalah yang paling lama menjadi anggota kedua setelah Cluster 2.
    • Mereka melakukan jumlah penerbangan dan total jarak tempuh yang paling tinggi dibandingkan dengan cluster lainnya.
    • Interval rata-rata antar penerbangan mereka singkat, menunjukkan bahwa mereka sering melakukan perjalanan udara.
    • Pelanggan dalam cluster ini mungkin terdiri dari eksekutif bisnis yang sering melakukan perjalanan internasional atau nasional, atau mungkin pelancong yang sering bepergian untuk liburan atau kegiatan rekreasi lainnya.

Rekomendasi Bisnis untuk Setiap Cluster:

  1. Cluster 0 (Inexperienced Flyers):

    • Rekomendasi Bisnis: Berikan penawaran khusus untuk memikat pelanggan baru, seperti diskon untuk penerbangan pertama mereka atau poin bonus saat mendaftar. Fokuskan pada layanan yang mudah dipahami dan jangan terlalu rumit karena mereka baru mengenal layanan penerbangan.
  2. Cluster 1 (Rare Flyers):

    • Rekomendasi Bisnis: Tawarkan paket liburan jangka panjang atau promosi spesial untuk destinasi tertentu yang jarang dikunjungi. Berikan fleksibilitas dalam reservasi dan penawaran istimewa untuk meningkatkan minat mereka dalam bepergian lebih sering.
  3. Cluster 2 (Infrequent Flyers):

    • Rekomendasi Bisnis: Buat program loyalitas yang menarik dengan poin atau penghargaan yang dapat dikumpulkan dari setiap penerbangan. Tawarkan paket liburan atau kebijakan fleksibel yang memungkinkan mereka merencanakan perjalanan jangka panjang atau liburan secara efektif.
  4. Cluster 3 (Regular Flyers):

    • Rekomendasi Bisnis: Fokuskan pada layanan premium dan keuntungan bisnis yang cepat, seperti akses prioritas, lounge bandara eksklusif, atau pelayanan pelanggan yang unggul. Tawarkan program loyalitas yang memberikan nilai tambah dan kenyamanan bagi pelanggan yang sering melakukan perjalanan.
  5. Cluster 4 (Frequent Flyers):

    • Rekomendasi Bisnis: Tingkatkan layanan eksklusif untuk pelanggan yang sering terbang, seperti upgrade otomatis, akses lounge VIP global, atau kesempatan eksklusif untuk pengalaman perjalanan yang lebih mewah. Tawarkan kebijakan fleksibel yang mengakomodasi perjalanan sering mereka.

Sumber

Caruana, R. & Niculescu-Mizil, A., 2006. An empirical comparison of supervised learning algorithms. Proceedings of the 23rd International Conference on Machine Learning, pp.161-168. doi: 10.1145/1143844.1143865.
Powers, D. M., 2011. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. [online] Available at: https://doi.org/10.48550/arXiv.2010.16061 [Accessed 16 July 2024].