Scikit-learn의 Iris dataset과 RandomForestClassifier를 사용해 구현한 모델입니다.
- feature(분류 기준): 꽃받침(sepal) 길이, 꽃받침 넓이, 꽃잎(petal) 길이, 꽃잎 넓이
- targets(분류되는 결과): setosa=0, versicolor=1, virginica=2
- 총 150개 데이터
code 폴더에 있는 각 파일들에 대한 설명은 아래와 같습니다.
- Simple RF model: 전체 데이터를 사용해서 만든 model에 대해 sample_data를 사용해서 Iris specied 예측을 한다.
- Advanced RF model: train : test = 7 : 3으로 만든 데이터로 학습한 modeld을 사용해 predict species from sample_data를 한다.
- FeatureControlled RF model-threshold: 2번의 코드에서 발전시킨 코드로 threshold 이상의 중요도 값을 가지는 feature만을 사용하여 model을 만든다.
- FeatureControlled RF model-topSelect: 3번과 비슷하지만 feature의 중요도를 구한 후 상위 몇개만 사용하여 model을 만드는 차이가 있다.
모든 코드는 python IDLE를 통해 실행하거나 cmd로 >python fileName.py
이런식으로 실행하면 된다.
cf. Window cmd에서 띄어쓰기가 있는 파일명은 >python "file name.py"
이렇게 쓰면 된다.
- Simple RF model
- Advanced RF model
- FeatureControlled RF model-threshold
- FeatureControlled RF model-topSelect
Random Forest model이나 코드에 대한 더 자세한 설명이 필요하다면 Here를 참고하면 됩니다.