https://colab.research.google.com/drive/1Blbu052BcjPHzRwA54YbBxFL6eK1IoMr?usp=sharing
교차 검증을 그림으로 설명하세요.
※ 코랩 환경에서 내장된 사이킷런 버전과 XGBoost 버전 호환 문제로 사이킷런 버전을 하향 조정해서 실습을 진행했습니다. (https://wp.me/P6W2qc-8y5 - 정오표 129번)
설 연휴를 틈타 여유있게 공부를 했다. 평소보다 긴장의 끈을 느슨하게 했는지, 내용이 좀 다른 장보다 난도가 높아졌는지 공부한 시간이 조금 많아졌다. 아무튼 머신러닝 모델에서 사용하는 트리 알고리즘에 관해 조금 더 알게되는 시간이었다. (의사)결정나무를 중심으로 발전한 랜덤포레스트 등의 앙상블 알고리즘을 접해보고 성능 차이를 체감할 수 있었다.
물론 알고리즘의 하이퍼파라미터는 모델을 사용하는 이의 몫임에 따라 그리드 서치나 랜덤 서치를 활용도 필요하는 점을 알게 되었다. 또한 이러한 하이퍼파라미터에 대한 성능을 확인하려면 학습/평가할 데이터가 다양해야 되기에 이러한 점을 기술적으로 극복하고자 교차 검증을 통한 검증 (데이터)셋을 둔다는 점이 예전에 공부했을 때 잘 와닿지 않았는데, 그림과 자세한 설명을 통해 조금은 이해할 수 있는 시간이지 않았을까 싶다.
지도 학습에 이어 비지도 학습에 대해 공부하게 될텐데, 이 역시 이름만 들어봤지 뭔지 구체적으로는 알지 못한다. 남은 2주간 내용을 계속 공부하면서 머신러닝과 딥러닝에 대해 계속 공부할 수 있는 시간으로 이어졌으면 좋겠다.
PS. 회귀에 대한 부분도 ChatGPT를 통해 조금씩 실습해 보긴 했는데 분류에 비해 고려해야 할 점이 많아서 그런가 생각보다 점수가 나오지 않는 듯하다. 이러한 것도 향상될 수 있는 무언가가 앞으로도 등장하지 않을까? 이런 생각도 해본다.