43일차 간단한 회고

드디어 리더보드가 열리는 날입니다. 빠르게 코딩해서 일찍 제출하려 했으나 아침에 사정상 조금 늦게 시작해 10시 제출은 실패했습니다. 그래도 11시쯤 간단한 모델로 제도권 안에 안착했습니다.

valid와 test간 약간의 성능 차이가 나긴 하지만 심한 정도는 아닙니다. 시계열 자료이기 때문에 test와 동일한 환경을 구축하기 쉽지 않기 때문에 만족하는 수준입니다. 물론 새로운 아이디어를 계속 생각해야겠죠.

스케줄이 다소 많았고 모델 코드와 EDA 코드를 남들이 읽기 좋게 다듬느라 진행이 많이 되진 않았습니다.

사실 EDA나 간단한 모델 쓰는 것은 이미 익숙한 일이라 많이 성장했다는 느낌이 크게 들진 않네요. 그래도 대회 기간 많이 남았으니 부족한 부분 회피하지 말고 맞서 싸웠으면 좋겠습니다.

내일 U+ 대회에서도 LightGCN 모델을 사용해보기 위해 오늘 베이스라인을 전반적으로 리뷰했습니다. 주석도 열심히 달았는데 다른 팀원들 편하게 이해하도록 도와준다는 장점도 있지만 저도 볼때마다 까먹어서 표시 잘해놓으면 좋겠다고 생각 들어서 신경써서 달았습니다.

피어세션 시간에 사용한 모델, 간단한 EDA, 베이스라인 구성 소개(모델보단 데이터 전처리 부분 위주로)를 발표했습니다. 설명이 빠르거나 서투르진 않았는지, 다른 팀원분들 다 이해했는지는 아직 어색해서 잘 모르겠네요. 그래도 질문 하시는 내용이 어느정도 인지한 것 같고 한분은 제 모델을 업그레이드 해주셨습니다.

Level2 시작 전에 팀 마인드 셋을 한 일을 팀원 모두에게 공유하자는 얘기를 한 적이 있는데 잘 지켜지고 있는 것 같고 실제 리더보드 성과로도 나타나서 좋았습니다.

피어세션 이후 LightGCN의 pred 값이 너무 작은 바운더리에서 튀어서(확률이 0.49~0.51 사이로) 무엇이 문제인지 고민했는데 생각보다 가볍게 해결했습니다. 내일 팀원들에게 공유할 예정입니다.

다만 LightGCN 성능이 valid와 test간 성능 차이가 크게 나는데(test 점수가 낮진 않습니다.) 베이스라인 코드 내 valid가 test와 다른 환경으로 정의됬다는 것을 발견했습니다.

일단 이번주 목표입니다.

  • 사용한 모델 베이스라인과 같이 .py 형식으로 바꾸기.
  • LightGCN valid 값 조정하기.
  • Sequential 모델 pred 값 이상하게 나오는 원인 찾기.
  • 팀원 발표 열심히 듣고 피드백하기 + 더 공부해보기.
  • U+ 대회 모델링하기(내일 몰입할 예정.)

제 힘은 아니지만 AUC가 0.8을 넘었습니다. 지난 대회 최고점수를 첫 날에 꽤 많이 따라갔습니다!!

팀원들과 함께 이 페이스를 잘 유지하면 이번 대회도 좋은 성적을 낼 수 있지 않을까 조심스럽게 기대해봅니다.