41일차 간단한 회고

Vscode와 제공된 서버 연결

이전 PStage에서도 고생하면서 vscode와 서버연결을 했었는데 이번에도 같은 이유로 고생했습니다.

그냥 된다고 넘어갔던 과거 때문에 시간 소모가 심했습니다. 그 때 조금만 신경썼으면 지금 편했겠죠.

이런 점을 깨닳고 서버 연결에 대해 이해한 바를 간략히 정리합니다.

Remote 확장 파일을 설치하고 vscode에서 새 ssh 호스트 추가를 선택합니다. 이 행위는 config 파일을 보다 쉽게 채우는 방식입니다. ssh -i key위치 사용자이름(root)@ssh주소 -p 포트번호를 입력하면 config 파일에 필요한 정보를 자동으로 입력해줍니다.

이후 vscode에서 remote ssh 연결을 누르면 해당하는 ssh 주소가 나옵니다.

한 가지 한계는 발급받은 key 파일과 제대로 연동되지 않았습니다. 때문에 내가 해당 서버의 소유주임을 인정받지 못했고 직접 서버에 접속해 비밀번호를 만든 뒤 비밀번호로 접속하고 있습니다.

1일차 PStage 회고

오늘 컨디션이 좋지 않아 생각보다 생산적인 일을 하진 못했습니다. 오전엔 서버 연결을 했고 오후에는 강의듣고 정말 간단하게 데이터가 어떻게 생겼는지 살펴봤습니다.

DKT에 대해 처음 배웠는데 KT는 지식상태를 추정한다는 의미이고 D는 딥러닝을 이용한다는 의미 입니다.

지식상태 추정이란 특정 사람의 시험 문제 채점 결과를 활용해 어느 부분이 강점이 있고 약점이 있는지를 알아내는 것 인데요. 이전에도 어느 유형의 문제인지 사람이 정의하고 맞추면 어느 분야 능력이 있는지 나타내는 것은 많았습니다. 어느 유형의 문제인지 정의하는 것을 사람 대신 딥러닝에게 맞긴 셈이죠.

이후에 AUC 판단 지표나 간단한 EDA는 어느정도 자신 있어서 빨리 수강하고 데이터를 직접 살펴봤습니다.

assessmentItemID 변수 이외에 전처리할 영역이 많지 않다는 점과 전반적인 데이터 테이블 구조, 그리고 근본적으로 Test 데이터가 어떻게 이루어 졌는지 확인했습니다.

U+ 대회 회고

특별히 성과를 얻진 못했는데요. 내일 미팅 전 아침에 다시 볼 예정입니다.

몇 가지 배운점은 단순한 MF 모형을 구현 중인데 초기값을 평균이 0인 정규분포로 준다면 ‘-‘값이 나올 경우가 매우 큰데 MF 모형 임베딩 벡터는 ‘-‘값이 나오는 순간 정말 어지러워 집니다.

다음으로 네거티브 데이터 생성 방식입니다. 모델을 정밀 관찰해보니 아이템이 많이 소모된 경우 임베딩 값이 1에 가깝거나 1보다 크고 아이템이 많이 소모되지 않은 경우 0에 가깝거나 0보다 작은 마이너스 값을 가진 경우도 생깁니다.

유저 기반으로 네거티브 아이템을 매칭 시키는 기존 베이스라인 코드로는 그냥 인기있는 아이템을 많이 추천하는 방식으로 학습되겠구나 생각했습니다.

성과를 내진 못했지만 추천모델 이해도가 높아진 느낌입니다. 앞으로 낼 성과의 밑바탕이 될 수도 있겠죠.

실제 데이터를 만저보고 모델 파라미터를 눈으로 관찰 하며 직관을 얻은 뒤 유명한 추천 모델 논문을 읽는 것도 좋은 공부 방법이겠다는 생각이 들었습니다.

느낀점

새로운 팀이 구성 되었습니다. 어제 만나긴 했지만 처음으로 피어세션을 함께하니 조금 어색했어요.

그래도 내 설명을 경청해주고 여러가지로 질문 해줘서 좋았습니다.

앞으로 부캠 수료할 때 까지 같이 갈 동료들이고 이미 친한 사람들 사이에 처음 낀 입장인데 너무 신경쓰지 않고 천천히 친해지면 될 것 같아요. 잘은 모르지만 좋은 사람들이라고 생각합니다.

추천시스템 모델 다루면 다룰수록 재밌습니다. 내일은 컨디션이 좋아져서 베이스라인 모델 잘 이해하는 시간이 됬으면 좋겠습니다.