Kaggle 데이터 분석해 보기

MNIII
4 min readNov 10, 2020

--

캐글(Kaggle)은 빅데이터 분석 대회 플랫폼으로 2017년 구글에서 인수 하였다. 캐글은 데이터와 해결 과제를 등록하면, 누구나 해결 모델을 개발하고 경쟁 할 수 있는 곳이다.

Kaggle Home

구글 계정으로 간단히 가입 해서 사용할 수 있다.

로그인 하면 볼 수 있는 화면으로 왼쪽 메뉴 설명은 생략, 문제를 풀어 보자.

Titanic

네이버 영화 스틸컷 타이타닉

영화로 유명한 타이타닉 문제를 풀어보자.

데이터 분석이 처음이라면 영화 속 내용을 떠올려 가면서 풀어보면 흥미롭게 접근해 볼 수 있겠다. (영화는 영화일 뿐..)

검색란에 titanic 입력 후 첫번째 목록을 선택.

Overview 메뉴에서 문제 설명, 평가 방법, 자주하는 질문에 대한 내용이 잘 나와있다.

Data 메뉴로 가면 문제의 데이터 값들이 의미하는 내용 요약을 확인 할 수 있다.

문제는 .csv 파일로 제공이 된다. 이미지 상단에 커맨드 라인을 통해서 다운 받을 수도 있고, 이미지 왼쪽 test.csv 파일을 다운 받아서 분석 후 제출 양식에 맞게 수정 후 제출하면 된다.

gender_submission.csv 는 데이터 분석 후 제출 예시 파일이다. 타이타닉호에서 여성만 생존 했다고 임시 분석한 결과로 실제 파일을 제출하기 전에 참고 하면 도움이 된다.

I understand and agree 버튼을 누르면 데이터 제출 준비가 되며, 파일들의 세부 정보들이 확인 가능하다.

파일을 열어보면 타이타닉호 승객 데이터를 볼 수 있고 나름의 데이터 분석을 통해 결과를 만들어 볼수 있다.

Submit Predictions 버튼을 클릭하면 위와 같은 분석 결과 제출 화면으로 이동 할 수 있다. 제출 방법은 submission.csv 파일로 정리하여 Step 1 위치에 파일을 드래그 또는 파일 열기를 통해서 업로드 가능하다. 커맨드 라인으로도 제출이 가능하며 필수 사항은 아니지만 필요 시 분석 관련 내용을 Step 2 작성하면 된다.

파일을 정상적으로 업로드가 된다면 위와 같이 표시 되며, 제출 양식, 파일명 등 내용에 문제 가 있을 경우 상단에 에러 로그가 출력 된다.

제출이 완료되면 위 이미지 내용이 나타나며, 오른쪽에 분석 결과에 대한 Score 를 확인 할수 있다.

이미지 하단에 Jump to your position on the leaderboard 로 이동하면 현재 스코어의 순위도 확인이 가능하다.

기업이 제공 하는 빅데이터가 캐글을 통해 온라인으로 공개 되고, 세계 수많은 데이터 분석가들이 참여 하는 데이터 분석 커뮤니티라고 할 수 있다.

캐글은 전문가가 아니라도 누구나 참여가 가능하다. 접근 할수 있는 영역부터 도전해 보는 것도 좋을것 같다.

--

--

No responses yet