프로젝트 2

[Kaggle] Chat GPT4가 추천하는 타이타닉 생존자 예측 참고자료

타이타닉 생존자 예측의 핵심은 Age 결측치 예측에 있다고 해도 과언이 아니다. 따라서 어떻게 하면 Age 예측을 더 잘할 수 있을지 Chat GPT 4에게 물어봤고 아래의 링크들을 소개해 주었다. 1. This article on Analytics Vidhya covers various imputation methods for missing values in detail, including mean imputation, regression imputation, KNN imputation, and multiple imputation: https://www.analyticsvidhya.com/blog/2021/05/handling-missing-values-the-right-way-in-your-data/..

프로젝트 2023.04.11

[kaggle] 타이타닉 결측치 처리 - Age, Embarked

타이타닉 생존자 예측을 위해 train 데이터로 우선 모델을 만들고자 한다. 데이터를 읽어와 df로 저장하고 import numpy as np import pandas as pd df=pd.read_csv('train.csv') 데이터의 기본 정보를 살펴보면 다음과 같다. Age, Cabin, Embarked에 결측값이 있다. Cabin의 결측값은 687개로 현재 데이터만으로는 결측값을 추정하여 채워넣기엔 무리가 있으므로 활용하지 않는다. Age와 Embarked의 결측값을 추정해보기 위해 각 변수간의 상관관계를 분석해보았다. 상관관계 분석은 numpy의 corr을 사용하여 분석할 수 있는데 Sex, Embarked와 같은 명목형 변수는 숫자로 라벨링하여 가져와야 한다. 상관관계를 분석하기 위한 데이터프..

프로젝트 2023.04.02