Machine Learning/Real Analysis 4

로지스틱 회귀 모델링 <예측>

[#8] 모델 학습 및 평가7편에서 전처리된 데이터가 준비됐습니다. 8편에서는 로지스틱 회귀 모델을 학습하고 성능을 평가합니다. 전처리 데이터 준비X_train_df = pd.read_csv(OUTPUT_DIR / "21_X_train_processed.csv")y_train = X_train_df["Survived"]X_train = X_train_df.drop(columns=["Survived"])Step 1. 로지스틱 회귀 모델 학습로지스틱 회귀는 이름에 "회귀"가 붙어 있지만, 실제로는 분류 모델이에요. 내부적으로 세 단계로 작동합니다. 1단계 — 선형 결합각 변수에 가중치를 곱해서 더합니다.$$ z = w_1 \cdot \text{Sex\_female} + w_2 \cdot \text{Pclas..

로지스틱 회귀 모델링 <전처리>

[#6] 최종 변수 선택 정책 확정3~5편에서 변수별 신호 강도와 다중공선성 이슈를 파악했습니다. 6편에서는 모델에 실제로 넣을 변수를 최종 확정합니다.변수 선택은 신중해야한다.지금까지 분석한 변수는 총 9개입니다. 그런데 이걸 전부 다 넣으면 안 됩니다. 이유는 두 가지입니다.첫째, 다중공선성 — 서로 같은 정보를 담은 변수를 둘 다 넣으면 모델이 혼란스러워집니다. Fare와 Pclass, FamilySize와 IsAlone이 대표적입니다.둘째, 노이즈 — 신호가 약한 변수를 억지로 넣으면 모델이 의미 없는 패턴까지 학습하려다 성능이 오히려 떨어집니다.따라서 "쓸 것"과 "버릴 것"을 명확히 가르고 근거를 남겨야 합니다.Step 1. 첫번째 제외 결정 — Fare vs Pclass4편에서 Fare의 생..

로지스틱 회귀 모델링 <가설>

[#3] 가설 검증 — 범주형 변수가 생존과 관련 있는가 1~2편에서 데이터의 상태를 파악했습니다. 3편부터는 "어떤 변수가 생존을 예측하는 데 쓸만한가?" 를 검증합니다.3편에서는 범주형 변수를 먼저 다룹니다.Sex (성별)Pclass (객실 등급) Embarked (탑승 항구)범주형 변수는 접근 방식이 비교적 직관적입니다. 각 카테고리별로 생존율을 집계하면, "이 그룹이 더 많이 살아남았는가"를 바로 비교할 수 있습니다. 수치형 변수(Age, Fare)는 구간 변환이 필요해서 4편에서 별도로 다룹니다. 왜 가설 검증을 하는가2편까지는 변수를 개별적으로 봤습니다. "Age는 이런 분포, Fare는 저런 분포" 처럼요.그런데 우리가 진짜 알고 싶은 건 이것입니다. "이 변수가 높으면/낮으면, 생존율이 ..

로지스틱 회귀 모델링 <진단>

Intro Logistic Regression으로 Titanic 생존 예측 모델을 만드는 과정을 단계별로 기록합니다. 이 시리즈의 목표머신러닝 과제를 받으면 보통 이런 흐름으로 코드를 짜기 쉽습니다.데이터 불러오기 → 결측 채우기 → 모델 돌리기 → 점수 확인돌아가긴 하지만, "왜 이 변수를 썼는지", "왜 이렇게 변환했는지" 를 설명하라고 하면 막막해집니다. 모델 성능이 안 나올 때 어디부터 손봐야 할지도 모르고요. 이 시리즈에서는 같은 Titanic 데이터를 다루되, 모든 결정에 근거를 남기는 방식으로 접근합니다. EDA(탐색적 데이터 분석)를 한 덩어리로 보지 않고, 의사결정의 단계로 쪼개서 진행할 겁니다. 핵심 설계 원칙: 진단 → 가설 → 처방병원에서 환자를 보는 순서를 떠올려보면 이해가 쉽습니..