///

PCA Intuition Capsule (amoeba's Family Dinner)

PCA 는 데이터를 가장 많이 변하는 방향으로 새 좌표계를 돌리는 것 . 두 목표 — "변동이 큰 특성 찾기" 와 "원본을 잘 재구성할 특성 찾기" — 는 기하학적으로 동치. 수학적으로 이 방향이 공분산 행렬의 고유벡터 (eigenvector), 그 크기가 고유값 (eigenvalue).

///

kind: capsule status: active visibility: private license: CC-BY-SA-4.0 summary: PCA (Principal Component Analysis) 4단계 직관적 설명 — '가족 저녁식사' 비유. 변동성 최대화 = 재구성 오차 최소화 = eigenvector. 기하학적 관점. tags: - statistics - ml - pca - linear-algebra - capsule


PCA Intuition Capsule

Summary#

PCA 는 데이터를 가장 많이 변하는 방향으로 새 좌표계를 돌리는 것. 두 목표 — "변동이 큰 특성 찾기" 와 "원본을 잘 재구성할 특성 찾기" — 는 기하학적으로 동치. 수학적으로 이 방향이 공분산 행렬의 고유벡터 (eigenvector), 그 크기가 고유값 (eigenvalue).

Claim#

1. 무엇을 하나 (증조할머니 버전)#

데이터 요약. 와인 셀러의 와인들을 색·강도·연도 등 많은 특성으로 기술하는 대신, 더 적은 수의 "합성 특성" 으로 표현. - PCA 는 특성을 선택하거나 버리지 않음 - 기존 특성들의 선형 결합으로 새 특성을 만듦 - 가능한 모든 선형 결합 중 가장 잘 요약하는 것을 고름

2. "잘 요약한다" 의 두 가지 의미#

A. 변동 최대화: 모든 와인에서 똑같은 값이면 정보 가치 없음 → 와인 간 차이를 크게 드러내는 특성 B. 재구성 가능: 새 특성으로 원본 특성을 잘 복원할 수 있어야 함

놀랍게도 A 와 B 는 수학적으로 같은 방향을 가리킨다 (피타고라스 정리로 증명).

3. 기하학적 직관#

2D scatter plot 을 상상. 데이터 클라우드를 통과하는 직선을 긋고 모든 점을 그 직선으로 투영: - 투영점들의 분산 최대화 = 원점과 투영점 거리² 합 최대화 - 동시에 원본점과 투영점 사이 거리² 합 최소화 (재구성 오차) - 피타고라스: "원본↔원점" = "투영점↔원점" + "원본↔투영점" → 하나가 커지면 다른 하나는 작아짐

이 최적 직선이 첫 번째 주성분 (PC1). 직교 방향으로 반복 → PC2, PC3, ...

4. Eigenvector/eigenvalue 연결#

  • 데이터의 공분산 행렬 C 계산
  • C 를 eigendecomposition: C v = λ v
  • eigenvector v = 주성분 방향 (어느 방향으로 투영할지)
  • eigenvalue λ = 그 방향의 분산 (얼마나 정보가 있는지)
  • 큰 λ 순으로 정렬 → PC1, PC2, ...

5. 실무 쓰임#

  • 차원 축소: 상위 k개 PC 만 유지 (95% 분산 보존 같은 기준)
  • 시각화: 고차원 데이터를 PC1-PC2 평면에 그림
  • 노이즈 제거: 낮은 λ 성분 제거 → 주요 구조만
  • 전처리: 다중공선성 해소 후 회귀/SVM 등

수학 요약#

X (n × p, 중앙화)
C = (1/(n-1)) X^T X            # 공분산 행렬
C = V Λ V^T                    # eigendecomposition
Z = X V                        # 주성분 점수
Z_k = X V[:, :k]               # 상위 k 차원 축소

또는 SVD 로: X = U Σ V^TV 열이 곧 주성분 방향.

Scope#

  • 선형 관계에 한정 (비선형 구조는 kernel PCA / t-SNE / UMAP)
  • 수치형 연속 데이터 (범주형은 MCA 별도)
  • 변수별 스케일 다르면 표준화 필수 (안 그러면 큰 단위 변수가 지배)

Caveats#

  • PC 축은 해석 가능하지 않을 수 있음 (여러 원변수의 혼합)
  • 이상치에 민감 — 로버스트 PCA 대안
  • 차원 축소 후 지도학습은 정보 누수 주의 (test set 분리 후 fit)
  • PC1 이 항상 "의미 있는" 것은 아님 — 측정 스케일이나 노이즈에 좌우될 수 있음

Source#

Sagwan Revalidation 2026-04-19T00:05:41Z#

  • verdict: ok
  • note: PCA의 수학적 원리(공분산 행렬, 고유분해, 분산-재구성 동치)는 변하지 않으며, 실무 쓰임새 설명도 현재 practice와 일치한다.