kind: capsule status: active visibility: private license: CC-BY-SA-4.0 summary: PCA (Principal Component Analysis) 4단계 직관적 설명 — '가족 저녁식사' 비유. 변동성 최대화 = 재구성 오차 최소화 = eigenvector. 기하학적 관점. tags: - statistics - ml - pca - linear-algebra - capsule
PCA Intuition Capsule
Summary#
PCA 는 데이터를 가장 많이 변하는 방향으로 새 좌표계를 돌리는 것. 두 목표 — "변동이 큰 특성 찾기" 와 "원본을 잘 재구성할 특성 찾기" — 는 기하학적으로 동치. 수학적으로 이 방향이 공분산 행렬의 고유벡터 (eigenvector), 그 크기가 고유값 (eigenvalue).
Claim#
1. 무엇을 하나 (증조할머니 버전)#
데이터 요약. 와인 셀러의 와인들을 색·강도·연도 등 많은 특성으로 기술하는 대신, 더 적은 수의 "합성 특성" 으로 표현. - PCA 는 특성을 선택하거나 버리지 않음 - 기존 특성들의 선형 결합으로 새 특성을 만듦 - 가능한 모든 선형 결합 중 가장 잘 요약하는 것을 고름
2. "잘 요약한다" 의 두 가지 의미#
A. 변동 최대화: 모든 와인에서 똑같은 값이면 정보 가치 없음 → 와인 간 차이를 크게 드러내는 특성 B. 재구성 가능: 새 특성으로 원본 특성을 잘 복원할 수 있어야 함
놀랍게도 A 와 B 는 수학적으로 같은 방향을 가리킨다 (피타고라스 정리로 증명).
3. 기하학적 직관#
2D scatter plot 을 상상. 데이터 클라우드를 통과하는 직선을 긋고 모든 점을 그 직선으로 투영: - 투영점들의 분산 최대화 = 원점과 투영점 거리² 합 최대화 - 동시에 원본점과 투영점 사이 거리² 합 최소화 (재구성 오차) - 피타고라스: "원본↔원점" = "투영점↔원점" + "원본↔투영점" → 하나가 커지면 다른 하나는 작아짐
이 최적 직선이 첫 번째 주성분 (PC1). 직교 방향으로 반복 → PC2, PC3, ...
4. Eigenvector/eigenvalue 연결#
- 데이터의 공분산 행렬
C계산 C를 eigendecomposition:C v = λ v- eigenvector
v= 주성분 방향 (어느 방향으로 투영할지) - eigenvalue
λ= 그 방향의 분산 (얼마나 정보가 있는지) - 큰 λ 순으로 정렬 → PC1, PC2, ...
5. 실무 쓰임#
- 차원 축소: 상위 k개 PC 만 유지 (95% 분산 보존 같은 기준)
- 시각화: 고차원 데이터를 PC1-PC2 평면에 그림
- 노이즈 제거: 낮은 λ 성분 제거 → 주요 구조만
- 전처리: 다중공선성 해소 후 회귀/SVM 등
수학 요약#
X (n × p, 중앙화)
C = (1/(n-1)) X^T X # 공분산 행렬
C = V Λ V^T # eigendecomposition
Z = X V # 주성분 점수
Z_k = X V[:, :k] # 상위 k 차원 축소
또는 SVD 로: X = U Σ V^T → V 열이 곧 주성분 방향.
Scope#
- 선형 관계에 한정 (비선형 구조는 kernel PCA / t-SNE / UMAP)
- 수치형 연속 데이터 (범주형은 MCA 별도)
- 변수별 스케일 다르면 표준화 필수 (안 그러면 큰 단위 변수가 지배)
Caveats#
- PC 축은 해석 가능하지 않을 수 있음 (여러 원변수의 혼합)
- 이상치에 민감 — 로버스트 PCA 대안
- 차원 축소 후 지도학습은 정보 누수 주의 (test set 분리 후 fit)
- PC1 이 항상 "의미 있는" 것은 아님 — 측정 스케일이나 노이즈에 좌우될 수 있음
Source#
- Cross Validated Q: Making sense of principal component analysis, eigenvectors & eigenvalues
- Accepted Answer: https://stats.stackexchange.com/a/140579 — by amoeba
- License: CC BY-SA 4.0 (Stack Exchange user contributions)
- 조회일: 2026-04-19
Sagwan Revalidation 2026-04-19T00:05:41Z#
- verdict:
ok - note: PCA의 수학적 원리(공분산 행렬, 고유분해, 분산-재구성 동치)는 변하지 않으며, 실무 쓰임새 설명도 현재 practice와 일치한다.