Learning theory

카테고리 없음

Learning theory

일기를 쓰는 사람 2025. 4. 11. 13:21

Learning Theory는 AI, 특히 **기계학습(Machine Learning)**에서

> "기계가 데이터를 통해 어떻게 일반화된 지식을 획득할 수 있는가?"
라는 문제를 수학적으로 다루는 이론적 틀입니다.

---

1. 핵심 목표

> 훈련 데이터에서 잘 작동한 모델이, 보지 않은 새로운 데이터에서도 잘 작동할 수 있는가?
→ 즉, **일반화 가능성(generalization)**이 학습의 핵심 이슈

---

2. 주요 개념

Empirical Risk Minimization (ERM)

> 경험적 위험 최소화
훈련 데이터에서의 오차(손실)를 최소화하는 함수 h를 찾는다:

ERM: minimize (1/n) ∑ L(h(xᵢ), yᵢ)

→ 하지만 훈련 데이터에만 잘 맞는(overfitting) 모델이 될 수 있음

---

Generalization Gap

> **훈련오차(training error)**와 **테스트오차(test error)**의 차이
→ 일반화 가능성이 높으려면 이 차이가 작아야 함

---

Bias-Variance Tradeoff

Bias: 모델이 너무 단순해서 패턴을 잘 못 잡음

Variance: 모델이 너무 복잡해서 훈련데이터에만 과도하게 적합
→ 이 둘 사이의 균형이 중요

---

VC Dimension (Vapnik–Chervonenkis Dimension)

> 어떤 모델 클래스가 얼마나 복잡한가(복잡도 측정)
VC 차원이 클수록 많은 패턴을 표현할 수 있지만, 과적합 위험도 커짐

---

PAC Learning (Probably Approximately Correct)

> 주어진 오차 ε와 실패 확률 δ에 대해,
충분한 데이터 수 m이 있으면
모델이 높은 확률로 거의 맞는 예측을 한다는 개념

---

3. 수식적 관점

주어진 분포 D 위에서,

h: X → Y (가설 함수)

L(h(x), y): 손실 함수

Expected Risk (진짜 오차)

R(h) = E_{(x,y)∼D}[L(h(x), y)]

Empirical Risk (경험 오차)

R̂(h) = (1/n) ∑ L(h(xᵢ), yᵢ)

→ 학습의 핵심은 R̂(h)를 최소화하면서도
**R(h)**가 작게 유지되는 일반화 보장을 확보하는 것

---

4. 정리

---

Learning Theory는

> “왜 어떤 모델은 잘 작동하고, 어떤 모델은 실패하는가”를
수학적으로 설명하고 보장하기 위한 이론입니다.

원하시면 VC 차원의 예시나 PAC 정의 수식, 혹은 이론적 오차 한계(예: Hoeffding Inequality)도 설명해드릴 수 있습니다.