Learning theory
Learning Theory는 AI, 특히 **기계학습(Machine Learning)**에서
> "기계가 데이터를 통해 어떻게 일반화된 지식을 획득할 수 있는가?"
라는 문제를 수학적으로 다루는 이론적 틀입니다.
---
1. 핵심 목표
> 훈련 데이터에서 잘 작동한 모델이, 보지 않은 새로운 데이터에서도 잘 작동할 수 있는가?
→ 즉, **일반화 가능성(generalization)**이 학습의 핵심 이슈
---
2. 주요 개념
Empirical Risk Minimization (ERM)
> 경험적 위험 최소화
훈련 데이터에서의 오차(손실)를 최소화하는 함수 h를 찾는다:
ERM: minimize (1/n) ∑ L(h(xᵢ), yᵢ)
→ 하지만 훈련 데이터에만 잘 맞는(overfitting) 모델이 될 수 있음
---
Generalization Gap
> **훈련오차(training error)**와 **테스트오차(test error)**의 차이
→ 일반화 가능성이 높으려면 이 차이가 작아야 함
---
Bias-Variance Tradeoff
Bias: 모델이 너무 단순해서 패턴을 잘 못 잡음
Variance: 모델이 너무 복잡해서 훈련데이터에만 과도하게 적합
→ 이 둘 사이의 균형이 중요
---
VC Dimension (Vapnik–Chervonenkis Dimension)
> 어떤 모델 클래스가 얼마나 복잡한가(복잡도 측정)
VC 차원이 클수록 많은 패턴을 표현할 수 있지만, 과적합 위험도 커짐
---
PAC Learning (Probably Approximately Correct)
> 주어진 오차 ε와 실패 확률 δ에 대해,
충분한 데이터 수 m이 있으면
모델이 높은 확률로 거의 맞는 예측을 한다는 개념
---
3. 수식적 관점
주어진 분포 D 위에서,
h: X → Y (가설 함수)
L(h(x), y): 손실 함수
Expected Risk (진짜 오차)
R(h) = E_{(x,y)∼D}[L(h(x), y)]
Empirical Risk (경험 오차)
R̂(h) = (1/n) ∑ L(h(xᵢ), yᵢ)
→ 학습의 핵심은 R̂(h)를 최소화하면서도
**R(h)**가 작게 유지되는 일반화 보장을 확보하는 것
---
4. 정리
---
Learning Theory는
> “왜 어떤 모델은 잘 작동하고, 어떤 모델은 실패하는가”를
수학적으로 설명하고 보장하기 위한 이론입니다.
원하시면 VC 차원의 예시나 PAC 정의 수식, 혹은 이론적 오차 한계(예: Hoeffding Inequality)도 설명해드릴 수 있습니다.