pattern regonition (27) 썸네일형 리스트형 빈도주의(Frequentist) vs 베이지안(Bayesian) - 요약빈도주의(Frequentist) : 모형 M 은 사전에 선택. 데이터 D 로 모수 theta 를 추정 ( 주로 MLE )베이지안 (Bayesian) : 모형 M 과 사전분포 p( theta | M ) 을 사전에 명시, 데이터 D 후 사후분포 p( theta, D, M ) 전체로 추론NLL 최소화 = MLE 는 가능도 기반일 때만 성립, 정규화 붙이면 MAP 공통 표기데이터 : D = {x_i}^N_i=1모형 : M모수 : theta ( 고정 / 미지 or 확률변수로 볼 지에 대한 차이가 관점 차이 ) 1. 빈도주의 관점세계관theta 는 고정이지만 미지. "반복 표본추출" 에서 성질을 본다.모형 M 은 분석자가 고른다. (데이터가 결정하지 않음)추정MLE : theta^ = arg max_theta.. 베이지안! : p(D|theta) 에서 theta, 데이터 D 를 만들어냈다고 가정하는 "모형"의 매개변수 - theta 를 바꿔가며 해당 theta 일 때 D 가 얼마나 그럴듯한가? 확률(또는 밀도)로서의 p(D|theta) : theta 가 고정일 때, 데이터 D 가 나올 확률,가능도(likelihood) 로서의 p(D|theta) : D 를 고정하고, theta 를 변수로 보는 함수 -> 최적화 대상가능도는 theta 에 대한 확률 분포가 아니다theta 는 모형을 규정하는 매개변수고, p(D|theta) 는 그 모형 아래 D 의 그럴듯함, MLE 는 그 그럴듯함을 최대화하는 theta^ ㅡㄹ 고르는 절차 빈도주의 : theta 는 고정이지만 미지인 상수, p(D|theta) 를 theta 에 대한 목적함수로 최적화베이지안 : theta 자체를 확률변수로 두고 사전 p(theta) 를 정의 최대 가능도 추정, MLE (Maximum Likelihood) - 최대화 방법 (로그 가능도 생성, 제약 처리, 미분 기반 최적화 ) == cross entropy MLE 는 방식(원리)가능도는 최대화하는 목적함수 자체모델이 정해졌을 때, 주어진 데이터 D 에 대해 theta 를 선택하는 규칙, 모델 + 데이터 + 가능도 최대화 목적함수가 있어야 위 식이 나온다. 가능도는 확률모형의 목적함수이고, 로그 가능도 최대화, 음의 로그 가능도 최소화가 MLE 와 동일theta 자체가 아니라 가능도 L(theta) = p(D|theta) 를 theta 에 대해 최대화한다.더보기최대화 방법 : 로그 가능도를 만들고, 제약을 처리한 뒤, 미분 기반 최적화로 theta 를 찾는다. 표준 절차모델 고정 : p(x | theta)로그 가능도 : l(theta) = SUM(log p(x_i | theta) ( 곱의 합으로의 변경)제약 처리확률 (0-1) : theta = sigma(.. 헤시안 행렬 Hessian matrix - 2 대각 근사헤시안 행렬은 일반적으로 비대칭이고 밀짖ㅂ된 구조, H^-1 은 계산 비용이 M^3 으로 매우 크다.헤시안 행렬 그 자체가 아닌 역행렬이 필요, 때문에 대각 근사를 구하는 것이 유의미할 수 있다. 대각 원소를 제외하고 0으로 설정하는 것, 이러한 대각 근사 행렬의 역을 구하는 것은 매우 쉽다. 외적 근사 outer product approximation 기울기 벡터의 외적으로 헤시안을 계산하는 방법 회귀 문제에서 단일 출력 뉴럴 네트워크, MSE 손실 함수 ✅ 정리단일 출력 회귀 문제에서는 헤시안이 2항 구조로 나뉨출력이 정답에 가까우면 → 2차 미분 항 무시 가능이때의 근사 헤시안은 **외적 형태 (Gauss-Newton 형태)**로 간단해짐실제 최적화나 불확실성 추정, 근사 방법에 유리하게.. 이전 1 2 3 4 ··· 7 다음