본문 바로가기

분류 전체보기

(68)
신경망과 딥러닝 //방송통신대학교 컴퓨터과학과 2023년도 2학기 이관용 교수님의 머신러닝 수업을 기반으로 작성한 글입니다. ✔️신경망 인간의 뇌에서 수행되는 정보처리 방식을 모방하여 인간의 복잡한 정보처리 능력을 기계로 모델링하고자 하는 연구방향이다. 신경망 모델링은 아래와 같은 세 가지 요소로 구성된다. (1) 신경세포 (Neuron, Node, Unit) - 정의 : 입력을 받아들여 연산 기능 수행 후 특정 값을 출력하는 단위체 - 구조 : 수학적 함수 (활성화 함수)로 표현 - 역할 : 입력 xi에 대해 가중치 wi가 곱해진 후 합해진 가중합 u는 활성함수를 통해 다음 신경세포로 전달될 출력을 결정한다. - 종류 : 활성함수는 계단함수, 부호함수, 선형함수, 시그모이드 함수, 하이퍼탄젠트 함수 등 원하는 신경망의..
SVM 분류기와 커널법 //방송통신대학교 컴퓨터과학과 2023년도 2학기 이관용 교수님의 머신러닝 수업을 기반으로 작성한 글입니다. ✔️SVM Support Vector Machine 일반화 오차를 최소화할 수 있는 방향으로 학습이 이루어지도록 설계된 선형 분류기 - 마진 : 학습 데이터 중 결정경계에 가장 가까운 데이터로부터 결정경계까지의 거리 - 서포트 벡터 : 결정경계에 가장 가까운 곳에 있는 데이터 - 일반화 오차가 작아지기 위해 두 클래스간 간격을 최대화, 마진을 최대화하는 결정경계를 선정 - 선형 분리가 불가능한 문제의 경우 (1) 커널 함수 도입 >> SVM 학습방법 (1) M을 최대화하기 위해 |w| 최소화 (2) 학습데이터 (xi, yi)에 대해 파라미터가 만족해야 하는 조건 yi*g(xi)-0>0을 만족 (3..
결정 트리와 램덤 포레스트 //방송통신대학교 컴퓨터과학과 2023년도 2학기 이관용 교수님의 머신러닝 수업을 기반으로 작성한 글입니다. ✔️결정 트리 주어진 문제(또는 입력)에 대해 결정을 내리는 함수를 트리로 구성 - 장점 : 트리 구조에 데이터의 각 입력 요소의 역할이 잘 나타나 있음 (우수한 설명력 explainability) - 단점 : 복잡한 함수를 표현하기 위해서 트리의 깊이가 깊어질 때 데이터가 가지는 노이즈에 민감해짐 (과다적합) - 구성 요소 : 루트 노드 (첫 번째 결정요인/속성), 내부 노드 (n>1번째 결정요인/속성), 리프 노드 (최종 결정 결과) (1) 입력 데이터에서 한 가지 속성을 선택하여 루트 노드를 생성 (2) 가지에 따라 자식 노드를 추가 (3) 더 이상 그룹을 나눌 필요가 없을 때 해당 노드를 ..
앙상블 학습 //방송통신대학교 컴퓨터과학과 2023년도 2학기 이관용 교수님의 머신러닝 수업을 기반으로 작성한 글입니다. ✔️ 학습기 결합의 필요성 신경망(딥러닝) 또는 SVM과 같은 정교화/대규모화된 분류기들은 학습 대상 파라미터가 많아 학습 시간이 오래 걸리고 과다학습 문제로 인해 일반화 오차가 증가하는 현상이 나타난다. ▷▷▷ 앙상블 학습 : 선형 분류기와 같은 간단한 학습기로 학습을 수행하되, 복수 개의 학습기를 결함하여 결과적으로 더 좋은 성능을 가진 학습기를 만드는 방법 (1) 학습 알고리즘의 차별화 ; 베이즈 분류기 + K-NN 분류기를 결합, 신경망 + SVM을 결합 등 (2) 모델 선택과 관련된 파라미터의 차별화 ; K-NN 분류 알고리즘을 적용하되, K값을 달리하며 서로 다른 분류기 모델을 복수 개..
데이터 표현 : 특징추출 //방송통신대학교 컴퓨터과학과 2023년도 2학기 이관용 교수님의 머신러닝 수업을 기반으로 작성한 글입니다. ✔️ 특징추출 분석에 불필요한 정보를 제거하고 핵심이 되는 정보만 추출 또는 데이터의 차원을 축소하여 학습 시스템의 효율을 향상 (1) 선형변환 : n차원 열벡터 x에 변환행렬 W (nxm)을 곱해 m차원 특징을 획득 - 특징값은 데이터 x를 W방향으로 사영하여 얻어지는 크기 값 - 대표 방법 : 주성분분석법 (PCA), 선형판별분석법 (LDA) (2) 비선형변환 : 복잡한 비선형함수를 이용하여 n차원 벡터를 m차원 벡터로 매핑 ✔️ 주성분분석법 Principal Component Analysis 데이터의 분산이 가장 큰 방향으로 선형변환을 수행하여 변환 전 데이터 X가 가진 정보를 최대한 유지 ..
비지도학습 : 군집화 //방송통신대학교 컴퓨터과학과 2023년도 2학기 이관용 교수님의 머신러닝 수업을 기반으로 작성한 글입니다. ✔️ 군집화 Clustering 데이터 집합의 분포 특성을 분석하여 서로 교차하지 않는 복수 개의 부분집합으로 나누는 문제 - 응용 예 : 영상 데이터의 구분 - 대표 알고리즘 : (1) K-평균 군집화 (2) 계층적 군집화 ✔️ K-평균 군집화 데이터 집합을 K개의 그룹으로 묶는 알고리즘 - 각 그룹은 해당 그룹 내 데이터들의 평균을 대표 벡터로 가짐 - 비지도학습이므로 처음에는 임의로 K개의 대표 벡터 선정 - (1) 데이터 집합으로부터 임의의 K개의 벡터를 선택하여 초기 대표 벡터 m1, m2, ..., mk를 생성 - (2) 각 데이터 xj에 대해 K개의 대표 벡터들과의 거리를 계산해 가장..
지도학습 : 회귀 //방송통신대학교 컴퓨터과학과 2023년도 2학기 이관용 교수님의 머신러닝 수업을 기반으로 작성한 글입니다. ✔️ 회귀 Regression 출력이 연속적인 실수 형태로 표현 목표 출력값과 실제 시스템 출력값의 차이의 제곱 오차를 최소화하는 방식으로 해를 찾아나가는 최소제곱법 사용 ✔️ 선형회귀 입출력 관계식이 선형함수- 기울기 w1, 절편 w0, 실제 값과의 오차 e- 오차함수는 e의 제곱의 합이 최소화되도록 편미분을 적용하여 w1, w0를 구할 수 있음 ✔️ 로지스틱 회귀 Logistric Regression - 선형회귀분석의 종속변수(출력)을 범주형으로 확장 - 독립변수(입력)의 선형 결합으로 종속변수를 표현하지만, 종속변수 결과가 범주형으로 제한됨 - 입력 x가 주어졌을 때 클래스 레이블이 1이 될..
지도학습 : 분류 //방송통신대학교 컴퓨터과학과 2023년도 2학기 이관용 교수님의 머신러닝 수업을 기반으로 작성한 글입니다. ✔️ 분류 Classification 주어진 데이터 집합에 대해 이미 정의된 몇 개의 클래스(부류)로 입력을 구분하는 문제 - 응용 예 : 숫자인식, 얼굴인식 등 - 접근 방법 : (1) 확률 기반 방법 e.g. 베이즈 분류기, (2) 데이터 기반 방법 e.g. K-최근접이웃 분류기 ✔️ 베이즈 분류기 Bayes Classifier 클래스별 확률밀도함수를 이용하여 데이터를 분류하는 방법 - p(Ci|xnew) (새로운 데이터 xnew가 각 클래스로부터 생성되었을 확률)가 가장 큰 클래스로 분류를 수행 - 클래스별 분포함수 p(x|Ci) (각 클래스에 데이터 x가 분포할 확률)와 베이즈 규칙을 이용..