머신러닝의 기초

머신러닝이란?

머신러닝 : 데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학이다.

훈련 세트 : 시스템이 학습하는데 사용하는 샘플

머신러닝의 학습기법

지도 학습(Supervised Learning)

지도 학습이란 알고리즘에 주입하는 훈련 데이터에 레이블인 정답지를 포함해 학습하는 방법이다.

분류가 전형적인 지도 학습의 작업이며 이는 classification이라고 불린다. 또한 데이터를 사용해 어떠한 값을 예측하는 것을 회귀라고 하며, 가격 예측 등의 예시가 있다.

비지도 학습(Unsupervised Learning)

비지도 학습에는 훈련 데이터에 레이블이 없는 것을 의미한다. 예로 클러스터링, 차원 축소, 시각화, 이상치 탐지 등이 있다.

준지도 학습(Semi-supervised Learning)

데이터에 레이블을 다는 것은 일반적으로 시간과 비용이 많이 든다. 따라서 일부만 레이블이 있는 데이터를 사용하고, unlabel된 데이터를 함께 사용해 학습하는 것을 의미한다. 예로 Knowledge distillation, Meta-pseudo-labels가 있다.

강화 학습(Reinforcement Learning)

강화 학습에서 학습하는 시스템을 에이전트라고 한다. 이는 학습의 결과로 보상 및 벌점을 부과하여 최적의 해를 찾아가는 학습기법이다. 우리가 아는 알파고가 강화 학습의 산물이라고 볼 수 있다.

Feature

Feature이란 특성이라고도 불리며, 데이터의 특징을 의미한다. 인공지능에서는 데이터가 굉장히 중요하며, 이에 따라 feature engineering이 많이 사용된다. Feature engineering이란 훈련에 사용할 좋은 특성들을 찾는 것이다. 더하여 훈련에 유용한 feature을 선택하는 feature selection과 feature을 결합하여 더욱 유용한 feature을 만드는 feature extraction이 있다.

Overfitting과 Underfitting

Overfitting인 과대적합은 특정 데이터셋에 너무 편향되어 학습되는 현상이다. 반명 underfitting은 오버피팅의 반대이며, 너무 단순한 모델을 사용하여 데이터의 구조를 충분히 학습하지 못하는 현상이다.

Untitled

이를 해결하기 위해 regularization 및 더욱 복잡한 모델을 사용하는 것 등이 있다.