🤖𝗔𝗜

[머신러닝] 머신러닝 핵심 개념

안오늘 2020. 8. 18. 12:28

머신러닝을 위한 핵심개념 공부

머신러닝을 위한 데이터 준비

 

1. 머신러닝을 위한 핵심개념

 Data 

: 현실 세계의 어떤 현상을 관찰하여 기록한 것

ex) 심장 데이터: 심장 상태를 관찰하여 기록한 것

특징 : 1) 객관화된 자료. 2) 의미가 없다. 3) 실제 세상 표현

 

 Feature 

: 데이터를 컴퓨터가 이해할 수 있도록 수치 또는 디지털로 표현/표상한 것.

 

 Model 

: 실제의 무엇을 더 작게 추상화된 형태로 표현한 것. 모형 또는 본보기

 

 Machine Learning Model 

: 어떠한 문제를 해결하기 위해 수립한 가설을 논리적, 수학적 함수식의 형태로 표현한 것

 

 Algorithm 

: 입력된 자료를 바탕으로 원하는 결과를 유도하기 위해 일련의 논리적인 순서와 절차를 규칙화한 것

ex) 순서도

 

Machine Learning Algorithm

Model이 어떠한 문제를 해결하기 위한 함수식이라면, Algorithm은 그 함수식을 만들어내는 일련의 절차, 규칙 

 

 Loss, Cost, Error 

: 예측 목표로부터 예측 결과의 오차

데이터로부터 Feature 만들기

 

 Learning 

예측 목표로부터 예측 결과의 오차를 최소화하는 함수식을 찾아내는 과정 (모델 찾아내는..)

 

2. 머신러닝을 위한 데이터 준비

데이터 준비 이전에, 실제 그 문제가 해결될 수 있는지부터 생각해야 한다.

Data -> Data preprocessing -> Features -> Learning

             Feature Engineering

 

데이터 확보해서, 중요 데이터를 수집하고 획득. 처리 및 가공해서 머신러닝에 쓰일 수 있게끔 Feature로 만든다.

대다수의 Data Preprocessing과 Feature Engineering 기법은 도메인에 많은 영향을 받는다.

Data Preprocessing: 도메인에 대한 이해는 덜 하더라도, 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data를 가공하는 작업

     1. Variable Selection, Normalization : 정규화. 표준화

         결측치가 많고, 불필요한 컬럼 제거.

         결측치가 50% 이상 넘어가면 변수 자체를 제거하는 것이 좋다.

     2. Handling Missing Values : 결측값 처리 (제거할지. 다른 값으로 채워서 사용할지 전략적으로 선택)

         결측치가 있으면 채운다. ex) 중앙값

     3. Vectorization : 데이터를 vector(수학적으로) 표현

         컴퓨터가 이해할 수 있도록 데이터를 변환해준다. ex) male은 0으로, female은 1로 변환.

 

Feature Engineering : 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록, 머신러닝에 최적 !

* Feature : Numerical (숫자. ex. 나이, 키), Categorical(범주. ex. 성별, 직업)