ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [머신러닝] 머신러닝 핵심 개념
    🤖𝗔𝗜 2020. 8. 18. 12:28

    머신러닝을 위한 핵심개념 공부

    머신러닝을 위한 데이터 준비

     

    1. 머신러닝을 위한 핵심개념

     Data 

    : 현실 세계의 어떤 현상을 관찰하여 기록한 것

    ex) 심장 데이터: 심장 상태를 관찰하여 기록한 것

    특징 : 1) 객관화된 자료. 2) 의미가 없다. 3) 실제 세상 표현

     

     Feature 

    : 데이터를 컴퓨터가 이해할 수 있도록 수치 또는 디지털로 표현/표상한 것.

     

     Model 

    : 실제의 무엇을 더 작게 추상화된 형태로 표현한 것. 모형 또는 본보기

     

     Machine Learning Model 

    : 어떠한 문제를 해결하기 위해 수립한 가설을 논리적, 수학적 함수식의 형태로 표현한 것

     

     Algorithm 

    : 입력된 자료를 바탕으로 원하는 결과를 유도하기 위해 일련의 논리적인 순서와 절차를 규칙화한 것

    ex) 순서도

     

    Machine Learning Algorithm

    Model이 어떠한 문제를 해결하기 위한 함수식이라면, Algorithm은 그 함수식을 만들어내는 일련의 절차, 규칙 

     

     Loss, Cost, Error 

    : 예측 목표로부터 예측 결과의 오차

    데이터로부터 Feature 만들기

     

     Learning 

    예측 목표로부터 예측 결과의 오차를 최소화하는 함수식을 찾아내는 과정 (모델 찾아내는..)

     

    2. 머신러닝을 위한 데이터 준비

    데이터 준비 이전에, 실제 그 문제가 해결될 수 있는지부터 생각해야 한다.

    Data -> Data preprocessing -> Features -> Learning

                 Feature Engineering

     

    데이터 확보해서, 중요 데이터를 수집하고 획득. 처리 및 가공해서 머신러닝에 쓰일 수 있게끔 Feature로 만든다.

    대다수의 Data Preprocessing과 Feature Engineering 기법은 도메인에 많은 영향을 받는다.

    Data Preprocessing: 도메인에 대한 이해는 덜 하더라도, 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data를 가공하는 작업

         1. Variable Selection, Normalization : 정규화. 표준화

             결측치가 많고, 불필요한 컬럼 제거.

             결측치가 50% 이상 넘어가면 변수 자체를 제거하는 것이 좋다.

         2. Handling Missing Values : 결측값 처리 (제거할지. 다른 값으로 채워서 사용할지 전략적으로 선택)

             결측치가 있으면 채운다. ex) 중앙값

         3. Vectorization : 데이터를 vector(수학적으로) 표현

             컴퓨터가 이해할 수 있도록 데이터를 변환해준다. ex) male은 0으로, female은 1로 변환.

     

    Feature Engineering : 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록, 머신러닝에 최적 !

    * Feature : Numerical (숫자. ex. 나이, 키), Categorical(범주. ex. 성별, 직업)

    댓글

ahntoday