-
[머신러닝] 머신러닝 핵심 개념🤖𝗔𝗜 2020. 8. 18. 12:28
머신러닝을 위한 핵심개념 공부
머신러닝을 위한 데이터 준비
1. 머신러닝을 위한 핵심개념
Data
: 현실 세계의 어떤 현상을 관찰하여 기록한 것
ex) 심장 데이터: 심장 상태를 관찰하여 기록한 것
특징 : 1) 객관화된 자료. 2) 의미가 없다. 3) 실제 세상 표현
Feature
: 데이터를 컴퓨터가 이해할 수 있도록 수치 또는 디지털로 표현/표상한 것.
Model
: 실제의 무엇을 더 작게 추상화된 형태로 표현한 것. 모형 또는 본보기
Machine Learning Model
: 어떠한 문제를 해결하기 위해 수립한 가설을 논리적, 수학적 함수식의 형태로 표현한 것
Algorithm
: 입력된 자료를 바탕으로 원하는 결과를 유도하기 위해 일련의 논리적인 순서와 절차를 규칙화한 것
ex) 순서도
Machine Learning Algorithm
Model이 어떠한 문제를 해결하기 위한 함수식이라면, Algorithm은 그 함수식을 만들어내는 일련의 절차, 규칙
Loss, Cost, Error
: 예측 목표로부터 예측 결과의 오차
데이터로부터 Feature 만들기
Learning
예측 목표로부터 예측 결과의 오차를 최소화하는 함수식을 찾아내는 과정 (모델 찾아내는..)
2. 머신러닝을 위한 데이터 준비
데이터 준비 이전에, 실제 그 문제가 해결될 수 있는지부터 생각해야 한다.
Data -> Data preprocessing -> Features -> Learning
Feature Engineering
데이터 확보해서, 중요 데이터를 수집하고 획득. 처리 및 가공해서 머신러닝에 쓰일 수 있게끔 Feature로 만든다.
대다수의 Data Preprocessing과 Feature Engineering 기법은 도메인에 많은 영향을 받는다.
Data Preprocessing: 도메인에 대한 이해는 덜 하더라도, 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data를 가공하는 작업
1. Variable Selection, Normalization : 정규화. 표준화
결측치가 많고, 불필요한 컬럼 제거.
결측치가 50% 이상 넘어가면 변수 자체를 제거하는 것이 좋다.
2. Handling Missing Values : 결측값 처리 (제거할지. 다른 값으로 채워서 사용할지 전략적으로 선택)
결측치가 있으면 채운다. ex) 중앙값
3. Vectorization : 데이터를 vector(수학적으로) 표현
컴퓨터가 이해할 수 있도록 데이터를 변환해준다. ex) male은 0으로, female은 1로 변환.
Feature Engineering : 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록, 머신러닝에 최적 !
* Feature : Numerical (숫자. ex. 나이, 키), Categorical(범주. ex. 성별, 직업)
'🤖𝗔𝗜' 카테고리의 다른 글
[세바시 15분] 인공지능의 주인이 되기 위해 반드시 알아야 할 것들 . (0) 2020.08.24 [머신러닝] 머신러닝 업무 프로세스 (0) 2020.08.15 [머신러닝] 데이터과학자, 도메인 전문성 (0) 2020.08.15 머신러닝 (0) 2020.08.14 데이터 과학이란? 데이터 과학이 이슈가 된 이유 (0) 2020.08.14