0%
데이터 분석이란?
- 데이터 간의 관계를 사용하여 우리가 원하는 새로운 출력데이터를 만들어 내는 과정
예측
- 여러가지 입력 데이터를 주면, 데이터 분석의 결과로 다른 데이터를 출력
- 독립변수, 특징, 설명변수
- 종속변수, 라벨, 클라스(카테고리 값)
규칙기반과 학습기반
- 규칙기반 방법은 사람이 규칙을 미리 만들어 놓는 방법
- 학습기반 방법은 규칙을 기계가 만들도록 하는 방법
지도학습
- 목표값이 있어야 학습가능하기 때문에, 입력데이터에 목표값을 붙여주는 작업이 필요하고 이를 레이블링이라 한다.
- 지도학습에서 가장 힘든 작업이 레이블링
인코딩
- 현실의 데이터를 컴퓨터가 처리할수 있는 데이터로 바꾸는것
- 이미지는 벡터화 시키고, 문서는 BOW방식을 사용
- BOW(Bag of words): 특정 단어가 몇번 나왔는지를 세어 빈도를 벡터로 표시하는 방법, 단어장을 만들어 각 단어별 번호를 메긴후 문서별로 번호를 셈
입력차원
- 데이터를 입력받는 구멍, 한번 정하면 바꾸기 힘듦
카테고리값
- 범주형 값이라고 하며, 비교가 불가능한 데이터
회기분석과 분류문제
- 회기분석은 답이 되는 숫자를 써야하는 단답형 문제를 푸는것
- 분류 문제는 4지 선다 문제 같이 답을 정하는 것
비지도 학습
- 지도학습을 제외한 모든 머신러닝 방식
- 클러스터링 : 비슷한 데이터를 같은 그룹으로 모으는것
- imputation(impating): 빠진 그림을 채우는 등의 작업