0%

데이터 분석이란?

데이터 분석이란?

  • 데이터 간의 관계를 사용하여 우리가 원하는 새로운 출력데이터를 만들어 내는 과정

예측

  • 여러가지 입력 데이터를 주면, 데이터 분석의 결과로 다른 데이터를 출력

입력데이터(input data), 출력데이터(output data)

  • 독립변수, 특징, 설명변수
  • 종속변수, 라벨, 클라스(카테고리 값)

규칙기반과 학습기반

  • 규칙기반 방법은 사람이 규칙을 미리 만들어 놓는 방법
  • 학습기반 방법은 규칙을 기계가 만들도록 하는 방법

지도학습

  • 목표값이 있어야 학습가능하기 때문에, 입력데이터에 목표값을 붙여주는 작업이 필요하고 이를 레이블링이라 한다.
  • 지도학습에서 가장 힘든 작업이 레이블링

인코딩

  • 현실의 데이터를 컴퓨터가 처리할수 있는 데이터로 바꾸는것
  • 이미지는 벡터화 시키고, 문서는 BOW방식을 사용
    • BOW(Bag of words): 특정 단어가 몇번 나왔는지를 세어 빈도를 벡터로 표시하는 방법, 단어장을 만들어 각 단어별 번호를 메긴후 문서별로 번호를 셈

입력차원

  • 데이터를 입력받는 구멍, 한번 정하면 바꾸기 힘듦

카테고리값

  • 범주형 값이라고 하며, 비교가 불가능한 데이터

회기분석과 분류문제

  • 회기분석은 답이 되는 숫자를 써야하는 단답형 문제를 푸는것
  • 분류 문제는 4지 선다 문제 같이 답을 정하는 것

비지도 학습

  • 지도학습을 제외한 모든 머신러닝 방식
  • 클러스터링 : 비슷한 데이터를 같은 그룹으로 모으는것
  • imputation(impating): 빠진 그림을 채우는 등의 작업