0%

범주형 데이터 처리

범주형 데이터

혈액형, 성별과 같이 종류를 표시하는 데이터

범주형 데이터의 변형

  • 더미변수화
  • 카테고리 임베딩

더미변수화

0 또는 1만 가지는 값으로 어떤 특징의 존재 여부를 표시. 이진지시자(Boolean indicator),이진변수(binary variable),지시변수(indicator variable),설계변수(design variable),처치(treatment)등으로 불린다.

patsy를 활용한 더미변수화

  • 풀랭크 방식 patsy패키지의 dmatrix()함수는 범주값을 더미변수로 바꿔준다.
    1
    2
    3
    4
    5
    from patsy import dmatrix
    df = pd.DataFrame(["A", "B"], columns=["x"])
    df

    dmatrix("x + 0", df1)
  • 축소랭크 방식 특정한 하나의 범주값을 기준값으로 하고 기준값에 대응하는 더미변수의 가중치는 항상 1로 한다. 더미변수화 할떄 dmatrix()함수의 문자열에 +0을 생략함

두개의 범주형 변수

  • 통합 축소형 방식
  • 상호작용 방식

카테고리 임베딩

범주값 대신 범주값의 특성을 나타내는 연속값 혹은 연속값 벡터를 사용 예를들어 운동선수의 이름을 나타내는 범주값의 경우, 운동선수의 나이, 연봉, 신체능력치 등을 사용하고, 지역명을 나타내느 범주값은 지역의 면적, 인구수 등을 사용한다.