0%

정규표현식

정규표현식 : regx

  • 문자열을 처리할때 특정 패턴으로 문자열을 처리하는 방법

  • BeautifulSoup같이 html만이 아닌 JS코드 등 여러개 혼합 되어있는 페이지를 크롤링 할때 사용 가능

  • 예제

    • 문자열에서 정규표현식 패턴으로 이메일 찾아내기
    • 문자열에서 주민등록번호 패턴을 찾아서 마지막 6자리의 숫자를 *로 치환
    • 중고나라의 전화번호 패턴을 찾아서 숫자로 치환하기

함수

  • findall() : 일치하는 패턴의 문자열을 찾아서 리스트로 리턴해주는 함수
  • sub() : 특정 패턴에 맞는 문자열을 찾아서 특정 규칙에 따라 치환해주는 함수

패턴

  • [] : 문자
  • - : 범위
  • . : 하나의 문자
  • ? : 0또는 1회 반복
  • * : 0회 이상 반복
  • + : 1회 이상 반복
  • {m} : m회 반복
  • {m,n} : m~n회 반복
  • () : 그룹핑