정규표현식 : regx
BeautifulSoup같이 html만이 아닌 JS코드 등 여러개 혼합 되어있는 페이지를 크롤링 할때 사용 가능
예제
- 문자열에서 정규표현식 패턴으로 이메일 찾아내기
- 문자열에서 주민등록번호 패턴을 찾아서 마지막 6자리의 숫자를
*
로 치환 - 중고나라의 전화번호 패턴을 찾아서 숫자로 치환하기
함수
findall()
: 일치하는 패턴의 문자열을 찾아서 리스트로 리턴해주는 함수sub()
: 특정 패턴에 맞는 문자열을 찾아서 특정 규칙에 따라 치환해주는 함수
패턴
[]
: 문자-
: 범위.
: 하나의 문자?
: 0또는 1회 반복*
: 0회 이상 반복+
: 1회 이상 반복{m}
: m회 반복{m,n}
: m~n회 반복()
: 그룹핑