본문 바로가기
Python

[python] re.sub 정규표현식을 통한 문자열 치환 (특수문자 제거)

by clolee 2021. 10. 19.

re.sub 함수의 형태 

 

re.sub(pattern, repl, string, count=0, flags=0)

re.sub('패턴', '바꿀문자열', '문자열', 바꿀횟수)

 

count는 음수가 아닌 정수, count가 0 또는 생략이면 찾은 문자열을 모두 치환.

 

sub함수를 통해 문자열 내의 특수문자를 제거해보자.

clean_text 함수에서 입력 문자열 inputString에 대해 입력된 특수문자들을 찾아 ' '공백으로 치환하여 변환된 문자열을 반환한다.

import re

def clean_text(inputString):
  text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString)
  return text_rmv

 

특수문자가 포함된 문자열을 clean_text함수에 적용하여 결과를 확인하면 아래와 같다.

input = '네덜란드 광장서 퍼진 "무궁화 꽃이 피었습니다" [포착]'
string = clean_text(input)
print(string)

 

문자열 내에 포함된 특수문자들이 공백으로 치환된 것을 확인 할 수 있다.

 

특수문자를 공백으로 치환하여 위에 출력된 문자열에는 공백의 위치에 여러개의 공백이 포함되어 있다.

여러개의 공백을 제거하고 하나의 공백으로 나타내도록 split / join 함수를 이용해 clean_text함수에 코드를 추가한다.

 

split / join 참고 : 

2021.10.19 - [python] - [python] 문자열 분리하기 합치기 ( split / join )

 

import re

def clean_text(inputString):
  text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString)
  text_rmv = ' '.join(text_rmv.split())
  return text_rmv

위의 결과와는 다르게 문자열 내의 여러 개로 이루어진 공백들이 하나의 공백으로 된 것을 확인할 수 있다. 

 

 

참고 :

https://docs.python.org/ko/3/library/re.html#re.sub

https://jdh5202.tistory.com/394

https://m.blog.naver.com/wideeyed/221906671758

 

 

댓글