re.sub 함수의 형태
re.sub(pattern, repl, string, count=0, flags=0)
re.sub('패턴', '바꿀문자열', '문자열', 바꿀횟수)
count는 음수가 아닌 정수, count가 0 또는 생략이면 찾은 문자열을 모두 치환.
sub함수를 통해 문자열 내의 특수문자를 제거해보자.
clean_text 함수에서 입력 문자열 inputString에 대해 입력된 특수문자들을 찾아 ' '공백으로 치환하여 변환된 문자열을 반환한다.
import re
def clean_text(inputString):
text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString)
return text_rmv
특수문자가 포함된 문자열을 clean_text함수에 적용하여 결과를 확인하면 아래와 같다.
input = '네덜란드 광장서 퍼진 "무궁화 꽃이 피었습니다" [포착]'
string = clean_text(input)
print(string)
문자열 내에 포함된 특수문자들이 공백으로 치환된 것을 확인 할 수 있다.
특수문자를 공백으로 치환하여 위에 출력된 문자열에는 공백의 위치에 여러개의 공백이 포함되어 있다.
여러개의 공백을 제거하고 하나의 공백으로 나타내도록 split / join 함수를 이용해 clean_text함수에 코드를 추가한다.
split / join 참고 :
2021.10.19 - [python] - [python] 문자열 분리하기 합치기 ( split / join )
import re
def clean_text(inputString):
text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString)
text_rmv = ' '.join(text_rmv.split())
return text_rmv
위의 결과와는 다르게 문자열 내의 여러 개로 이루어진 공백들이 하나의 공백으로 된 것을 확인할 수 있다.
참고 :
https://docs.python.org/ko/3/library/re.html#re.sub
https://jdh5202.tistory.com/394
https://m.blog.naver.com/wideeyed/221906671758
'Python' 카테고리의 다른 글
[python] pandas dataframe 중복데이터 찾기, 제거하기 (duplicated / drop_duplicates) (0) | 2021.10.21 |
---|---|
[python] 문자열 분리하기 합치기 ( split / join ) (0) | 2021.10.19 |
[python] 데이터프레임 내의 값이 2차원리스트 일 때 2차원 리스트끼리 합치기 (0) | 2021.10.12 |
[python] 여러개의 데이터프레임 합치기 (concat multiple dataframes in Python) (1) | 2021.10.07 |
[python] dictionary list에서 key에 따른 value들 더하기 (0) | 2021.10.06 |
댓글