[python] re.sub 정규표현식을 통한 문자열 치환 (특수문자 제거)
re.sub 함수의 형태 re.sub(pattern, repl, string, count=0, flags=0) re.sub('패턴', '바꿀문자열', '문자열', 바꿀횟수) count는 음수가 아닌 정수, count가 0 또는 생략이면 찾은 문자열을 모두 치환. sub함수를 통해 문자열 내의 특수문자를 제거해보자. clean_text 함수에서 입력 문자열 inputString에 대해 입력된 특수문자들을 찾아 ' '공백으로 치환하여 변환된 문자열을 반환한다. import re def clean_text(inputString): text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString) return text_rmv 특..
2021. 10. 19.
[python] 데이터프레임 내의 값이 2차원리스트 일 때 2차원 리스트끼리 합치기
데이터프레임 내에서 특정 열의 값이 2차원 리스트로 되어있을 때 특정 조건에 대해서 행끼리 더할 경우 2차원 리스트로 저장된 해당 열은 2차원리스트 형태를 그대로 유지하며 그 안의 1차원 리스트들을 합치고자 한다. 우선 예시로 세 개의 리스트를 만든다. my_list = [['hello', 4, 2], ['안녕', 5, 4]] my_list2 = [['판다스', 52, 25], ['데이터프레임', 0, 3]] my_list3 = [['파이썬', 40, 20], ['안녕안녕', 10, 5], ['댓글문자열', 2, 3]] 각 행이 Date 와 이중리스트를 열의 값으로 갖는 데이터프레임으로 만들어 출력해보면 다음과 같다. df_list = pd.DataFrame({'Date' : '2021-10-12', '..
2021. 10. 12.
[python] 여러개의 데이터프레임 합치기 (concat multiple dataframes in Python)
먼저 간단한 데이터 프레임 여러 개를 만든다. import pandas as pd import numpy as np df1 = pd.DataFrame({'ID' : ['a_1', 'a_2', 'a_3'], 'COUNT' : [5, 3, 4]}) df1 df2 = pd.DataFrame({'ID' : ['b_1', 'b_2'], 'COUNT' : [20, 30]}) df2 df3 = pd.DataFrame({'ID' : ['c_1', 'c_2', 'c_3'], 'COUNT' : [17, 18, 20]}) df3 합칠 여러개의 데이터프레임을 리스트로 만들고 그 리스트를 concat 한다. 결과를 출력해보면 세개의 데이터프레임 df1, df2, df3가 하나의 데이터프레임으로 합쳐진 것을 확인할 수 있다. d..
2021. 10. 7.