본문 바로가기

분류 전체보기140

[python] pandas dataframe 중복데이터 찾기, 제거하기 (duplicated / drop_duplicates) 우선 예제로 쓸 데이터프레임을 하나 생성한다. import pandas as pd df = pd.DataFrame({'ID' : ['c_01', 'c_02', 'c_03', 'c_04', 'c_05', 'c_06'], 'Type' : ['a', 'a', 'a', 'b', 'b', 'c'], 'Rank' : [1, 1, 2, 2, 2, 3]}) df DataFrame.duplicated(subset=None, keep='first') 중복 행 확인하기 subset은 중복을 확인할 열을 [리스트 형태]로 입력한다. default는 모든 열에 대해 중복을 확인한다. keep은 first, last, False 중 선택한다. default는 first. keep='first' 이면 중복 행 중 첫번째 행만 Fa.. 2021. 10. 21.
[python] 문자열 분리하기 합치기 ( split / join ) - 문자열 분리하기 str.split(sep=None, maxsplit=- 1) sep를 구분자로 사용해 문자열을 분리하여 문자열에 있는 단어들의 리스트를 반환한다. maxsplit을 지정하면 최대 maxsplit 수 만큼 분할을 수행하고 리스트는 최대 maxsplit + 1 개의 요소를 갖게 된다. maxsplit을 지정하지 않거나 -1로 두면 문자열을 분할 가능한 만큼 모두 분할하여 단어들의 리스트를 반환한다. sep를 지정하면 sep를 구분자로 문자열을 분리한다. sep를 지정하지 않거나 None이면 공백을 기준으로 문자열을 분리하여 리스트로 반환한다. 예시 결과 확인 string = '네덜란드 광장서 퍼진 무궁화 꽃이 피었습니다' split_text = string.split() print(spl.. 2021. 10. 19.
[python] re.sub 정규표현식을 통한 문자열 치환 (특수문자 제거) re.sub 함수의 형태 re.sub(pattern, repl, string, count=0, flags=0) re.sub('패턴', '바꿀문자열', '문자열', 바꿀횟수) count는 음수가 아닌 정수, count가 0 또는 생략이면 찾은 문자열을 모두 치환. sub함수를 통해 문자열 내의 특수문자를 제거해보자. clean_text 함수에서 입력 문자열 inputString에 대해 입력된 특수문자들을 찾아 ' '공백으로 치환하여 변환된 문자열을 반환한다. import re def clean_text(inputString): text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', inputString) return text_rmv 특.. 2021. 10. 19.
[R] r markdown Theme과 Syntax highlighting 설정하기 r markdown Theme, Syntax highlighting 설정하기 1. markdown파일 만들기 New File - R Markdown 클릭. 새로운 markdown 파일 만들기 2. markdown파일을 열고, 설정 - Output Options 클릭 3. Syntax highlighting, Apply theme 설정하기 Syntax highlighting, Theme 종류 확인은 참고 링크 확인하기 참고 : https://www.datadreaming.org/post/r-markdown-theme-gallery/ https://eranraviv.com/syntax-highlighting-style-in-rmarkdown/ 2021. 10. 12.