본문 바로가기

Python8

[Visual Studio Code] VSCode 에서 black과 prettier를 사용한 python formatting setting VSCode 에서 black과 prettier를 사용한 python formatting setting black 설치 pip install black cmd + , 로 setting 열기 formatting provider 검색 black 선택 python format on save 체크 cmd + shift + p 로 settings.json 열기 settings.json 추가 { "python.formatting.provider": "black", "python.linting.pylintEnabled": true, "python.linting.enabled": true, "[python]": { "editor.defaultFormatter": "ms-python.python", "editor.form.. 2022. 8. 28.
[python] 여러개의 데이터프레임 합치기 (concat multiple dataframes in Python) 먼저 간단한 데이터 프레임 여러 개를 만든다. import pandas as pd import numpy as np df1 = pd.DataFrame({'ID' : ['a_1', 'a_2', 'a_3'], 'COUNT' : [5, 3, 4]}) df1 df2 = pd.DataFrame({'ID' : ['b_1', 'b_2'], 'COUNT' : [20, 30]}) df2 df3 = pd.DataFrame({'ID' : ['c_1', 'c_2', 'c_3'], 'COUNT' : [17, 18, 20]}) df3 합칠 여러개의 데이터프레임을 리스트로 만들고 그 리스트를 concat 한다. 결과를 출력해보면 세개의 데이터프레임 df1, df2, df3가 하나의 데이터프레임으로 합쳐진 것을 확인할 수 있다. d.. 2021. 10. 7.
[python] dictionary list에서 key에 따른 value들 더하기 이전에 뉴스기사를 크롤링한 후 내용이 같은 기사에 대해 Sentiment dictionary의 값들을 합쳐야 했다. 그래서 dictionary list에서 key에 따른 value들을 더하는 함수를 알아보았다. 우선 dictionary list를 하나 만든다. dic1 = {'좋아요': 5, '훈훈해요': 5, '슬퍼요': 0, '화나요': 2, '추천해요' : 1} dic2 = {'좋아요': 5, '훈훈해요': 5, '슬퍼요': 0, '화나요': 2, '추천해요' : 1} dic3 = {'좋아요': 5, '훈훈해요': 5, '슬퍼요': 0, '화나요': 2, '추천해요' : 1} dic4 = {'좋아요': 5, '훈훈해요': 5, '슬퍼요': 0, '화나요': 3, '추천해요' : 1} 이 dictio.. 2021. 10. 6.
[python] 문자열 공백 제거 replace 함수 사용하기 str.replace(old, new[, count]) 다음뉴스 정치탭을 크롤링하여 저장한 bin파일 읽기 dataframe의 head()만 출력해 확인하기 with open(daum_link1, 'rb') as f: df_daum_link1 = pickle.load(f) df_daum_link1.head() 'Press' column을 통해 언론사의 이름만 확인하기 df_daum_link1["Press"].unique() 언론사 이름에서 공백 지우기 pandas dataframe의 column에 대해서 그냥 replace를 하면 replace가 되지 않은 것을 볼 수 있다. 위와 같이 공백이 제거되지 않는다. replace 앞에 str을 추가하면 replace함수가 제대로 적용된다. df_daum_li.. 2021. 10. 5.
[python] 다음 뉴스 크롤링 (python crawling) import requests import lxml.html import pandas as pd from pandas.io import sql import os import time import datetime 뉴스 url 에 필요한 date list date_index = pd.date_range(start='20210801', end='20210803') date_list = date_index.strftime("%Y%m%d").tolist() date_list category = ['politics', 'economic', 'society', 'culture', 'foreign', 'digital'] id_list = ['10000', '10100', '10200', '10300', '10400', .. 2021. 9. 12.
[python] 파이썬 딕셔너리 안에서 특정 키만 가져오기 파이썬 딕셔너리 안에서 특정 키만 가져오기 다음과 같은 dictionary가 있을 때, category_id = {'politics' : '10000', 'economic' : '10100', 'society' : '10200', 'culture' : '10300', 'foreign' : '10400', 'digital' : '10500'} keys() 함수를 통해 dictionary에 포함된 모든 key들을 출력해보면 아래와 같다. 여러 key값 중 'digital'만 출력하기 위해 아래와 같이 입력하면, category_id.keys()는 시퀀스 객체가 아니기 때문에 error가 난다. category_id.keys()를 순서가 있는 시퀀스 자료형인 list로 변환하여 접근해야 한다. print(li.. 2021. 9. 12.