본문 바로가기

Python17

[python] dictionary list에서 key에 따른 value들 더하기 이전에 뉴스기사를 크롤링한 후 내용이 같은 기사에 대해 Sentiment dictionary의 값들을 합쳐야 했다. 그래서 dictionary list에서 key에 따른 value들을 더하는 함수를 알아보았다. 우선 dictionary list를 하나 만든다. dic1 = {'좋아요': 5, '훈훈해요': 5, '슬퍼요': 0, '화나요': 2, '추천해요' : 1} dic2 = {'좋아요': 5, '훈훈해요': 5, '슬퍼요': 0, '화나요': 2, '추천해요' : 1} dic3 = {'좋아요': 5, '훈훈해요': 5, '슬퍼요': 0, '화나요': 2, '추천해요' : 1} dic4 = {'좋아요': 5, '훈훈해요': 5, '슬퍼요': 0, '화나요': 3, '추천해요' : 1} 이 dictio.. 2021. 10. 6.
[python] 문자열 공백 제거 replace 함수 사용하기 str.replace(old, new[, count]) 다음뉴스 정치탭을 크롤링하여 저장한 bin파일 읽기 dataframe의 head()만 출력해 확인하기 with open(daum_link1, 'rb') as f: df_daum_link1 = pickle.load(f) df_daum_link1.head() 'Press' column을 통해 언론사의 이름만 확인하기 df_daum_link1["Press"].unique() 언론사 이름에서 공백 지우기 pandas dataframe의 column에 대해서 그냥 replace를 하면 replace가 되지 않은 것을 볼 수 있다. 위와 같이 공백이 제거되지 않는다. replace 앞에 str을 추가하면 replace함수가 제대로 적용된다. df_daum_li.. 2021. 10. 5.
[python] 다음 뉴스 크롤링 (python crawling) import requests import lxml.html import pandas as pd from pandas.io import sql import os import time import datetime 뉴스 url 에 필요한 date list date_index = pd.date_range(start='20210801', end='20210803') date_list = date_index.strftime("%Y%m%d").tolist() date_list category = ['politics', 'economic', 'society', 'culture', 'foreign', 'digital'] id_list = ['10000', '10100', '10200', '10300', '10400', .. 2021. 9. 12.
[python] 파이썬 딕셔너리 안에서 특정 키만 가져오기 파이썬 딕셔너리 안에서 특정 키만 가져오기 다음과 같은 dictionary가 있을 때, category_id = {'politics' : '10000', 'economic' : '10100', 'society' : '10200', 'culture' : '10300', 'foreign' : '10400', 'digital' : '10500'} keys() 함수를 통해 dictionary에 포함된 모든 key들을 출력해보면 아래와 같다. 여러 key값 중 'digital'만 출력하기 위해 아래와 같이 입력하면, category_id.keys()는 시퀀스 객체가 아니기 때문에 error가 난다. category_id.keys()를 순서가 있는 시퀀스 자료형인 list로 변환하여 접근해야 한다. print(li.. 2021. 9. 12.