DataAnalysis/개념정리
-
pandas 걸측데이터 정리DataAnalysis/개념정리 2022. 4. 24. 22:50
1.걸측데이터 확인 df.isnull( ) 2.결측값 개수 df.isnull().sum() 3.결측치가 있는 전체 행 제거 df_drop_allrow = df.dropna(axis=0) df_drop_allrow 4.특정 행 또는 열 결측치 제거 df['컬럼'].dropna() 5.결측값을 특정 값(0)으로 대체 df_1 = df.fillna(0) 6.특정항목 평균으로 대체 df_7 = df.컬럼.fillna(df.mean()['컬럼']) df_7 df['kor']=df['kor'].fillna('10d') df 7.duplicated() 메소드로 중복 데이터 찾기 df.duplicated(['이용거리','나이']) 8.이상값이 있는 4번째 행 제거 df.drop(4,axis=0) 9. drop_dupl..
-
pandas dataframe 정리2DataAnalysis/개념정리 2022. 4. 24. 22:48
데이터 csv파일로 저장 import pandas as pd import matplotlib as mpl #맷플롭립 import matplotlib.pyplot as plt plt.rc('font', family='Malgun Gothic') df = pd.DataFrame([[500,450,520,610],[690,700,820,900], [1100,1030,1200,1380],[1500,1650,1700,1850], [1990,2020,2300,2420],[1020,1600,2200,2550]], index = [2015, 2016, 2017, 2018, 2019, 2020], columns = ['1분기', '2분기', '3분기', '4분기']) df.to_csv('C:/Users/user/Desk..
-
pandas dataframe 정리DataAnalysis/개념정리 2022. 4. 24. 22:25
정적웹크롤링 import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt import matplotlib result = [] #쿠우쿠우 for pageNum in range(1,8): url = f'http://www.qooqoo.co.kr/bbs/board.php?bo_table=storeship&&page={pageNum}' response = requests.get(url) print('-------------------------- " ', pageNum) if response.status_code == 200: html = response.content soup = Beautifu..
-
Beautifulsoup 기본 정리 : 속성 및 태그 가져오기DataAnalysis/개념정리 2022. 4. 22. 22:34
1. 태그 중에서 class,id 속성 값으로 찾기 1) test = soup.find('div',{'class':'catt1'}) 2) tr.find('span', class_="color-grey").text ur=soup.find('ul', id="datalist") 2. 태그로 가져오기 test2 = test.find_all('td') soup.find('td') 3. class명으로 가져오기 test3 = soup.find(class_='catt1') 4.id로 가져오기 soup.find(id="title") 5.연속된 태그로 리스트가져오기 li_list=soup.select("div>ul.brand>li") for li in li_list: print(li.string) + ui태그 중에서 c..
-
pandas dataframe csv파일 읽기, 만들기DataAnalysis/개념정리 2022. 4. 17. 01:19
데이터저장 import pandas as pd >>> df1=pd.DataFrame([[500,450,520,610],[690,700,820,900],[1100,1030,1200,1380],[1500,1650,1700,1850],[1900,2020,2300,2420],[1020,1600,2200,2550]], index=[2015,2016,2017,2018,2019,2020],columns=['1분기','2분기','3분기','4분기']) df1.to_csv('C:/Users/user/Desktop/data2.csv', header='False',encoding='utf-8-sig') 데이터불러와서 차트그리기 import pandas as pd import matplotlib.pyplot as plt im..