DataAnalysis
-
subway 서브웨이 전국매장 웹크롤링DataAnalysis/웹크롤링 2022. 4. 25. 00:58
import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt import matplotlib result = [] #서브웨이 for pageNum in range(1,8): url = f'https://www.subway.co.kr/storeSearch?page={pageNum}&rgn1Nm=&rgn2Nm=#storeList' response = requests.get(url) print('-------------------------- " ', pageNum) if response.status_code == 200: html = response.content soup = BeautifulS..
-
pandas 걸측데이터 정리DataAnalysis/개념정리 2022. 4. 24. 22:50
1.걸측데이터 확인 df.isnull( ) 2.결측값 개수 df.isnull().sum() 3.결측치가 있는 전체 행 제거 df_drop_allrow = df.dropna(axis=0) df_drop_allrow 4.특정 행 또는 열 결측치 제거 df['컬럼'].dropna() 5.결측값을 특정 값(0)으로 대체 df_1 = df.fillna(0) 6.특정항목 평균으로 대체 df_7 = df.컬럼.fillna(df.mean()['컬럼']) df_7 df['kor']=df['kor'].fillna('10d') df 7.duplicated() 메소드로 중복 데이터 찾기 df.duplicated(['이용거리','나이']) 8.이상값이 있는 4번째 행 제거 df.drop(4,axis=0) 9. drop_dupl..
-
pandas dataframe 정리2DataAnalysis/개념정리 2022. 4. 24. 22:48
데이터 csv파일로 저장 import pandas as pd import matplotlib as mpl #맷플롭립 import matplotlib.pyplot as plt plt.rc('font', family='Malgun Gothic') df = pd.DataFrame([[500,450,520,610],[690,700,820,900], [1100,1030,1200,1380],[1500,1650,1700,1850], [1990,2020,2300,2420],[1020,1600,2200,2550]], index = [2015, 2016, 2017, 2018, 2019, 2020], columns = ['1분기', '2분기', '3분기', '4분기']) df.to_csv('C:/Users/user/Desk..
-
pandas dataframe 정리DataAnalysis/개념정리 2022. 4. 24. 22:25
정적웹크롤링 import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt import matplotlib result = [] #쿠우쿠우 for pageNum in range(1,8): url = f'http://www.qooqoo.co.kr/bbs/board.php?bo_table=storeship&&page={pageNum}' response = requests.get(url) print('-------------------------- " ', pageNum) if response.status_code == 200: html = response.content soup = Beautifu..
-
쿠우쿠우 웹크롤링 전국매장 정보 가져오기 (beautifulsoup)DataAnalysis/웹크롤링 2022. 4. 22. 23:29
import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt import matplotlib result = [] #쿠우쿠우 for pageNum in range(1,8): url = f'http://www.qooqoo.co.kr/bbs/board.php?bo_table=storeship&&page={pageNum}' response = requests.get(url) print('-------------------------- " ', pageNum) if response.status_code == 200: html = response.content soup = BeautifulSoup(h..
-
카페베이 coffeebay 웹크롤링 매장정보 가져오기 (beautifulsoup)DataAnalysis/웹크롤링 2022. 4. 22. 22:55
import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt import matplotlib result = [] #커피베이 for pageNum in range(1,34): url = 'https://www.coffeebay.com/home/store/store_area?sido=&gugun=&sc_column=&sc_string=&svc_wifi_at=&svc_catering_at=&svc_event_at=&svc_24hr_at=&svc_smok_at=&svc_park_at=&svc_kidsrm_at=&svc_bookrm_at=&svc_pwdrrm_at=&svc_meetrm_at=&svc..
-
Beautifulsoup 기본 정리 : 속성 및 태그 가져오기DataAnalysis/개념정리 2022. 4. 22. 22:34
1. 태그 중에서 class,id 속성 값으로 찾기 1) test = soup.find('div',{'class':'catt1'}) 2) tr.find('span', class_="color-grey").text ur=soup.find('ul', id="datalist") 2. 태그로 가져오기 test2 = test.find_all('td') soup.find('td') 3. class명으로 가져오기 test3 = soup.find(class_='catt1') 4.id로 가져오기 soup.find(id="title") 5.연속된 태그로 리스트가져오기 li_list=soup.select("div>ul.brand>li") for li in li_list: print(li.string) + ui태그 중에서 c..
-
파스쿠찌 매장정보 크롤링 (Beautifulsoup,지역별 열합계 구하기)DataAnalysis/웹크롤링 2022. 4. 19. 14:48
파스쿠찌 매장정보를 가져오는 전체코드 import requests from bs4 import BeautifulSoup import pandas as pd result = [] for pageNum in range(1,54): url = f'https://www.caffe-pascucci.co.kr/store/storeList.asp?page={pageNum}' #f string %로 만들어도 됨 response = requests.get(url) print('-------------------------- " ', pageNum) if response.status_code == 200: html = response.text soup = BeautifulSoup(html, 'html.parser') tb..