분류 전체보기
-
[로지스틱 회귀 분석] 특징데이터로 유방암 진단하기DataAnalysis/모델 분석 2022. 6. 1. 01:06
1. 로지스틱 회귀 -선형 회귀 방식을 참/거짓의 이진 분류에 적용한 기법 -분류에 사용하는기법 으로 선형회귀와달리 S자함수를사 용하여 참(True, 1)과 거짓(False, 0)을 분류 -로지스틱 회귀 모델은 이진 분류 결과를 평가하기 위해 오차 행렬에 기반한 성능 지표인 정밀도, 재현율, F1 스코어,ROC_AUC를 사용 2. 시그모이드 함수 -로지스틱 회귀에서 사용하는 S자 함수 -x의 값이 커지면 y의 값은 1에 근사하게 되고 x의 값이 작아지면 y의 값은 0 에 근사하게 되어 S자형태의 그래프가 됨 –두개의값을분류하는이진분류에많이사용 3.오차 행렬 -이진 분류의 예측 오류를 나타내는 지표 -사이킷런에서는 오차 행렬을 구하기 위해 confusion_matrix함수 제공 4.정확도 5.정밀도 -예측..
-
[선형 회귀] 자동차 예상 연비 예측하기DataAnalysis/모델 분석 2022. 6. 1. 01:04
데이터 가져오기 import numpy as np #numpy import import pandas as pd #pandas import data_df= pd.read_csv('auto-mpg.csv', header = 0, engine = 'python') #데이터 csv파일 읽어오기 print('데이터셋크기: ', data_df.shape) #데이터크기 출력 #'car_name', 'origin', 'horsepower' 제거, axis=1 열을 기준으로 삭제, inplace=false: 원본을 변경하지 않는다. data_df= data_df.drop(['car_name', 'origin', 'horsepower'], axis = 1, inplace= False) 선형 회귀 모델 만들기 from sk..
-
[선형회귀분석+ 산점도/선형회귀그래프] 환경에따른주택가격예측하기DataAnalysis/모델 분석 2022. 6. 1. 01:01
1. 회귀분석: 입력 데이터를 기반으로 결과를 예측하는 것 2. 머신러닝 -1959년 아서 사무엘: ‘컴퓨터에 명시적인 프로그램 없이 스스로 학습 할 수 있는 능력을 부여하는 연구분야’로정의 –인간이 지식과 경험을 학습하는 방법을 용하여 컴퓨터에 입력된 데이터에서 스스로 패턴을 찾아 학습하여 새로운 지식을만들고 예측하는 통찰을 제공하는 AI의 한 분야 3. 머신러닝 프로세스 –데이터수집→ 데이터 전처리 및 훈련/테스트 데이터 분할→ 모델구축및학습→ 모델평가→ 예측 4. 지도 학습 -학습을 하기 위한 훈련 데이터에 입력과 출력을 같이 제공 -문제에 대한 답을 아는 상태에서 학습하느 방식 -입력: 예측 변수, 속성,특징 -출력: 반응 변수, 목표 변수,클래스,레이블 5.사이킷런 -마지막 컬럼 종속 변수 Y,..
-
[상관분석+히트맵] 타이타닉호 생존율 분석하기DataAnalysis/모델 분석 2022. 6. 1. 00:56
1. 상관 분석 - 두 변수가 어떤 선형적 관계에 있는지를 분석하는 방법 -두 변수는 서로 독립적이거나 상관된 관계일 수 있는데, 두 변수의 관계의 강도를 상관관계라고함 -상관 분석에서는 상관관계의 정도를 나타내는 단위로 모상관 계수 ρ를 사용 2.단순 상관 분석 - 두 변수가 어느 정도 강한 관계에 있는지 측정 3. 다중 상관 분석 -세 개 이상의 변수 간 관계의 강도를 측정 -편상관 분석: 다른 변수와의 관계를 고정하고 두 변수 간 관계의 강도를 나타내는 것 4. 상관 계수 ρ -변수 간 관계의정도(0~1)와 방향(+,-)을 하나의 수치로 요약해주는 지수로 -1~1 사이의 값 -상관 계수 +: 양의 상관관계, 한 변수가 증가하면 다른 변수도 증가 -상관 계수 - : 음의 상관관계, 한 변수가 증가할 ..
-
[기술통계분석] 와인 품질 예측하기DataAnalysis/모델 분석 2022. 6. 1. 00:48
1. 기술 통계(요약 통계) -데이터의 특성을 나타내는 수치를 이용해 분석하는 기본적인 통계 방법 -평균,중앙값,최빈값 등을 구할 수 있음 2.회귀 분석 -독립 변수 x,종속변수 y간의 상호 연관성 정도를 파악하기 위한 분석 기법 -하나의 변수가 변함에 따라 대응 되는 변수가 어떻게 변하는지를 측정하는 것 -변수 간의 인과관계를 분석 할 때 많이 사용 -독립 변수가 한 개이면 단순 회귀 분석, 두 개 이상이면 다중 회귀 분석 -독립 변수와 종속 변수의 관계에 따라 선형 회귀 분석과 비선형 회귀 분석으로 나눠짐 -선형 회귀 분석 식: y=b0+b1x1+b2x2... 3.t-검정 -데이터에서 찾은 평균으로 두 그룹에 차이가 있는지 확인하는 방법 4.히스토그램 - 데이터 값의 범위를 몇 개 구간으로 나누고 각..
-
[python] 코로나 홈페이지 웹 크롤링 및 데이터전처리 : 정적 페이지 웹크롤링, beautifulsoup 사용DataAnalysis/웹크롤링 2022. 4. 25. 19:53
코로나 홈페이지에 있는 데이터 크롤링 하기 import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt import matplotlib result = [] url = 'http://ncov.mohw.go.kr/bdBoardList_Real.do?brdId=1&brdGubun=13&ncvContSeq=&contSeq=&board_id=&gubun=' response = requests.get(url) if response.status_code == 200: html = response.text soup = BeautifulSoup(html,'html.parser') tbody=soup.fin..
-
subway 서브웨이 전국매장 웹크롤링DataAnalysis/웹크롤링 2022. 4. 25. 00:58
import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt import matplotlib result = [] #서브웨이 for pageNum in range(1,8): url = f'https://www.subway.co.kr/storeSearch?page={pageNum}&rgn1Nm=&rgn2Nm=#storeList' response = requests.get(url) print('-------------------------- " ', pageNum) if response.status_code == 200: html = response.content soup = BeautifulS..