DataAnalysis/모델 분석
-
[k-means]타깃마케팅을 위한 소비자군집 분석하기DataAnalysis/모델 분석 2022. 6. 2. 22:01
1. 비지도 학습 -훈련 데이터에 타깃값이 주어지지 않은 상태에서 학습 수행 -훈련 데이터를 학습하여 모델을 생성하면서 유사한 특성을 가지는 데이터를 클러스터로 구성 -새로운 데이터의 특성을 분석하여 해당하는 클러스터를 예측 2.군집화 데이터를 클러스터(군집)로 구성하는 작업 3.군집화의 목표 서로 유사한 데이터들은 같은 그룹으로, 서로 유사하지 않은 데이터는 다른 그룹으로 분리한 것 -k개의 클러스터 수 결정 -데이터의 유사도? means 각 데이터와 클러스터 중심점 과의 평균거리 4.K-means 1)k개의 임의의 중심점 배치 2) 각 데이터들을 가장 가까운 중심점으로 할당(군집으로 형성 3)군집 내 데이터들을 기반으로 중심점 이동 4)중심점의 이동이 없을 때 까지 반복 5. K-평균 알고리즘 -k개..
-
[결정 트리 분석] 센서 데이터로 움직임 분류하기DataAnalysis/모델 분석 2022. 6. 2. 12:02
1. 결정 트리 -다중 분류에 많이 사용 -데이터 안에서 if/else기반으로 규칙을 찾아 학습하여 트리 구조의 분류 구칙을 만듦 -결정 트리의 구조는 규칙 조건(if)을 나타내는 규칙노드, 분류가 결정된 클래스 값이 표시된 리프 노드로 구성 -데이터의 균일도를 계산하는 대표적인 방법으로 정보 이득 지수, 지니 계수가 있음 2. 정보 이득 지수 -정보 이득은 엔트로피 개념을 기반으로함 -엔트로피: 데이터 집합의 혼잡도 -데이터 집합에 다른 데이터= 균일도가 떨어짐-> 혼잡도 높아짐 -> 엔트로피 높아짐 -데이터 집합에 같은 데이터= 균일도가 높아짐-> 혼잡도 떨어짐 -> 엔트로피 낮아짐 -정보 이득 지수: 혼잡도가 줄어들며 얻게 되는 이득, 1-엔트로피 -결정 트리: 정보 이득 지수가 높은 피처를 분할 ..
-
[로지스틱 회귀 분석] 특징데이터로 유방암 진단하기DataAnalysis/모델 분석 2022. 6. 1. 01:06
1. 로지스틱 회귀 -선형 회귀 방식을 참/거짓의 이진 분류에 적용한 기법 -분류에 사용하는기법 으로 선형회귀와달리 S자함수를사 용하여 참(True, 1)과 거짓(False, 0)을 분류 -로지스틱 회귀 모델은 이진 분류 결과를 평가하기 위해 오차 행렬에 기반한 성능 지표인 정밀도, 재현율, F1 스코어,ROC_AUC를 사용 2. 시그모이드 함수 -로지스틱 회귀에서 사용하는 S자 함수 -x의 값이 커지면 y의 값은 1에 근사하게 되고 x의 값이 작아지면 y의 값은 0 에 근사하게 되어 S자형태의 그래프가 됨 –두개의값을분류하는이진분류에많이사용 3.오차 행렬 -이진 분류의 예측 오류를 나타내는 지표 -사이킷런에서는 오차 행렬을 구하기 위해 confusion_matrix함수 제공 4.정확도 5.정밀도 -예측..
-
[선형 회귀] 자동차 예상 연비 예측하기DataAnalysis/모델 분석 2022. 6. 1. 01:04
데이터 가져오기 import numpy as np #numpy import import pandas as pd #pandas import data_df= pd.read_csv('auto-mpg.csv', header = 0, engine = 'python') #데이터 csv파일 읽어오기 print('데이터셋크기: ', data_df.shape) #데이터크기 출력 #'car_name', 'origin', 'horsepower' 제거, axis=1 열을 기준으로 삭제, inplace=false: 원본을 변경하지 않는다. data_df= data_df.drop(['car_name', 'origin', 'horsepower'], axis = 1, inplace= False) 선형 회귀 모델 만들기 from sk..
-
[선형회귀분석+ 산점도/선형회귀그래프] 환경에따른주택가격예측하기DataAnalysis/모델 분석 2022. 6. 1. 01:01
1. 회귀분석: 입력 데이터를 기반으로 결과를 예측하는 것 2. 머신러닝 -1959년 아서 사무엘: ‘컴퓨터에 명시적인 프로그램 없이 스스로 학습 할 수 있는 능력을 부여하는 연구분야’로정의 –인간이 지식과 경험을 학습하는 방법을 용하여 컴퓨터에 입력된 데이터에서 스스로 패턴을 찾아 학습하여 새로운 지식을만들고 예측하는 통찰을 제공하는 AI의 한 분야 3. 머신러닝 프로세스 –데이터수집→ 데이터 전처리 및 훈련/테스트 데이터 분할→ 모델구축및학습→ 모델평가→ 예측 4. 지도 학습 -학습을 하기 위한 훈련 데이터에 입력과 출력을 같이 제공 -문제에 대한 답을 아는 상태에서 학습하느 방식 -입력: 예측 변수, 속성,특징 -출력: 반응 변수, 목표 변수,클래스,레이블 5.사이킷런 -마지막 컬럼 종속 변수 Y,..
-
[상관분석+히트맵] 타이타닉호 생존율 분석하기DataAnalysis/모델 분석 2022. 6. 1. 00:56
1. 상관 분석 - 두 변수가 어떤 선형적 관계에 있는지를 분석하는 방법 -두 변수는 서로 독립적이거나 상관된 관계일 수 있는데, 두 변수의 관계의 강도를 상관관계라고함 -상관 분석에서는 상관관계의 정도를 나타내는 단위로 모상관 계수 ρ를 사용 2.단순 상관 분석 - 두 변수가 어느 정도 강한 관계에 있는지 측정 3. 다중 상관 분석 -세 개 이상의 변수 간 관계의 강도를 측정 -편상관 분석: 다른 변수와의 관계를 고정하고 두 변수 간 관계의 강도를 나타내는 것 4. 상관 계수 ρ -변수 간 관계의정도(0~1)와 방향(+,-)을 하나의 수치로 요약해주는 지수로 -1~1 사이의 값 -상관 계수 +: 양의 상관관계, 한 변수가 증가하면 다른 변수도 증가 -상관 계수 - : 음의 상관관계, 한 변수가 증가할 ..
-
[기술통계분석] 와인 품질 예측하기DataAnalysis/모델 분석 2022. 6. 1. 00:48
1. 기술 통계(요약 통계) -데이터의 특성을 나타내는 수치를 이용해 분석하는 기본적인 통계 방법 -평균,중앙값,최빈값 등을 구할 수 있음 2.회귀 분석 -독립 변수 x,종속변수 y간의 상호 연관성 정도를 파악하기 위한 분석 기법 -하나의 변수가 변함에 따라 대응 되는 변수가 어떻게 변하는지를 측정하는 것 -변수 간의 인과관계를 분석 할 때 많이 사용 -독립 변수가 한 개이면 단순 회귀 분석, 두 개 이상이면 다중 회귀 분석 -독립 변수와 종속 변수의 관계에 따라 선형 회귀 분석과 비선형 회귀 분석으로 나눠짐 -선형 회귀 분석 식: y=b0+b1x1+b2x2... 3.t-검정 -데이터에서 찾은 평균으로 두 그룹에 차이가 있는지 확인하는 방법 4.히스토그램 - 데이터 값의 범위를 몇 개 구간으로 나누고 각..