2026/04/05 15

(파이썬 한권으로 끝내기) 군집분석

*알고리즘별 장단점 및 적합한 데이터*계층적 군집분석 (p.336)– n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법– 군집의 거리를 계산하는 방법에 따라 사용하는 연결법이 달라짐– 모든 연결법은 거리행렬을 통해 가까운 거리의 객체들 관계를 규명하고, 군집의 개수를 선택→ 특이점이나 비정상적인 그룹을 발견하기도 쉽고, 클러스터 해석 용이but, 대규모 데이터에는 적용할 수 없음*최단 연결법import pandas as pdimport numpy as npfrom scipy.cluster.hierarchy import dendrogram, linkage, fclusterfrom matplotlib import pyplot as pltUS = pd.read_csv('data/USArrests.cs..

(파이썬 한권으로 끝내기) 상관계수, 선형 회귀분석, 다중 회귀, 다중공선성, 변수선택법(전진선택법, 후진제거법, 단계선택법)

*상관계수*피어슨 상관계수연속형 변수(등간척도, 비율척도)로 측정된 변수들 사이의 선형관계를 나타냄from scipy.stats import pearsonrstats.pearsonr(x=data['GRE'], y=data['LOR']) #data[['GRE', 'TOEFL', 'LOR']].corr(method='pearson') # (-1 ~ 1)q45['pair'] = q45.apply(lambda x: tuple(sorted([x['v1'], x['v2']])), axis=1) # 순서를 무시하고 정렬하여 튜플로 생성q45 = q45.drop_duplicates('pair').drop(columns='pair') # 'pair' 값 중복 행 제거하고, pair 컬럼 삭제import panda..

[ADP 필기] 비정형 데이터마이닝 – 텍스트마이닝, 사회연결망 분석

*비정형 데이터마이닝– 텍스트마이닝: 문서 요약 / 분류 / 군집, 특성 추출*Corpus– 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태– ‘tm’에서 문서를 관리하는 기본 구조, 텍스트 문서들의 집합– VCorpus() – 메모리, PCorpus() – 외부DB, 파일– tm_map(data, function)– TermDocumentMatrix: Corpus로부터 단어별 문서의 빈도표 생성*사회연결망 분석(SNA)– 개인과 집단들 간의 관계를 노드와 링크로 모델링 ① 집합론적 방법② 그래프 이론을 이용한 방법 (노드, 선)③ 행렬을 이용한 방법 (i, j)번째 칸에 1 혹은 0– 준연결망: 관계를 인위적으로 설정해 고객과 고객, 상품과 상품 사이의 관계 나타냄연결정도 중심성: 한 점에 직접적으로..

[ADP 필기] 연관분석

*연관분석– 장바구니 분석 or 서열 분석– 조건과 반응의 형태 (if-then)지지도 = P(A∩B)신뢰도 = P(A∩B) / P(A) = 지지도 / P(A)향상도 = P(B|A) / P(B) = P(A∩B) / P(A)·P(B) = 신뢰도 / P(B)(A 구매 X, B 구매 O) → (A 구매 O, B 구매 O) – 관련 없으면 향상도 1*연관분석 예시전체 100개의 거래 중 ‘우유’와 ‘빵’이 함께 구매된 거래가 20회지지도(우유,빵) = 20 / 100 = 0.2‘우유’가 구매된 30건의 거래 중 ‘우유’와 ‘빵’이 함께 구매된 거래가 20회신뢰도(우유⇒빵) = 20 / 30 ​≈ 0.67전체 거래 중 ‘빵’이 구매된 건수가 40회향상도(우유⇒빵) = 0.67 / (40/100) = 0.67 / ..

[ADP 필기] 군집분석

– 유사성이 높은 대상 집단을 분류하고– 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명– 교차타당성으로 안정성 검토vs 요인분석: 유사한 변수를 함께 묶어줌vs 판별분석: 사전에 집단이 나누어져 있음*연속형 변수의 경우 ① 유클리디안 거리: 데이터간 유사성을 측정할 때 많이 사용(통계적 개념이 내포되지 않아 변수들의 산포 정도가 전혀 감안 되어 있지 X) ② 표준화 거리: 해당 변수의 표준편차로 척도 변환한 후 유클리디안 거리 계산→ 유클리디안 거리 + 표준화→ 척도차이, 분산차이로 인한 왜곡을 피할 수 있음 ③ 마할라노비스 거: 통계적 개념 포함, 변수들의 산포를 고려하여 이를 표준화한 거리→ 유클리디안 거리 + 통계적 표본공분산– 두 벡터 사이의 거리를 산포를 의미하는..

[ADP 필기] 인공신경망 분석

– 인간 뇌를 기반으로 한 추론 모델 (뉴런- 기본 정보 처리 단위)– 가중치가 있는 링크들로 연결됨– 여러 입력 신호를 받지만 출력 신호는 1개 → 가중치를 반복적으로 조정하며 학습– 전이함수(활성화 함수) 사용>① 시그모이드 함수 – 이진 분류– 0~1의 확률 값을 가짐② softmax 함수 (표준화 지수 함수) – 다중 분류– 출력값이 여러 개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후확률 제공③ relu 함수– 입력값 0하는 0, 0초과는 X값을 가지는 함수*단일 뉴런의 학습(단층 퍼셉트론)*출처: https://heung-bae-lee.github.io/2019/12/06/deep_learning01/초편면은 n차원 공간을 2개로 나눔 → 선형 분리 함수로 정의입력변수 → 매우 민..

(파이썬 한권으로 끝내기) 통계분석 – T검정(t-test), 분산분석(ANOVA), 교차분석(카이제곱 검정)

1. T검정(t-test)1.1 일표본 T-검정(One Sample t-test)※ 정규성 가정– 귀무가설(H0): 모평균의 값은 **이다– 대립가설(H1): 모평균의 값은 **가 아니다import pandas as pdimport scipy.stats as statsfrom scipy.stats import shapirocats = pd.read_csv('data/cats_gpt.csv')mu = 2.6# 1. 정규성 검정print(shapiro(cats['Bwt']))# 2. (정규성을 만족하면) stats.ttest_1sampprint(stats.ttest_1samp(cats.Bwt, popmean=mu))# 2. (정규성을 만족하지 않으면) Wil Coxon 검정#stats.wilcoxon(cat..

(파이썬 한권으로 끝내기) 머신러닝 분류 알고리즘 – 로지스틱 회귀, SVM, KNN, 의사결정나무, 앙상블/보팅, 나이브베이즈, 인공신경망

*회귀 분석 알고리즘 추천*분류 분석 알고리즘 추천1. 로지스틱 회귀로지스틱 회귀는 시그모이드 함수를 사용해 확률값을 예측하고, 이를 기준으로 클래스 레이블을 예측import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport warningswarnings.filterwarnings('ignore')from sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_sc..

[ADP 실기] Pandas, Numpy, 문자열 관련 함수

대규모 데이터셋을 효율적으로 다룰 수 있으며, 데이터 전처리 및 탐색적 데이터 분석(EDA)에 매우 유용 *데이터 프레임 만들기import pandas as pdiris = pd.DataFrame([['kor', 70], ['math', 80]], columns=['class', 'score']) # indexdf2 = df[['quantity','item_price']] # 새로운 데이터프레임 만들기 *데이터프레임 컬럼명 바꾸기q46 = df.value_counts('host_name').sort_values(ascending=False).reset_index()q46.columns.values[1] = 'counts'.reset_index(name='count') 결과 값을 'count' 열로 ..

[ADP 실기] 31회 복기

문제 번호는 실제와 다를 수 있음 1. 머신러닝 분류 분석(다중 분류)변수 탐색, 결측치/이상치, 전처리→ Boxplot 등으로 이상치 확인하고, 결측치 제거하기 등feature engineering→ 그래프를 통해 데이터 분포 확인 후,→ 정규분포화(로그 변환 등), 이상치 제거, 스케일링, 언더/오버 샘플링, 원 핫 인코딩, 그룹핑머신러닝 분류 모델 3개 – 앙상블 빼고→ SVM, KNN, Naive Bayes, 로지스틱 회귀(다중분류), 의사결정나무, MLP, LDA 등grid search – 하이퍼파라미터 튜닝을 위한 기법 중 하나→ SVM의 경우 C = [1, 10, 100], gamma = [0.001, 0.01, 0.1] 조합에 대한 모델 생성 위에 3개 모델 보팅: https://study..