본문 바로가기

공부

(48)
ML 모델과 알고리즘 기본 (6) : 군집모델 1. 군집화 알고리즘 : 데이터 간의 유사도를 정의하고, 유사도를 바탕으로 군집 내 응집도와 군집 간 분리도를 최대화하는 방식으로 군집을 형성하는 알고리즘비지도 학습의 대표적인 예시비지도학습은 가이드가 되는 정답이 없기 때문에, 알고리즘 자체 지표로 군집 품질을 평가(ex. SSE-elbow method)군집의 수, 속성 등이 사전에 알려져 있지 않을 때 주로 사용데이터 간의 유사도는 거리의 개념으로 접근하는 것이 일반적 0) 군집화 알고리즘의 종류: 군집을 만드는 방법에 따라 1) 계층적(hierarchical) 군집화와 2) 분할적(partitional) 군집화 등으로 구분분할적 군집화에도 중심, 밀도, 확률, 분포, 그래프 등에 기반한 다양한 방법 존재 2. 계층적 군집화: 하나의 군집이 다른 하위..
ML 모델과 알고리즘 기본 (5): 회귀모델 평가지표 0. 거리  머신러닝에서의 거리(distance) 개념은 데이터 간의 유사도(similarity) 및 손실(loss)을 계산할 때 자주 사용됨. 좌표에서 두 점 사이의 거리가 가깝다는 것은 위치가 유사하다는 의미 (거리 공식은 손실함수로 사용 가능)거리는 양수이며손실이 그래프 상에서 거리로 나타나기 때문에거리 개념을 손실 계산에 도입 시 유연한 활용 가능  1. 회귀모델 평가지표1) MAE (L1 Loss) : 오차(실제값과 예측값의 차) 절대값 합의 평균 (실제값과 예측값 사이의 절대적인 거리들의 합과 같다)(+) 절대값이므로, 오차의 단위가 기존 label과 동일함 이해하기 직관적이다(스케일 유사)(+) MSE에 비해 특이값(이상치, outlier)의 영향을 덜 받음 MAE가 0에 가까울수록 예측값이..
ML 모델과 알고리즘 기본 (4): 회귀모델 1. 회귀 (Regression): 회귀 모델은 종속 변수와 독립 변수 간의 관계를 모델링하는 통계적 기법회귀(Regression) 알고리즘이 예측하는 값 (종속변수) = 임의의 연속적인 수치1.1 회귀분석의 목적1) 독립변수의 유의성 확인: 위계적 회귀모형(Hierachial multiple regression) 등을 이용하여 관심변수가 가장 유의한 변수인지 혹은 다른 변수들을 보정(adjust)해도 여전히 유의한지를 보여주는 데 의의가 있음. 이 때에는 대부분의 경우 다른 변수(보통 일반적인 특성인 연령이나 성별 등의 변수)를 통제하여도 여전히 유의함을 보이는 강력한 변수인지를 파악하기 위해서 회귀분석을 사용한다. 2) 예측모형 설계관찰 데이터가 아래 기본가정을 모두 만족해야, 회귀분석에 적합한 회귀..
ML 모델과 알고리즘 기본 (3) : 분류모델 평가지표 분류모델 성능지표0. 들어가기 전에 1) 함께보기 ML 통계의 이론 2) confusion metrixfrom sklearn.metrics import classification_reportprint(classification_report(y_val, y_pred))>>> precision recall f1-score support 0 0.76 0.80 0.78 7680 1 0.75 0.70 0.72 6372 accuracy 0.75 14052 macro avg 0.75 0.75 ..
ML 모델과 알고리즘 기본 (2) : 분류모델 1. 분류모델: 데이터를 모델에 적용한 후 범주(카테고리) 중 하나의 값으로 분류하여 예측예측하고자 하는 범주의 개수에 따라 2진 분류와 다중 클래스 분류로 구분학습 데이터 내에 예측하고자 하는 결과 항목이 명시적으로 표시되어 있음 (labeled data)대표적 알고리즘 : 서포트 벡터 머신, 의사 결정 나무, 로지스틱회귀등2. 분류모델 알고리즘 2.1 서포트 벡터 머신 (SVM): 주어진 샘플 데이터들을 구분하는 최적의 분할선(경계) 탐색목표: 두 클래스의 경계 정의지원벡터(support vector): 각 클래스에서 경계에 가장 가까운 데이터 포인트들(초평면 정의에 사용)마진(margin): 두 클래스 간 거리 (마진 최대화 시 모델의 일반화 능력 최고. 마진 최대화=SVM Goal)하드마진: 모든..
ML 통계의 이론 1. 기술통계1.1 통계학의 종류1) 기술 통계데이터 분석 결과인 수치들을 활용하여 데이터 집합의 특성을 설명 (by.평균값, 분산, 표준편차, 범위, 히스토그램, 파이차트, 상자도표)기술통계는 통계량을 구하는 것 자체가 목적일 때가 많다.2) 추론 통계모집단에서 추출한 표본을 통해 모집단 의 특성을 표현(LIKE 지방선거 출구조사, 제품 불량율 조사)따라서, 모집단이 더 중요한 통계 (모집단의 특성을 알 수 없을 때, 샘플로 모집단 특성 추론)추론모수추정: 미지수인, 모집단의 모수에 대한 추측 또는 추측값을 정확도와 함께 제시모수에 대한 가설검정: 모집단의 모수에 대한 여러 가설들이 적합한지 여부를 표본으로부터 판단함 1.2 표본의 추출 for 추론통계확률적 표본 추출 (Probability sampl..
생성 AI 이론 및 실습 1. 생성 AI의 응용분야텍스트 기반 이미지 생성, 코드 생성, 언어번역 , 대화형 에이전트,이미지 기반 이미지 생성, 이미지 채우기, 예술작품 생성, 비디오 생성, 음성합성, 데이터 증강, 의학 이미지 합성 이러한 응용의 기반이 되는 것은 1) Text GenerationChatGPT와 같은 GPT(Generative Pre-trained Transformer)에서는 Transformer architecture를 사용방대한 텍스트 데이터를 기반으로 문법, 문맥, 의미론 등을 미리 학습한 뒤, 프롬프트를 제시하면 학습한 패턴을 기반으로 다음 단어나 구문을 예측실사용: 챗봇, 코드 생성, 고객 응대, 카피라이팅 문구 생성2) Image Generation대표적 생성 기술인 GAN(Generative Adv..
[cmd/Linux] Linux 명령어 정리 0. 기본 포맷 1. 파일 및 디렉토리 관리sudo: root 권한을 이용하여 명령어 실행 pwd: (print working directory) 현재 디렉토리의 전체 절대경로 출력 ls: (List)  현재 디렉토리 내 파일과 디렉토리 나열 보여주기옵션-a: (all) 전부 보여줘-l: 상세정보 표시-S: (sort)크기별 정렬-h: 단위 표현 변경-t: 최신파일부터-rt: 오래된 파일부터ls -al: 리스트를 상세하게 모두 출력ls -l /etc/a*: etc 디렉토리에서 앞글자가 a인 목록 표시cd: (change directory) 디렉토리로 이동cd ~rocky ~rocky: 홈디렉토리로 이동cd ..: 상위 디렉토리로 이동( '..' 는 현재 위치의 부모 디렉토리)cd-: 바로 전 디렉토리로c..