사망년/머신러닝 6

비지도 학습

차원 축소 차원의 저주(Curse of Dimensionality) 고차원 공간에서는 대부분의 데이터가 경계(테두리) 부근에 집중되는 경향이 있다. 데이터의 밀도가 낮아지고 학습이 어려워지는 문제가 발생하며 이를 해결하기 위한 적절한 전처리 기법이나 차원 축소 방법 등을 사용하여 모델을 개선해야 한다. 데이터 희소성 : 고차원 공간에서 데이터 매우 희소하게 분포한다. 데이터 포인트 간 거리 증가 : 데이터 포인트들이 점점 멀어진다. 학습 시간 증가와 모델 복잡성 일반화 성능 감소 이로 인해 모델의 예측 불안정성이 증가하고 과대적합 위험이 커진다. 샘플 분포의 특징 학습 데이터의 분포는 고차원 공간에서 균일하게 퍼져 있는 것이 아니라, 특정한 패턴이나 규칙을 따르는 경우가 많다. 이미지 데이터 같은 경우 ..

분류

(머신러닝 기말고사 공부) 분류를 위한 회귀 분류는 데이터를 정해진 몇 개의 클래스 중 하나로 분류하는 문제이다. 문제를 해결하기 위해 주어진 학습 데이터에서 입력 데이터와 해당하는 출력 레이블 사이의 관계를 찾아내는 것이 목표이다. 보통 분류 작업을 위한 학습 데이터는 쌍으로 이루어져 있다. 각각의 쌍은 입력 데이터(특성들의 값)와 그에 해당하는 출력 클래스(레이블)로 이루어져 있다. 분류기는 이러한 학습된 모델을 이용하여 데이터를 분류하는 프로그램이며, 주어진 입력 데이터를 이용하여 적절한 클래스 또는 레이블을 할당한다. 로지스틱 회귀 로지스틱 회귀는 주어진 입력 특성들을 사용하여 특정 클래스에 속할 확률을 추정한다. 이름에는 회귀라는 용어가 포함되어 있지만, 이진 분류를 위한 모델이다. 로지스틱 함..

서울시 공공자전거 수요 예측을 위한 데이터 수집 및 통합 과정

모델을 개발하기 위해 2022년을 기준으로 데이터를 수집한다. 관련 논문 및 자료를 참고하여 데이터셋을 만들 것이다. 갈 길이 멀기에 모델 학습을 먼저 한 뒤 결과에 대한 문서화는 추후에 다시 정리할 예정이다. 1. 서울 특별시 공공자전거 이용정보(시간대별) 서울특별시 공공자전거 이용정보(시간대별)로 나와있는 데이터를 2022년 기준으로 달 별로 데이터를 다운받아서 하나로 합쳐야 한다. /data 라는 폴더를 하나 만들고 concat을 사용하여 합친다. (이러고 나니까 데이터가 커져서 오래걸렸다.) 사용하고자하는 칼럼은 대여일자, 대여시간, 이용건수 이기에 인덱스를 재정렬한다. 대여일자가 2022-09-14의 형식으로 이루어져 있기에 년도, 월, 일, 요일(num), 공휴일로 시간 변수를 생성한다. 2...

04_회귀(Regression)

회귀(Regression) 회귀(Regression)는 입력과 출력 값 사이의 관계를 학습하여 주어진 입력에 대한 출력 값을 예측하는 데 사용되는 학습 방법이다. 회귀 모델은 주어진 데이터를 가장 잘 설명하고 근사하는 함수를 찾는 것이 목표이다. 주로 연속적인 값을 예측하고자 할 때 활용된다. 학습 데이터셋 {𝐱₁, 𝑦₁, 𝐱₂, 𝑦₂, … , 𝐱ₘ, 𝑦ₘ}에서 입력 데이터 𝐱와 이에 상응하는 출력 값 𝑦 사이의 관계를 설명하는 함수 ℎ(𝐱)를 찾는다. 예를 들어 자동차의 특성(차종, 제작년도, 주행거리 등)을 이용하여 중고 자동차의 판매 가격을 예측하는 등의 문제에 활용된다. 용어 및 표기법 i번째 샘플 및 레이블 x(i) : i번째 샘플의 특성 값(열) y(i): i번째 샘플에 대한 출력 값(=목표 ..

02_학습과 평가

학습 데이터의 구성 학습에 사용되는 개별 데이터를 샘플이라 한다. = 학습 인스턴스, 학습 예제 학습 데이터는 입력과 출력의 쌍으로 이루어져있고, 새로운 입력에 대한 출력으로 대응관계를 만족시키는 함수 h(x)를 찾는다. ex) 지역별 주택 가격 예측 문제 : 샘플 1 입력 : 각 지역 출력 : 그 지역의 주택 가격 (서울 강남구, 1,234,000 ) 강남과 강북은 비슷하니 부적적할 데이터이다. 입력과 출력의 관계는 명확해야 하며 인구수나 소득 등의 어떤 요소가 영향을 미치는지에 대한 표현이 명확해야 한다. 샘플은 여러 특성(feature, 특징, 자질)들로 구성한다. 즉, 특성들로 목표(target)값을 예측할 수 있도록 학습 데이터를 구성해야 한다. 목표값 = 레이블(label)=클래스(class)..

01_머신러닝 개요

1주 차 오랜만에 공부라 너무 힘들다. 내 집중력 어쩌면 좋지 교수님께서 작년보다 더 나은 수업을 위해서 과제도 줄여주시고, 선형대수에 어려움이 있는 학생들을 위해 수학 특강도 해주신다고 한다. 첫 수업이라 전체적인 흐름을 설명해 주셨는데 걱정했던 것보다 괜찮았다. 너무 겁을 많이 먹은 탓이었을까. 한 주 수업 듣고 3시간씩은 시간 투자해달라는 교수님의 말씀을 종강 때까지 지키는 학생이 한번 되어보도록 할게요. 종강기원 1일차머신 러닝(Machine Learning)명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야이다. 경험을 축적시켜 효과적인 일처리를 할 수 있도록 시스템의 구조나 파라미터를 변경한다. 파라미터는 규칙 형태로 인간이 이해하는 형태일 수도 있고 인간이 이해하지 못하..