일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- nvidia
- edge computing
- 정보화진흥원
- CNN
- 의료데이터
- NIA
- 딥러닝
- MAE
- 회귀
- 데이터분석
- Jetson
- Undersampling
- R
- 회귀분석
- 엣지컴퓨팅
- 머신러닝
- 2D CNN
- VitalDB
- 데이터불균형
- 공부
- 1D CNN
- 나이브베이즈
- 데이터
- 빅데이터
- 알고리즘
- VitalRecorder
- 생체신호
- 경진대회
- Data Imbalance
- GE B650
- Today
- Total
목록머신러닝 (15)
Doyun-lab

앞선 포스팅에서 다뤘듯이 불균형 데이터 문제를 해결하기 위한 방법에는 여러가지가 있습니다. 불균형 데이터 문제 해결을 위해 여러가지 자료를 탐색하던 중 좋은 강의가 있어 그것을 참고하여 정리해봤습니다 ! 고려대학교 인공지능공학연구소 김성범 소장님의 "불균형 데이터 분석을 위한 샘플링 기법" 강의를 추천해주고 싶습니다. 저작권에 문제가 된다면, 언제든지 연락주시면 해당 포스팅을 삭제 조치 하겠습니다. 이번 포스팅에서는 불균형 데이터 문제를 해결하기 위한 여러가지 방법에 대해서 다뤄보려고 합니다. 불균형 데이터일 경우 무엇이 문제인가 ? 일반적인 경우에 이상(소수)을 정확히 분류하는 것이 중요한데, 이상(소수)을 정확히 찾아내지 못한다. 이 경우 정확도는 높게 보이지만 이상(소수)에 관한 분류 성능은 좋지 ..

최근 "ESRD 환자의 수술 후 합병증 예측" 프로젝트를 진행하면서 Data Imbalance(데이터 불균형) 문제에 직면했다. 데이터 불균형 문제는 생각보다 매우 흔하며, 앞으로도 프로젝트를 진행할 때 예측하고자 하는 Class가 적은 수를 갖고 있을 확률은 매우 높다. 예를 들어, 의료 데이터를 분석할 때 질병 여부를 분류한다면 당연히 질병인 Class가 훨씬 개수가 적을 것이다. 그렇다면, 질병에 대한 Class에 더 민감한 결과를 얻어야만 데이터 분석 및 모델이 쓸모있을 것이다. 그러나 실제 세상에서는 질병이 없는 사람이 대부분일 것이므로 "질병이 아니다"라는 쪽에 더 치우친 모델이 만들어진다면 쓸모가 없을 것이다. 그러므로, 해결해야 하는 문제와 데이터의 도메인을 고려하여 Data Imbalan..

Subject : Predicting the Value of Players registered in FIFA19 (Linear Regression) Language : Python Data : ‘Kaggle의 피파19 선수 정보’ 데이터 Model : Linear Regression, Ridge, Lasso, Random Forest 1. Data parsing & preprocessing # Import import numpy as np import pandas as pd from sklearn.model_selection import KFold from sklearn.linear_model import LinearRegression from sklearn.linear_model import Ridge..

Subject : Prediction of Patients with Low Blood Pressure during Anesthesia Language : R Data : ‘수술 중 마취한 환자의 혈압과 정보’ 데이터 Model : Random Forest, SVM, Boosting 1. Data parsing & preprocessing # total 이라는 리스트에 모든 엑셀 파일을 불러와 저장 setwd("C:\\r_temp\\homework") total

Subject : Development of a Classification Model for High Blood Pressure and Diabetes Patients with Health Examination Data Language : R Data : ‘표본코호트 2.0 DB’ 데이터 Model : Logistic Regression Train Data : row — 473,524 / column — 89 1. Data Preprocessing 2. Data Visualization 저소득층은 당뇨병이 많이 걸리는 것을 파악 고소득에서는 다른 소득층에서 찾을 수 없는 습진과 역류성 식도염 발견 주 4일 음주하는 사람은 많은 고혈압 발병을 기록했고, 주 7일 음주하는 사람은 적은 고혈압 발병을 기록했다..

Subject : Prediction of Power Energy Consumption in Apartment and Shopping Districts in Korea Language : R Data : ‘국내 특정 지역 아파트와 상가의 전력에너지 사용량’ 데이터 1. Data preprocessing 2. EDA 3. Modeling 사용 모델 : ARIMA, Smoothing, Neural Network (TLFN, RNN) setwd("C:\\r_temp\\result") test

Subject : Predicting real estate prices in Korea with various variables Language : R Data : ‘직방’ 데이터 train.csv : Apartment transaction data (1.6 million) school.csv : Elementary, middle and high school information (1,100) subways.csv : Subway information (400) 1. Data preprocessing colnames(train)

Subject : Develop a Stroke Complications Forecasting Model Using a Specific Drug List Language : SAS, SQL, R Data : ‘HIRA(건강보험심사평가원)’ 데이터 Model : XGBoost hira_data.csv > 성별, 나이대, 입원일, 약 평균 복용일, 약 복용 여부, 합병증 여부 MEDICINE.csv > 약품의 주성분에 따라 평균 사용량, 평균 처방기간, 평균 처방량, 약 사용 수 1. Topic introduction 뇌혈관 질환 환자에게 예후가 좋은 약품이 실제로 많이 처방 되지않고 있는데, 이러한 약품들을 복용했을 때 예후가 좋은 것을 입증하는 것이 목표 뇌졸중은 의료 기관간 편차가 크며 사망률과 입원일..