일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 의료데이터
- 데이터불균형
- R
- 딥러닝
- edge computing
- 데이터
- CNN
- 회귀분석
- 공부
- 빅데이터
- 정보화진흥원
- 1D CNN
- 2D CNN
- GE B650
- VitalDB
- nvidia
- 나이브베이즈
- 생체신호
- Undersampling
- Jetson
- MAE
- NIA
- VitalRecorder
- 엣지컴퓨팅
- 데이터분석
- 머신러닝
- 알고리즘
- 경진대회
- Data Imbalance
- 회귀
- Today
- Total
목록Data Imbalance (2)
Doyun-lab

앞선 포스팅에서 다뤘듯이 불균형 데이터 문제를 해결하기 위한 방법에는 여러가지가 있습니다. 불균형 데이터 문제 해결을 위해 여러가지 자료를 탐색하던 중 좋은 강의가 있어 그것을 참고하여 정리해봤습니다 ! 고려대학교 인공지능공학연구소 김성범 소장님의 "불균형 데이터 분석을 위한 샘플링 기법" 강의를 추천해주고 싶습니다. 저작권에 문제가 된다면, 언제든지 연락주시면 해당 포스팅을 삭제 조치 하겠습니다. 이번 포스팅에서는 불균형 데이터 문제를 해결하기 위한 여러가지 방법에 대해서 다뤄보려고 합니다. 불균형 데이터일 경우 무엇이 문제인가 ? 일반적인 경우에 이상(소수)을 정확히 분류하는 것이 중요한데, 이상(소수)을 정확히 찾아내지 못한다. 이 경우 정확도는 높게 보이지만 이상(소수)에 관한 분류 성능은 좋지 ..

최근 "ESRD 환자의 수술 후 합병증 예측" 프로젝트를 진행하면서 Data Imbalance(데이터 불균형) 문제에 직면했다. 데이터 불균형 문제는 생각보다 매우 흔하며, 앞으로도 프로젝트를 진행할 때 예측하고자 하는 Class가 적은 수를 갖고 있을 확률은 매우 높다. 예를 들어, 의료 데이터를 분석할 때 질병 여부를 분류한다면 당연히 질병인 Class가 훨씬 개수가 적을 것이다. 그렇다면, 질병에 대한 Class에 더 민감한 결과를 얻어야만 데이터 분석 및 모델이 쓸모있을 것이다. 그러나 실제 세상에서는 질병이 없는 사람이 대부분일 것이므로 "질병이 아니다"라는 쪽에 더 치우친 모델이 만들어진다면 쓸모가 없을 것이다. 그러므로, 해결해야 하는 문제와 데이터의 도메인을 고려하여 Data Imbalan..