Project/On campus
[Project] 고혈압 & 당뇨 분류 모델 개발
Doyun+
2021. 6. 23. 00:23
Subject : Development of a Classification Model for High Blood Pressure and Diabetes Patients with Health Examination Data
Language : R
Data : ‘표본코호트 2.0 DB’ 데이터
Model : Logistic Regression
Train Data : row — 473,524 / column — 89
1. Data Preprocessing
2. Data Visualization
- 저소득층은 당뇨병이 많이 걸리는 것을 파악
- 고소득에서는 다른 소득층에서 찾을 수 없는 습진과 역류성 식도염 발견
- 주 4일 음주하는 사람은 많은 고혈압 발병을 기록했고, 주 7일 음주하는 사람은 적은 고혈압 발병을 기록했다.
- 보통 한 번의 음주에서 9잔 정도를 마시는 사람이 고혈압 발병이 높고, 아주 많은 음주량(15~20잔)을 가진 사람은 고혈압 발병이 낮았다.
> 주 7일 음주하는 사람은 한 번의 음주에서 적게, 한 번의 음주에서 많은 음주량을 기록한 사람은 주별 음주일이 매우 낮은 모습때문인 것 같다
- 주별 음주일 수에 따른 발병은 고혈압과 비슷한 모습을 보였다
- 하지만, 한 번의 음주에서 마시는 음주량이 높을 수록 고혈압 발병이 높은 것으로 나타났다.
- 흡연 기간이 길수록 고혈압 발병이 높았다.
- 1일 흡연량이 일정 수준 이상 일때, 흡연량이 많을수록 고혈압 발병이 높았다.
- 흡연 기간과 당뇨는 큰 상관관계를 찾지 못했다
- 1일 흡연량이 일정 수준 이상 일때, 흡연량이 많을수록 당뇨병 발병이 높았다.
- 고혈압과 당뇨병을 인지한 후, 운동량이 6, 7일으로 많은 운동을 하는 것을 알 수 있다.
- 고혈압보다 당뇨병이 가족력이 높은 것 같다.
- 비만도가 높을수록 고혈압과 당뇨병이 많이 발병하는 것 같다.
3. Analysis & Modeling
- 상관 분석
- Logistic Regression