일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 의료데이터
- 알고리즘
- MAE
- 경진대회
- 회귀
- Jetson
- Data Imbalance
- 회귀분석
- 공부
- GE B650
- CNN
- 데이터
- 빅데이터
- 생체신호
- 엣지컴퓨팅
- edge computing
- 1D CNN
- 정보화진흥원
- 딥러닝
- VitalDB
- nvidia
- 데이터분석
- NIA
- VitalRecorder
- 머신러닝
- 데이터불균형
- 2D CNN
- R
- Undersampling
- 나이브베이즈
- Today
- Total
목록Study (10)
Doyun-lab

앞선 포스팅에서 다뤘듯이 불균형 데이터 문제를 해결하기 위한 방법에는 여러가지가 있습니다. 불균형 데이터 문제 해결을 위해 여러가지 자료를 탐색하던 중 좋은 강의가 있어 그것을 참고하여 정리해봤습니다 ! 고려대학교 인공지능공학연구소 김성범 소장님의 "불균형 데이터 분석을 위한 샘플링 기법" 강의를 추천해주고 싶습니다. 저작권에 문제가 된다면, 언제든지 연락주시면 해당 포스팅을 삭제 조치 하겠습니다. 이번 포스팅에서는 불균형 데이터 문제를 해결하기 위한 여러가지 방법에 대해서 다뤄보려고 합니다. 불균형 데이터일 경우 무엇이 문제인가 ? 일반적인 경우에 이상(소수)을 정확히 분류하는 것이 중요한데, 이상(소수)을 정확히 찾아내지 못한다. 이 경우 정확도는 높게 보이지만 이상(소수)에 관한 분류 성능은 좋지 ..

최근 "ESRD 환자의 수술 후 합병증 예측" 프로젝트를 진행하면서 Data Imbalance(데이터 불균형) 문제에 직면했다. 데이터 불균형 문제는 생각보다 매우 흔하며, 앞으로도 프로젝트를 진행할 때 예측하고자 하는 Class가 적은 수를 갖고 있을 확률은 매우 높다. 예를 들어, 의료 데이터를 분석할 때 질병 여부를 분류한다면 당연히 질병인 Class가 훨씬 개수가 적을 것이다. 그렇다면, 질병에 대한 Class에 더 민감한 결과를 얻어야만 데이터 분석 및 모델이 쓸모있을 것이다. 그러나 실제 세상에서는 질병이 없는 사람이 대부분일 것이므로 "질병이 아니다"라는 쪽에 더 치우친 모델이 만들어진다면 쓸모가 없을 것이다. 그러므로, 해결해야 하는 문제와 데이터의 도메인을 고려하여 Data Imbalan..

Intro 첫번째 알고리즘 공부 후 2주가 지났다. 시험 전 주와 시험 주는 알고리즘 공부를 쉬도록 했고, 이번 주부터 다시 알고리즘을 공부하고 문제를 풀어나가는 스터디를 진행한다. 두번째 공부할 알고리즘은 ‘스택/큐 (Stack/Queue)’이다. What is ‘Stack’ 데이터의 삽입과 삭제가 한쪽 방향에서만 일어나는 구조이다. 가장 나중에 삽입된 데이터가 가장 먼저 삭제되므로 후입 선출(LIFO : Last-In First-Out)이라고도 한다. 삽입은 PUSH, 삭제는 POP 이라는 용어를 사용한다. > 실전 — StackOverFlow Error = 정해진 크기에 무언가를 계속 저장하다가 받아들일 수 있는 크기를 초과하여 흘러넘쳐버린 것 (재귀함수 사용 시) — 뒤로 가기, Ctrl + Z ..

𝖯𝖾𝗋𝖼𝖾𝗉𝗍𝗋𝗈𝗇 𝖭𝖾𝗎𝗋𝗈𝗇 = Dendrite에 여러 값들이 도착하면 하나의 신호로 통합하고, 임의의 임계값을 넘게 되면 이 값이 Axon을 통해 전달된다는 메커니즘 » 뇌세포 Net Input Function (순입력함수) - 입력값 X의 n개의 Feature들이 n+1개의 weight와 곱하여 summation되어 하나의 신호로 통합 Why n+1개 ? — 마지막 1개는 Bias (Prior 역할) Activation Function (활성함수) - 순입력함수의 결과값으로부터 결과값을 생성하는 임의의 함수 ex) 임계값(threshold)와 비교하여 -1 or 1의 결과값 생성 (threshold보다 작으면 -1) 𝖯𝖾𝗋𝖼𝖾𝗉𝗍𝗋𝗈𝗇 = 뉴런의 임계값과 비교하는 부분을 생략하여 간단하..

𝖲𝖵𝖣, 𝖯𝖢𝖠 … 𝖡𝖺𝗌𝖾, 𝖢𝗈𝗈𝗋𝖽𝗂𝗇𝖺𝗍𝖾 𝖲𝗒𝗌𝗍𝖾𝗆 = 벡터공간 V에 대해 임의의 벡터집합 S가 서로 1차 독립이면서 V를 생성하면 S를 V의 기저라고 함 ex) 2차원 좌표계의 기저 = x축, y축 / 3차원 좌표계의 기저 = x축, y축, z축 𝖤𝗂𝗀𝖾𝗇𝗏𝖺𝗅𝗎𝖾, 𝖤𝗂𝗀𝖾𝗇𝗏𝖾𝖼𝗍𝗈𝗋 = 행렬 A에 대해 Ax = λx를 만족하면, λ는 고유값(Scalar), x는 고유벡터 - 행렬 A가 x에 대한 확대/축소 변환을 가하는 연산자 - 선형변환에는 확대/축소/회전 등이 가능, 확대/축소만 가하는 경우 x가 고유벡터가 됨 - 확대/축소하는 비율이 고유값이 됨 𝖱𝖺𝗇𝗄 - Column Rank (열 계수) : 선형독립인 열 벡터의 최대 개수 - Row Rank (행 계수) : 선형독립인..

𝖡𝖺𝗒𝖾𝗌 𝖱𝗎𝗅𝖾 e = event or evidence / H = Hypothesis - Likelihood = hypothesis가 사설이라는 조건에서, evidence이 일어날 확률 - Posterior = evidence가 관측되었을 때, hypothesis가 일어날 확률 (사후확률) - Prior = evidence를 관측되기 전, hypothesis가 일어날 확률 (사전확률) - Marginal = 모든 가능한 hypothesis 아래, 새로운 evidence가 일어날 확률 * 중요 수식 장점 - 통계적 추론에 의해 규칙이 정해지고 유연하게 반영됨 - 사전 지식 통합 ex) 바구니 크기에 대한 지식을 바구니 선택 확룰에 반영 단점 - 정확한 값 계산 x, 추론 - feature가 두개..

𝖣𝖾𝖼𝗂𝗌𝗂𝗈𝗇 𝖳𝗋𝖾𝖾 = 나무가 뒤집힌 모양 - 제일 꼭대기에 하나의 Root Node - 각 가지들은 Branch(or Edge) - 자식이 있는 Node는 Internal Node(or Decision Node) - 가장 끝에 자식이 없는 Node는 Leaf Node(or Terminal Node, External Node) 𝖦𝖾𝗇𝖾𝗋𝖺𝗍𝗂𝗇𝗀 𝖠𝗅𝗀𝗈𝗋𝗂𝗍𝗁𝗆 좋은 트리의 기준은 무엇일까 ? - 모델의 정확도나 트리의 높이가 기준이 된다 - 트리의 높이는 최대한 짧은 것 (빠른 수행 속도) - Leaf Node에서 통일된 Label의 데이터만 남는 것 (높은 분류 정확도, 의사결정 정확도) 처음에 어떤 Feature를 고려하는가에 따라 트리 깊이가 달라지는데, 어떤 방법으로 트리를 생성..

인공지능 != 머신러닝 != 딥러닝 인공지능 ⊃ 머신러닝 ⊃ 딥러닝 인공지능과 빅데이터 : 빅데이터 파이프라인의 마지막 분석 단계에서 인공지능 기술 사용 가능 𝖣𝗂𝖿𝖿𝖾𝗋𝖾𝗇𝗍 𝗄𝗂𝗇𝖽𝗌 𝗈𝖿 𝖫𝖾𝖺𝗋𝗇𝗂𝗇𝗀 ☆ 4가지 방법과 각각의 차이점 · Supervised Learning · Unsupervised Learning · Semi-supervised Learning · Reinforcement Learning Supervised Learning - 학습을 위해 ‘정답’이 주어진 데이터 필요 - 주어진 데이터를 ‘분류’하는 작업에 주로 이용 (Classification) - 대표적 분류 모델 : Decision Trees, Neural Networks, Support Vector Machine..