[확률 통계] 표본 분산을 n-1로 나누는 이유 (구 블로그 글 복구)
·
학문
- 만약 어떤 집단의 특성을 알아내어 어떠한 통계적 정보를 이끌어내고자 한다고 할때,그 집단의 모든 데이터를 사용하면 좋겠지만, 데이터 접근 및 수집문제가 있을수 있고, 비용문제도 있을 것입니다. 예를들면 대한민국 국민의 '신장'이라는 데이터를 사용한다고 합시다. 이때, 대한민국 국민 키의 평균을 구한다고 하면, 일일이 자를 들고 그 데이터를 모으는 것은 말도안되는 비용이 들며, 쌓인 데이터만 하더라도 엄청나게 많아 다루기도 힘들 것입니다. 그렇기에 보통 통계 조사를 한다면, 원하는 집단을 대표하는 집단을 선정하여 그것을 모집단의 비율 축소판으로 가정하고 사용하게 됩니다. - 용어정리모집단이란, 위에서 말했던, 정보를 얻기 희망하는 특정 집단 자체를 의미합니다.표본집단이란, 모집단에서 무작위로 선정하거나..
KL Divergence 개인정리 (구 블로그 글 복구)
·
학문
- 사전지식으로 필요한 정보이론 기초와, cross entropy에 대한 것은,링크를 참고하세요. - 정답 확률분포와 예측 확률분포에 대해 먼저 이야기해 봅시다.정답 확률분포 p는, 말 그대로 정답입니다.딥러닝의 분류문제로 보자면,[1,0,0,0]과 같은 정답 레이블로,레이블이 [강아지, 고양이, 거북이, 새]일 확률을 나타낸 것이라면,위 레이블은 '강아지' 100퍼센트 라는 것이죠. 이것의 엔트로피는 0입니다.계산할 것도 없이, 이미 가장 큰 확률이 강아지인데다가, 다른 것으로 판단될 여지가 없죠. 그러면 예측 확률분포 q는, 딥러닝 모델이 출력한 확률값으로 합시다.모델이 학습은 해서 대충 알기는 한데,데이터로 판단했을 때, 뭔가 애매한 부분도 존재해서,[0.8, 0.1, 0.06, 0.04] 이렇게 ..
정보이론 기초 정리(정보량 + 정보 엔트로피) (구 블로그 글 복구)
·
학문
(정보이론 역사)claude shannon 은,미국의 수학자이자 전기 공학자입니다. 현대 정보를 다루는 IT분야에 있어서 빼놓을수 없는 인물로,디지털 회로이론에서 부울의 논리회로를 바탕으로 전자적으로 이를 해석하여, 회로로 이를 표현할수 있다는 것을 알아냈으며,전기를 회로와 전기력의 조합으로만 바라보던 시절에,이 회로라는 것을 이용하여 정보를 표현하고 다룰수 있다는 시각을 제공했습니다.그의 석사 논문인 A Mathematical Theory of Communication 은, 정보 이론의 시초가 되었기에,섀넌을 정보이론의 아버지라고 부릅니다. 1937년 섀넌의 또다른 석사 논문 A symbolic Analysis of Relay and Switching Circuits의 단편을 발췌하면, "모든 회로는 ..
마할라노비스 거리(Mahalanobis Distance) 개인정리 (구 블로그 글 복구)
·
학문
- 거리란?두 기준점이 서로 얼마나 떨어져있는지에 대한 수치입니다.물리적으로는, 공간상 두 기준점의 떨어진 정도이고,분류문제로 본다면,어떠한 특징을 지닌 데이터(변수가 한개 이상의 다변량 데이터)가, 속하고자하는 데이터군에 얼마나 근접한지를 나타내는 지표가 됩니다. - 대표적으로는 유클리디언 거리가 있습니다.sqrt(sum((X-X`)^2))으로, X데이터에서 X`에의 거리를, 각 특징들을 서로 빼준 값을 제곱하고, 그 값들을 전부 더한 후 루트를 씌운 값입니다.쉽게 말하자면, 피타고라스의 정리에 따라 좌표평면의 두 점의 거리를 구하는 공식을 생각하시면 됩니다. 다변량 데이터에도 사용할수 있으며,각 특징별 수치 데이터의 차이값을 제곱하고 모두 더하여 루트한 것이란 걸 다시 설명합니다. - 유클리디언 거리..
[수학] 구면 삼각법의 이해, 증명, 응용
·
학문
- 구면 삼각법을 이해한다면 구체 위에서 일어나는 좌표의 움직임을 수학적으로 계산할 능력을 갖추게 될 것입니다.지리정보 혹은 3차원 정보처리 등에 사용되는 원리를 이해하는데에 큰 도움이 되는 지식입니다. 이번 포스팅에서는 기초 삼각법에서 시작하여 구면 삼각법 까지를 정리하겠습니다. 모르시는 내용이라면 아래에 저와 같이 공부하시면 되고, 아시는 내용이시라면 빠르게 넘어가며 이해하도록 합시다. - 차례대로 설명을 시작하겠습니다.(삼각형의 성질과 삼각비)1. 삼각형의 기본 성질먼저 우리가 다루려는 삼각형의 성질에 대해 이해가 필요합니다.삼각형은 세 변과 세 각으로 이루어진 다각형으로, 각 변의 길이와 각도 간에는 몇 가지 중요한 관계가 있습니다. 삼각형의 각도 합 삼각형 내부의 세 각의 합은 항상 180도입니..
[지리 정보] Vincenty 공식을 이용한 지도 좌표 거리 계산 및 Kotlin 함수 작성
·
학문
- 이번 포스팅으론, 이전 글에서 구현 및 테스트를 진행한 적이 있는 Harversine 공식을 사용한 좌표 거리 계산 함수를 개선하기 위하여 Vincenty 공식을 알아보고 구현하겠습니다. - 앞선 글에서 Harversine 공식은 지구를 완전한 구형 물체로 가정하여 계산을 진행한다는 단점이 있다고 설명드렸습니다.실제 지구는 완전한 구형이 아닌, 자전 방향으로 조금 튀어나와 있는 미묘한 타원체라고 할 수 있으므로, 해당 방식은 당연히 오차를 만들 수 밖에 없는데,이번에는 그러한 단점을 보안하여 조금 더 정확도를 높인 Vincenty 공식에 대해 공부해봅시다. - Vincenty 공식의 주요 개념vincenty 공식은 지구를 타원형으로 본다고 설명드렸죠? 그렇다면 타원을 이루는 두가지 변수가 존재함을 알..
[지리 정보] 지리적 좌표계, 위도/경도의 이해 및 Haversine 공식을 이용한 지도 좌표 거리 계산 Kotlin 함수 작성
·
학문
- 먼저 좌표계에 대해 알아봅시다. 좌표계란, 공간에서 점의 위치를 나타내는 데이터인 좌표를 나타내는 방식을 정의한 체계를 의미하며, 평면상의 점을 정의하는 가장 기본적인 방법을 사용하는 직교 좌표계(Cartesian Coordinate System), 반지름, 극각, 방위각으로 점을 정의하는 구면 좌표계(Spherical Coordinate System) 등의 좌표계가 있습니다. 구면 기하학을 기반으로 하여 지구의 곡면에서 점의 위치를 위도와 경도로 정의하는 좌표계가 바로 지리적 좌표계 (Geographic Coordinate System) 입니다. GPS 시스템, 지도, 내비게이션 등에서 위치 정보를 표현할 때 사용됩니다. 지리적 좌표계에서의 좌표에 대해 알아봅시다.위도와 경도로 이루어진 지도 좌표란..