본문 바로가기

분류 전체보기

(64)
여러가지 분포 (0) - 동전 던지기로 정규분포 유도하는 법 베르누이 시행에서부터 이항분포, 푸아송 분포, 감마, 카이제곱, 베타, 정규, Student-t, F분포 등등을 모두 유도해보려고 한다. 그래서 일단 각각에 대한 설명을 적어보고, 각 분포가 다른 분포로부터 어떻게 유도되는지를 글로 써 보려고 한다. 근데 이거 진짜 신기하지 않냐. 고등학교 땐 그냥 이런 게 있어~ 하고 끝냈었는데, 알고보니까 이게 전부 관계가 있던 거다. 심지어 그게 수학적으로 유도가 된대. 앞면 H, 뒷면 T 해서 동전 던지기 하는 시행에서부터 정규분포를 유도하는 거야. 근데 이걸 고등학생 땐 그냥 다 따로 외웠어. 이 얼마나 무시무시한 일이니.
아 뭐적지 ㄹㅇ 뭐적지
코드 블럭 쓰는 법 빨리 배워야겠다. 검색 유입이 프로그래밍, 코딩 이쪽으로 많이 되는구나. 어쩔 수 없다. 구글신님이 점지하신 방향성, 그 길 따라 가겠읍니다..
금융 데이터로 통계 돌릴 때 자주 생기는 실수 (정상성, 시계열, 차분) 금융 데이터로 회귀분석이든, garch든 통계 돌릴 때 흔히 발생하는 실수가 있습니다. 예를 들면 다음과 같습니다. 2015년~2020년동안의 삼성전자 주가와 Kospi 지수 간의 상관관계를 파악하고 싶은데, 이를 위해 각 시기의 [삼전 주가 - Kospi 지수]를 넣고, 둘 간의 공분산을 추정하는 식입니다. 이 경우 여러가지 문제가 발생할 겁니다. 우선 분산 값이 매우 커질 겁니다. kospi 지수는 커봐야 3000 정도인데, 삼성전자 주가는 최소한 그 몇배의 값을 가집니다. 따라서 공분산 값도 아주 커질 것(억 단위로 나오겠네요.)이고, 사실 그 값도 아무런 의미가 없을 가능성이 큽니다. (코스피 하루에 100p 떨어지는 것과, 삼전 하루에 100원 떨어지는 걸 똑같다고 판단할 테니까요.) 또한 인플..
메모장을 들고 다녀야 할 것 같다. 까먹는 일이 너무 많아졌다. 메모라도 하고 살아야겠다.
공분산/고유벡터/PCA 이거 다 한꺼번에 이어져있는 것 같다. 공부할 거 너무 많다. 조졌다. ^^
컴퓨터학개론 계절학기 수강신청함. 아무튼함.
[통계수학을 위한 선형대수 - 박흥선] 기말 준비(Ch. 9 ~ Ch.15(끝)) [통계수학을 위한 선형대수, 박흥선 저, Ch. 9 ~ Ch.15 베이스로 썼습니다.] 통계수학 1회독하면서 느낀 점, 공부해야 할 것들 여기다 적어놓으려고 한다. 노트 필기 하면서. 포스팅도 하려고. 저번 시험 때 각 용어의 Definition이 뭔지 물어보는 문제들에게 호되게 당했다. 그땐 그냥 문제만 풀 줄 알면 된가고 생각했거든. (교수님마다 스타일 다를 줄은 생각못했지...) 그래서 이번엔 Definition 좀 외워보려고 한다. 모르는 단어들 있으면 밑에다가 적어두고. 나중에 단어장 형식으로 만들어두려고. 범위는 9~15단원(끝까지)인 것 같다. 교수님께서 일부러 진도를 맞추고 계시는 거 보니, 일주일에 하나씩 끝까지 다 달릴 것 같다. 미리 그냥 한번 다 봐야겠다. Ch 9. 가우스 소거법과..
Python 머신러닝을 이용한 주식 투자가 쉽냐고 물어보면. 하는 것 자체는 쉽다고 대답할 것 같다. 진심으로. 근데 진짜 공부하면서 느끼는 게, 머신러닝을 돌리는 것 자체는 생각했던 것보다 쉬운 것 같다. 아예 프로그래밍을 해본 적 없는 사람들도 몇 달이면 머신 러닝을 다룰 수 있을 정도로 말이다. 근데 그 사람이 그걸로 유의미한 결과물을 낼 수 있냐고 물으면. 글쎄다…. 진짜 저 정도는 머신러닝의 조작법만 아는 상태인 거지, 저것 갖고 '머신러닝을 활용할 수 있다'고 하는 건 조금 부적절하니까. 그래서 데이터에 관한 공부를 해야 한다. 알고리즘 자체에 대한 공부는 당연하고.
matplotlib.pyplot (plt) xlim에 날짜 넣는 법 헷갈려서 정리해놔야겠다. matplotlib 그래프에 datetime 자료형도 넣을 수 있다. 시계열 자료 다룰 때 쓴다. 당연히 xlim, ylim 등등도 쓸 수 있다. 예시 코드도 나중에 적어놔야지. 말해놓고 까먹을라….