![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/3UNGN/btr6N2Y4h99/rNGTrD0Yhs9EZpBp2EBLHk/img.png)
이게 무슨말인가? 나도 모르겠다 일단 문제를 확인해보자 어떤 부부의 첫째 아이가 여아였다, 이 때 둘째 아이도 여아일 확률은? 정말이지 나도 보면 볼수록 베이즈 통계가 수학계에서 받아들여졌다는 사실이 믿기지 않을정도로 터무니없는 문제를 다룬다. 당연히 그냥 50% 아닌가? 라고 생각 들 수밖에 없다. 그러나 그렇지 않으니까 문제로 나오는 것이 아닐까 일단 한번 이 문제를 베이즈 추론을 통해 다뤄보기로 하자. 한가지 이야기하고 넘어가자, 우리가 왜 당연히 50%라고 생각하는걸까? 그것은 우리가 보통의 표준 통계학인 네이만-피어슨 통계학 개념에 익숙해져 있기 때문이다. 그러나 이런 표준적인 통계학은 인류라는 하나의 종족에 대한 전체 통계적인 수치는 제시해줄 수 있지만, 문제에서 제시한 것 처럼 '어떤 부부'..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/w960J/btr6Jpm57nw/OG2YJ1TYKMqEkYiyv1N5Tk/img.png)
이번 포스팅에서는 문제를 다음과 같이 설정해보자 당신을 남성이라고 가정하자, 동료들 중 특정한 여성으로부터 발렌타인데이에 초콜렛을 전달 받았다. 그녀가 당신을 진지하게 생각하고 있을 확률은? 이게 도대체 무슨 뜬구름 잡는 문제인가? 이게 수학이라고? 이걸 지금 수학문제라고 이야기하는 것인가? 이게 확률? 이런 생각을 하고있다면 아주 정상이다. 실제로 베이즈 통계학은 위와 같은 이유로 괴짜취급을 당하기도 했다. 다시 차근차근 베이즈 추론 프로세스를 이용해서 추론해보자 1. 사전확률을 설정한다. 계속 이야기 하게되겠지만 베이즈 추정에서 사전확률은 경험/믿음/신뢰에 의거하거나 혹은 무작위로 설정한 확률분포를 사용하면 된다. 그리고 여기에서 사전확률은 그녀는 나에게 호감이 있을까 없을까이며 이렇게 아무런 정보도..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/HwFB6/btr6EUmtLdD/wXJSnexZhkirXjbPQjKKok/img.png)
문제 한가지를 설정해보고 베이즈 추정을 통해 문제를 해결해보자. 특정 암에 걸릴 확률은 0.1% (0.001)이라고 하자, 이 암에 걸렸는지를 진단하는 키트가 있고, 이 암에 걸려있는 사람(D)이 진단 키트로 양성 진단(+)을 받을 확률( P(+|D) )은 95%(0.95)이고 건강한 사람(H)이 양성(+)으로 오진 받을 확률( P(+|H) )이 2%(0.02)이다. 당신이 이 검사에서 양성이라고 진단되었을 때, 실제로 암에 걸려있을 확률은? 앞에서 공부한대로 베이즈 추정의 프로세스를 따라 문제를 해결해보자. 베이즈 추정 프로세스를 모르거나 기억나지 않는다면 다음 포스팅을 참고하자 https://biomadscientist.tistory.com/41 1부) 베이즈 통계학의 기초 -1.정보를 얻으면 확률이..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/dsGTuR/btr6BUfC1k5/YhG3rJAPaHZUfOXNVTXpfK/img.png)
1. 벡터와 행렬 : 기계학습에서는 입력된 샘플을 특징 벡터로 표현한다. 벡터는 다음과 같이 로마자 소문자로 표기한다. $$x_1=\begin{bmatrix}5.1\\3.5\\1.4\\0.2\end{bmatrix} x_2=\begin{bmatrix}4.9\\3.0\\1.4\\0.2\end{bmatrix} ... where \ x_1, x_2 \in R^4$$ 이 벡터를 4차원의 벡터라고 이야기하며 다시말해 4차원 실수 공간상의 한 점이 된다. 행렬은 이런 벡터를 여러개 담을 수 있고, 굵은 글씨의 대문자로 표현한다. $$X = \begin{bmatrix}5.1 & 3.5 & 1.4 & 0.2\\ 4.9 & 3.0 & 1.4 & 0.2\\ \vdots & \vdots & \vdots & \vdots \\ ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/BASN2/btr6pdMH1wb/8Co5QU4UcrJelacy9vnTFk/img.png)
1-1. 베이즈 추정을 이용하면 '쇼핑족'과 '아이쇼핑'족을 판별할 수 있다. 비즈니스에서 실제로 사용될법한 예를 들어 설명해보자, 상품 판매원이 어떤 손님이 들어왔을 때 가장 신경써야 할 부분은 이 손님이 '실제로 지금 매장에서 구매 의사가 있는 손님인가'여부이다. 이렇게 '손님이 실제로 구매 의사가 있는가'를 판단하는 기준은 상당히 모호하지만, 만약 이것을 수치화 할 수 있다면 판매원은 그 기준을 통해 추후 행동을 결정하는데 큰 도움을 받을 수 있을 것이다. 1-2. [1단계] 경험으로부터 '사전확률'을 설정한다. 눈 앞에 손님이 있는 상황을 가정한다. 이 때 베이즈 추정을 이용해 해당 손님이 쇼핑족인지, 아이쇼핑족인지 판단하기 위해 가장먼저 해야하는 일은 '경험으로부터 얻어진, 손님들 중 쇼핑족과 ..
해당 포스팅 시리즈는 전부 아래 도서 내용을 기반으로 작성됩니다. https://book.naver.com/bookdb/book_detail.nhn?bid=11750210&stay=y 세상에서 가장 쉬운 베이즈통계학 입문 비즈니스에 사용할 수 있는 베이즈통계 베이즈통계는 인터넷의 보급과 맞물려 비즈니스에 활용되고 있다. 인터넷에서는 고객의 구매 행동이나 검색 행동 이력이 자동으로 수집되는데, 그로부 book.naver.com GAN이나 VAEs 등 생성모델을 공부하다보면 정말 많은 확률이나 통계적인 이야기, 이해하기 어려운 수학 기호들을 많이 마주하게 된다. 나는 포스팅에서 여러번 얘기하듯 수학적인 개념이 상당히 약하다. 특히나 통계와 같은 내용은 하물며 표준편차가 뭔지, 분산이 뭔지 그 공식조차 기억도..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bLYMfo/btr3SvoXdab/mAHMZeE2fACTRpogZ0nXU0/img.png)
Transformer를 이용해 protein sequence를 source로, Drug SMILES sequecne를 target으로 사용하는 모델을 만들고 있다. 더보기 Transformer input은 보통 RNN과 다르게 단어의 토큰 시퀀스를 하나씩 순차적으로 전달하지 않고, 문장 하나를 뭉탱이로 Encoder나 decoder로 전달하기 때문에 컴퓨터는 로직상 RNN처럼 순차적으로 전달될때와 다르게 문장이 어떤 순서로 작성되어있는지 이해할 수 없다. 예를 들어보자, "나는 찰옥수수가 들어간 밥을 먹기로 엄마와 약속했다." 라는 문장이 있을 때 이 문장을 RNN으로 전달하면 ['나', '는', '찰옥수수', '가', '들어', '간', '밥', '을', '먹기', '로', '엄마', '와', '약속'..
파일을 다루다보면 한번에 파일명을 주루룩 바꾸고싶을때가 있다. 그런데 이게 glob이용하면 되는건 아는데 매번 까먹어서 아예 블로그에 박제시켜놓는다. import os from glob import glob path = "Your/file/path/" # 본인의 파일이 들어있는 경로를 복사해서 붙여넣기 하세요 files = glob(path + '*') for i, f in enumerate(files): new_f = os.path.join(path,'img_'+str(i)) # 변경될 파일명을 new_f변수에 저장합니다. # path 뒤, 'img_'+str(i) 부분은 본인이 원하는 파일 명으로 변경하면 됩니다. os.rename(f, new_f) 위 코드 실행시 바로 파일명들이 변경되니까 혹시 불..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/BgQmq/btr1XQhi8AP/SuHueUVtGFGePhOZqNyt41/img.png)
class ToDataset(Dataset): def __init__(self, df): self.df = df # self.src = df['src'] # self.tgt = df['tgt'] # self.label = df['pKa'] def __len__(self): return len(self.df) def __getitem__(self, index): src = self.df.iloc[index]['src'] src = src_embedder(torch.tensor(src, requires_grad=False)) tgt = self.df.iloc[index]['tgt'] tgt = tgt_embedder(torch.tensor(tgt, requires_grad=False)) label = sel..
- Total
- Today
- Yesterday
- 최대우도추정
- ai인공지능
- Matrix algebra
- MorganCircularfingerprint
- 3b1b
- Manimlibrary
- kl divergence
- 이왜안
- vae
- 인공지능
- 제한볼츠만머신
- variational autoencoder
- 선형대수
- MLE
- 오일석기계학습
- 파이썬
- manimtutorial
- elementry matrix
- MatrixAlgebra
- manim library
- marginal likelihood
- eigenvalue
- 베이즈정리
- 백준
- 기계학습
- eigenvector
- kld
- 3B1B따라잡기
- ai신약개발
- manim
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |