티스토리 뷰
좋은 학회에 등재된 논문은 반드시 좋은 논문일까?
반드시 그렇지만은 않다고 생각은 해오고 있었지만 최근 읽은 AbDiffuser라는 논문을 통해 반드시 그렇지는 않다는 것을 새삼 강렬히 깨닫게 되었다.
해당 논문은 Deep Learning 분야의 저명한 Top tier Conference인 NeurIPs(NIPS) 논문으로 BK에서도 최상위 학회로 인정하여 IF 4.0을 인정하는, 1저자 등록되면 플랜카드가 붙을법한 저명한 학회에 메인 페이퍼로 나와 심지어 spotlight까지 받은 논문이다.
그런데 나는 솔직히 이해가 안간다. 내가 해당 논문의 리뷰어였다면 나는 매우 부정적으로 해당 논문을 바라봤을 것이다. 실제로 open reivew 페이지를 가보면 리뷰어 중 한명이 나처럼 매우 부정적인 스탠스를 취하고 있는 것을 확인할 수 있다. 그리고 나도 그 리뷰어와 의견이 완전히 일치한다.
이유는 해당 논문의 다양한 아이디어나 Contribution은 매우 신박하여 인정하며 시사하는 바가 많고 아이디어로 취해봄직한 내용도 많지만 독자들이 읽기에 너무나 설명이 허술하고 불친절하며 워딩도 필요 이상으로 어렵게 사용했다는 점이 아쉽게 느껴진다는 것이다.
논문은 '내'가 이해하고 있다고 해서 '남'도 이해할 수 있을 것이라는 시각에서 작성해서는 절대 안된다고 생각한다.
AbDiffuser는 딱 그렇다. '나'에겐 쉬운 개념이니 '너'에게도 쉽지? 라고 생각하고 논문을 작성한 것 같다는 느낌을 지울 수가 없다.
나는 컴퓨터과학을 전공하지 않고 생명과학을 전공했기에 수학적인 내용이 나오면 내가 이해하지 못하고 멍청한 면도 분명 있겠다. 그러나 세상의 모든 독자들이 최적화 이론에 빠삭하지는 않다. 하물며 Antibody를 generation하려는 목적을 가지고 생성모델을 연구하는 연구자들 사이에서 최적화이론을 전공자 수준으로 공부한 사람들이 얼마나 있을까?
Interior points method를 기반으로 한 non-parametric projection layer가 아무런 설명 없이 'applied to model input and output' 라고 설명하고 넘어가도 해당 내용을 이해할 수 있는 독자들이 과연 얼마나 있었을까? non-parametric projection layer가 무얼 의미하는지, 모델의 input data와 output에 적용된다는 한 문장만 읽고 바로 의미를 파악할 수 있던 독자들이 과연 얼마나 있었을까?
또, Informative Diffusion Prior는 의미없는 완전한 Gaussian noise로 보내는 기존의 DDPM 대신 우리가 가진 데이터가 완전히 무의미한 공간이 아닌 기저에 선호하는 어떤 prior distribution으로부터 출발하면 더 퀄리티있고 효율좋은 Denoising 학습을 할 수 있을 것이라는 아이디어이다. 아이디어 자체는 너무나 훌륭해서 나도 쓰려는 논문의 Contribution으로 적용해볼 생각이다. 그런데 이것을 이해하는 과정에서 독자는 Appendix를 세 곳이나 왔다갔다하면서 읽어야만 한다. 이것도 우선 맘에 들지 않지만 그건 그래도 그렇다 치자. 그건 내가 노력해서 극복할 일이다.
그런데 Appendix에 다음과 같은 내용이 나온다.
해당 내용은 Discrete Diffusion step을 수식적으로 잘 정리하여 대부분의 Discrete variable의 diffusion task를 포함하는 논문들이 Reference로 삼는 Jacob Austin (개인 citation 18000회, 현재 구글 딥마인드 소속), Daniel D. Johnson (개인 citation 1800회, 현재 토론토 대학 교수) 두분의 논문인 Structured Denoising Diffusion Models in Discrete State-Spaces의 수식을 인용한 부분이다. 아래는 해당 논문에 나오는 원본 수식이다.
두 수식을 잘 비교해보면 원본 데이터 X0에 붙어있는 Q의 형태가 다른 것을 확인할 수 있다. 간단하게만 설명하자면 원본 논문은 누적된 posterior를 모두 고려한 full context의 posterior를 원본에 곱해 에러를 최소화한 형태의 distribution을 얻는 방식이다.
반면 AbDiffuser에서는 그렇지 않다. Bar가 빠졌다. 이 말은 Posterior를 완벽하게 따르기보단 바로 직전스텝의 posterior 한번만 고려하여 Approximation하겠다는 소리다. 약간의 정확성을 포기하더라도 계산의 효율을 따지겠다는 것이다. 여기까진 좋다.
그러나, 그랬다면 AbDiffuser의 수식 B.3는 등호(=)로 표시해서는 절대 안된다고 생각한다. Approximation 기호 (≈)를 사용했어야 독자들에게 혼란을 주지 않는다. 심지어 레퍼런스라고 원본 논문까지 떡하니 달아놓고는 같은 좌항식에 대하여 원본과는 틀린 우항을 제시해놓고는 등식으로 표시한다는 것은 reference가 되는 논문의 저자들에게도 민폐가 되는 짓이다.
본인이 reference를 하는 논문의 수식을 본인 연구의 목적에 맞춰 수정해서 해석할 수는 있다. 너무나 당연하다. 그러나 그렇게 했다면 독자들에게 반드시 언지라도 줘야한다고 본다. AbDiffuser는 일언반구 없이 그냥 자기들 편한대로 수식에 변화를 줘놓고는 심지어 이걸 그냥 등식으로 표시해뒀다. 그로인해 원본 논문 저자들이 해석해둔 수식의 의미까지 혼란을 가져온다.
나는 이런 디테일을 함부로 무시하는 연구자들이 너무 싫다.
연구자 본인의 귀찮음이나 본인의 무책임함에서 유래된 혼란을 다른 독자들이 겪어야하고 시간을 낭비해야한다.
이번엔 Appendix E.1을 보자
두번째 줄의 의미를 설명해 줄 수 있는 사람이 있다면 제발 댓글에 해석을 좀 부탁하고싶은 지경이다.
다른 해석 다 떠나서 f_θ(Z) 는 본인들이 denoising diffusion 관점에서 보면 Z는 Random Noise (X_T), f_θ는 X_T와 step 정보를 입력받는 뉴럴네트워크라고 작성해두었다. DDPM 관점에서 이 뉴럴네트워크는 원본 데이터 X_0를 approximation한 X^hat_0를 return한다. 그러면 좌항의 pθ 분포에 전달되고 있는 변수는 f_θ(Z), 다시말해 학습된 denoising 모델로부터 얻어진 원본 데이터로 예측된 X^hat_0들이다. pθ(X^hat_0) 는 그럼 f_θ에 Z를 통과시켜서 나오는 X^hat_0들의 전체 분포라는 의미인데 이걸 갑자기 Z의 prior distribution인 Random Gaussian distribution과 equal하다고 작성해두었다.
나는 도대체 이 설명을 어떻게 받아들여야 할지 모르겠다.
외에도 생물학을 공부하면서 AI를 응용으로 연구하는 연구자들이 받아들이기에 너무 과하게 수학적인 내용들이 그야말로 '난무' 하는 해당 논문을 반드시 '내가 몰라서'라고 치부하기엔 무리가 있어보인다.
해당 논문은 AI관련 컴퓨터공학자라면 대부분이 알법한 조경현 교수님께서 저자로 참여한 연구이다. 나같은 일개 지방대학의 아무 내세울 것 없는 학생이 함부로 코멘트를 달 수준의 연구가 아니라는 것은 잘 알고있다. 그래서 너가 그사람보다 똑똑해? 라고 말한다면 나는 정말로 할 말이 없다.
그러나 최소한 연구자 각자가 가지는 장점이 분명 다를테고 내가 어떤면에서는 (최소한 독자를 배려하는 글쓰기 같은 면에서는) 내가 더 나은 부분도 분명 존재한다고 생각한다. 내가 해당 논문을 작성했다면 분명히 내 논문에 들어갈 수학적인 개념들이 Antibody를 연구하는 연구자들에게는 익숙치 않은 개념일 것을 고려하여 최대한 쉽게 설명할 수 있도록 작성했을 것이다.
내 시각에서 바라봤을 때 AbDiffuser는 너무나 똑똑한 사람들이 쓴 아주 아이디어가 넘치는 멋진 논문이다.
그러나 그게 전부다. 아무리 명필이고 명화라도 보는 사람들이 이해하지 못하면 그 작품에 가치가 있을까?
독자를 배려하지 않는 논문이 과연 아무리 좋은 아이디어로 가득 찬 논문이라 할지라도 좋은 논문일까?
'Daily > etc' 카테고리의 다른 글
춘천 배달음식 후기들 (계~속 업데이트) (1) | 2025.02.28 |
---|---|
그동안 블로그가 뜸했다 (1) | 2025.01.23 |
비와 카푸치노 드럼악보 (0) | 2024.02.23 |
MLE, MAP 등 확률분포 모델 공부에 참고할만한 영상들 추천목록 (0) | 2024.02.20 |
논문과 관련된 좋고 나쁜 표현들을 쌓아가는 공간 (0) | 2024.01.23 |
- Total
- Today
- Yesterday
- MLE
- 나노바디
- manimtutorial
- 3b1b
- 선형대수
- MorganCircularfingerprint
- nanobody
- 파이썬
- Manimlibrary
- elementry matrix
- eigenvector
- Matrix algebra
- ai신약개발
- 제한볼츠만머신
- 인공지능
- kl divergence
- variational autoencoder
- 최대우도추정
- MatrixAlgebra
- 베이즈정리
- manim
- manim library
- 오일석기계학습
- eigenvalue
- kld
- marginal likelihood
- 이왜안
- 기계학습
- 백준
- 3B1B따라잡기
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |