티스토리 뷰

앞으로 내 연구 주제는 Nanobody Generative Model의 구축이다. 특히 Diffusion based의 모델

해당 연구를 위해서는 nanobody보다 큰 분야인 Antibody generation을 연구해 볼 필요가 있다. 

이를 위해 ML-based Antibody Generation을 위해 무엇을 고려해야하는지에 대한 깊은 insight를 줄 수 있을 법한 review 논문을 찾은 것 같아서 해당 논문은 조금 깊게 공부해보려고 한다.

블로그 포스팅 자체는 두서 없이 간다, 그냥 머리속에 한번 정리할 뿐이다.

 

1.2. ML-based Antigen generation은 다음 세가지를 반드시 고려하자

  • Learnability
  • Modularity
  • unconstrained generation

Learnability는 Antibody-Antigen(이하 AA)의 interaction의 linear한 규칙을 파악하자는 것이다. Modularity는 우리가 AA 사이에 중요하게 생각하는 Affinity 외에 다양한 생화학적 특성들이 inter-dependency를 잘 파악해야 한다는 의미다. (사실 modularity가 한국말로 번역하면 잘 와닿지 않아서 조금은 어색하게 들리긴 한다) 마지막으로 제한없는 생성이 가능해야 하다는 것. 왜냐면 antibody의 CDR region만 해도 searching space가 20의 15~17승으로 너무나 터무니없이 크기 때문에 이 수많은 범위의 서열을 포괄적으로 생성하는 것 자체도 어려울 수 있기 때문이다.

정리하자면, learnability 측면에서 progress는 어느정도 Ab-Ag interaction 관계를 학습하기 위한 ML 기술들이 상당한 수준으로 발전되었다는 내용이 주를 이루고, challenges로는 그럼에도 불구하고 완벽한 계산 프레임 워크를 구축한 것이 아니라 딥러닝의 blackbox모델에 의존적이라 해석이 불가능한 점, 데이터의 부족, 불완전, 불안정한 데이터 품질 등을 언급하고 있다.

Modularity 측면에서 progress는 Affinity 뿐만 아니라 다양한 생화학적 특성을 계산할 수 있는 컴퓨팅 모델들이 많이 등장하고 있고, 해가 갈 수록 모델들의 신뢰도 역시 꾸준히 증가하고 있다는 측면이다. 반면 challenge실제로는 이런 다양한 생화학적 특성들은 서로에게 영향을 미치고 있어 jointly multi-property를 예측하고 한번에 optimization하거나, 예측하는 모델이 필요한데 그런 모델을 구축하는데 상당한 어려움이 있어서 아직까지도 다양한 property들을 independent하게 optimization하는 방식 위주로 진행된다는 점이다. 이 부분은 나도 강하게 동의하고, 앞으로 연구할 때 반드시 고려를 하자

Unconstrained Generation 측면에서는 AI-based Antibody가 실제로 generation 가능하다는 사실을 progress로, 그러나 위에서와 마찬가지로 여러가지 생화학적 파라미터까지 동시에 고려된 새로운 항체 생성 기법이 부족하다는 점, 생성된 서열의 평가 방법이 명확하지 않고 신뢰할 수 없다는 점 등을 challenge로 삼고있다.

이 세 가지 측면에 대해 정리해 둔 Figure는 앞으로 연구하는데 정말 큰 도움이 될 것 같다. 위 세가지 내용에 대해서는 뒤에서 훨씬 더 자세히 다룬다.

 

1.3. 컴퓨터를 이용한 antibody를 디자인하기 위해 biological complexity를 고려하자

특히 저자들은 AAI prediction과 Protein-Protein Interaction (PPI)의 다음과 같은 세 가지 차이를 강조함

  • Diversity
  • Many-to-many binding
  • Inter-dependence of affinity and pharmacokinetic parameters

Diversity는 말 그대로 PPI의 경우 서열 하나하나의 분석에 집중할만큼 resolution을 높이지는 않는다. 그러나 AAI에서는 CDR1,2,3의 서열 하나하나가 지대한 영향을 미치므로 각 서열의 각 AA 종류등을 모두 고려해야한다. 따라서 PPI보다 훨씬 더 깊은 searching space를 탐색하고 학습해야 한다고 주장한다.

Many-to-Many binding은 심지어 하나의 동일한 Antibody 서열이라도 서로 다른 antigen들의 epitope에 결합할 수 있다는 사실을 간과해서는 안된다는 것인데, 사실 Protein-Drug Interaction (PDI)를 연구해본 입장에선 이건 굳이 AAI에만 국한된 문제는 아닌 것 같아 그다지 동의되지는 않는 내용이다.

마지막으로 Inter-dependence는 중요한 개념이라고 생각된다. 나도 간과했지만, 통상의 개념처럼 CDR은 affinity에 영향을 주고, Fc region의 서열은 antibody의 halflife에 영향을 줄테니, CDR은 affinity optimization을 위해 variation을 주고, Fc region을 이용해서 halflife를 늘리자, 등의 단순한 independency를 상정해서는 안된다는 말이다. 서로 다른 생화학적인 특성과 Affinity를 jointly 학습할 수 있는, Multi-property opitimization을 염두에 둔 학습이 필요하다고 이해하자.

 

1.4. ML-based Ab generation의 문제중 하나, 데이터의 부족이다.

iReceptor에 40억개의 sequence 데이터, Observed Antibody Space (OAS)에 약 10억개의 sequence 데이터가 존재하지만, 서열데이터로는 Ab-Ag interaction을 하는 surface에 대한 정보를 확인하기 어려움

3D structure 구조까지 존재하는건 약 1200건밖에 안됨 (논문은 당시 2022년 기준이므로 25년 현재는 조금 더 증가해서 약 1600개 정도 있는 것으로 기억함)

따라서, DL-based로 training을 하기 위해서는 다양한 방법으로 structure 정보를 포함한 Ab-Ag interaction 데이터를 확보 (Augmentation) 할 필요가 있음

최근은 뭐 AF3가 워낙 예측을 잘 해주기 때문에 이것으로 충분히 많은 데이터를 합성할 수 있어졌긴 함

 

2. Learnability of AAI

본 연구자들이 정의한 Learnability of AAI prediction은 5개의 ML challenges로 나눠볼 수 있다. 

  • Predictability : 모델이 interaction관계를 예측하는 능력이 있어야한다.
  • Generalization : A 데이터를 학습한 모델로 unseen B 데이터에 대한 어느정도의 성능이 보장되어야 한다.
  • Interpretability : 해석이 가능해야 한다. (사실 나는 조금 다른 의견이다. 생물학은 해석 가능성보다는 일단 사람 목숨 살리고 보는게 우선이다. 약물로써 기능할 수 있는 후보를 찾아낼 수 있다면, 해석은 일단 뒷전의 문제라고 생각한다.)
  • Model uncertainty : 예측 후, 해당 예측값에 대한 신뢰도 또한 제시하는게 단백질 연구의 트렌드, 특히 AF의 pTM 값을 생각해보면 될 것 같다.
  • data completeness : 데이터의 완전성, 이건 뭐 다 알다시피 Ab쪽은 데이터 확보가 참 어렵다. 좋은 데이터를 input해야 좋은 결과가 return됨은 (GIGO) 너무나 자명하다.

특히 저자들은 predictabilitysine qua non이라는 표현까지 써가면서 일단 모델이 예측자체를 못하면 뒷단은 아무짝에도 언급할 필요가 없는 필수조건임을 강조하였다. 이것은 뭐 자명하니 넘어가도록 하자.

Generalization 관점에서, 항체의 경우 similarity를 계산하는 과정에 서열만을 고려해서는 안된다는 점을 명확히 주장한다. 비슷한 서열이라도 아주 다른 target epitope를 가지는 경우가 허다하니, Ab의 similarity는 반드시 서열과 함께 binding behavior를 함께 고려해서 similarity를 결정해야 한단다. 정말 동의하는 말이지만 과연 어떻게해야 binding behavior까지 함께 고려할 수 있단 말인가? 참 간단해 보이지만 많은 생각과 연구를 해봐야 할 부분이라고 생각한다.

Interpretability는 내 관점에서는 크게 중요하지 않다고 생각한다. 간단히 chatGPT에게 해석을 의뢰하면 다음과 같은 내용이다. 

지금도 영화 공공의 적을 얘기하면 떠오르는 명대사가 있다 "사람이 사람죽이는데 이유가 있나?"

나는 반대로 얘기하고싶다 "사람이 사람 살리려는데 이유가 있나?" 질병 치료제 개발에 있어서 컴퓨터 모델에서의 해석가능성은 큰 도움이 되지 않는다고 생각한다. 아니 분명 도움은 되겠지만, 그만큼의 노력을 들일 필요가 아직까지는 없다고 생각한다. 어차피 컴퓨터 모델을 분석하고 해석한 내용은 약물의 FDA 통과를 위한 근거로 전혀 채택될 수 없다. 모든 것은 어차피 직접 실험에 의해 진행되어야 한다. 아직까지 생물학은 너무나 많은 비밀들로 가득한 분야이다. 우리가 Rule based로 해석해봐야 아무런 의미가 없다.

Interpretability를 고려하기에는 우리가 아직까지 생물학 메커니즘 그 자체, 본질 자체를 이해하지 못하고 있는데 컴퓨터 계산 알고리즘에 대한 얕은 해석이 과연 어떤 의미를 가져다 준다는 것인가? 어차피 우리는 생물학적으로도 Ab와 Ag이 정확히 어떤 원리로 결합하는지 완벽하게 이해하지 못했다. 이렇게 본질조차 파악하지 못한 지식으로 컴퓨터 알고리즘의 해석 가능성이 무슨 의미가 있는가? 나는 그거 연구할 시간에 실제 치료제 개발을 위한 노력에 조금 더 시간을 쓰겠다.

(물론, interpretability 연구 자체가 의미 없다는게 아니고, 신약 개발 분야에 한정해서 아직까지 의미를 찾지 못하겠다는 말이다. CNN등의 이미지 분석에 있어서의 interpretability 연구는 필요하다고 생각한다.)

 

'Background > Biology' 카테고리의 다른 글

Morgan fingerprint, Morgan circular fingerprint?  (4) 2023.04.16
What are pH/Ka/pKa/Kd/Ki/IC50/EC50 values?  (2) 2023.01.11
댓글