티스토리 뷰
앞으로 내 연구 주제는 Nanobody Generative Model의 구축이다. 특히 Diffusion based의 모델
해당 연구를 위해서는 nanobody보다 큰 분야인 Antibody generation을 연구해 볼 필요가 있다.
이를 위해 ML-based Antibody Generation을 위해 무엇을 고려해야하는지에 대한 깊은 insight를 줄 수 있을 법한 review 논문을 찾은 것 같아서 해당 논문은 조금 깊게 공부해보려고 한다.
Progress and challenges for the machine learning-based design of fit-for-purpose monoclonal antibodies
https://pubmed.ncbi.nlm.nih.gov/35293269/
Progress and challenges for the machine learning-based design of fit-for-purpose monoclonal antibodies - PubMed
Although the therapeutic efficacy and commercial success of monoclonal antibodies (mAbs) are tremendous, the design and discovery of new candidates remain a time and cost-intensive endeavor. In this regard, progress in the generation of data describing ant
pubmed.ncbi.nlm.nih.gov
1.2. ML-based Antigen generation은 다음 세가지를 반드시 고려하자
- Learnability
- Modularity
- unconstrained generation
Learnability는 Antibody-Antigen(이하 AA)의 interaction의 linear한 규칙을 파악하자는 것이다. Modularity는 우리가 AA 사이에 중요하게 생각하는 Affinity 외에 다양한 생화학적 특성들이 inter-dependency를 잘 파악해야 한다는 의미다. (사실 modularity가 한국말로 번역하면 잘 와닿지 않아서 조금은 어색하게 들리긴 한다) 마지막으로 제한없는 생성이 가능해야 하다는 것. 왜냐면 antibody의 CDR region만 해도 searching space가 20의 15~17승으로 너무나 터무니없이 크기 때문에 이 수많은 범위의 서열을 포괄적으로 생성하는 것 자체도 어려울 수 있기 때문이다.

정리하자면, learnability 측면에서 progress는 어느정도 Ab-Ag interaction 관계를 학습하기 위한 ML 기술들이 상당한 수준으로 발전되었다는 내용이 주를 이루고, challenges로는 그럼에도 불구하고 완벽한 계산 프레임 워크를 구축한 것이 아니라 딥러닝의 blackbox모델에 의존적이라 해석이 불가능한 점, 데이터의 부족, 불완전, 불안정한 데이터 품질 등을 언급하고 있다.
Modularity 측면에서 progress는 Affinity 뿐만 아니라 다양한 생화학적 특성을 계산할 수 있는 컴퓨팅 모델들이 많이 등장하고 있고, 해가 갈 수록 모델들의 신뢰도 역시 꾸준히 증가하고 있다는 측면이다. 반면 challenge는 실제로는 이런 다양한 생화학적 특성들은 서로에게 영향을 미치고 있어 jointly multi-property를 예측하고 한번에 optimization하거나, 예측하는 모델이 필요한데 그런 모델을 구축하는데 상당한 어려움이 있어서 아직까지도 다양한 property들을 independent하게 optimization하는 방식 위주로 진행된다는 점이다. 이 부분은 나도 강하게 동의하고, 앞으로 연구할 때 반드시 고려를 하자
Unconstrained Generation 측면에서는 AI-based Antibody가 실제로 generation 가능하다는 사실을 progress로, 그러나 위에서와 마찬가지로 여러가지 생화학적 파라미터까지 동시에 고려된 새로운 항체 생성 기법이 부족하다는 점, 생성된 서열의 평가 방법이 명확하지 않고 신뢰할 수 없다는 점 등을 challenge로 삼고있다.
이 세 가지 측면에 대해 정리해 둔 Figure는 앞으로 연구하는데 정말 큰 도움이 될 것 같다. 위 세가지 내용에 대해서는 뒤에서 훨씬 더 자세히 다룬다.
1.3. 컴퓨터를 이용한 antibody를 디자인하기 위해 biological complexity를 고려하자
특히 저자들은 AAI prediction과 Protein-Protein Interaction (PPI)의 다음과 같은 세 가지 차이를 강조함
- Diversity
- Many-to-many binding
- Inter-dependence of affinity and pharmacokinetic parameters
Diversity는 말 그대로 PPI의 경우 서열 하나하나의 분석에 집중할만큼 resolution을 높이지는 않는다. 그러나 AAI에서는 CDR1,2,3의 서열 하나하나가 지대한 영향을 미치므로 각 서열의 각 AA 종류등을 모두 고려해야한다. 따라서 PPI보다 훨씬 더 깊은 searching space를 탐색하고 학습해야 한다고 주장한다.
Many-to-Many binding은 심지어 하나의 동일한 Antibody 서열이라도 서로 다른 antigen들의 epitope에 결합할 수 있다는 사실을 간과해서는 안된다는 것인데, 사실 Protein-Drug Interaction (PDI)를 연구해본 입장에선 이건 굳이 AAI에만 국한된 문제는 아닌 것 같아 그다지 동의되지는 않는 내용이다.
마지막으로 Inter-dependence는 중요한 개념이라고 생각된다. 나도 간과했지만, 통상의 개념처럼 CDR은 affinity에 영향을 주고, Fc region의 서열은 antibody의 halflife에 영향을 줄테니, CDR은 affinity optimization을 위해 variation을 주고, Fc region을 이용해서 halflife를 늘리자, 등의 단순한 independency를 상정해서는 안된다는 말이다. 서로 다른 생화학적인 특성과 Affinity를 jointly 학습할 수 있는, Multi-property opitimization을 염두에 둔 학습이 필요하다고 이해하자.
1.4. ML-based Ab generation의 문제중 하나, 데이터의 부족이다.
iReceptor에 40억개의 sequence 데이터, Observed Antibody Space (OAS)에 약 10억개의 sequence 데이터가 존재하지만, 서열데이터로는 Ab-Ag interaction을 하는 surface에 대한 정보를 확인하기 어려움
3D structure 구조까지 존재하는건 약 1200건밖에 안됨 (논문은 당시 2022년 기준이므로 25년 현재는 조금 더 증가해서 약 1600개 정도 있는 것으로 기억함)
따라서, DL-based로 training을 하기 위해서는 다양한 방법으로 structure 정보를 포함한 Ab-Ag interaction 데이터를 확보 (Augmentation) 할 필요가 있음
최근은 뭐 AF3가 워낙 예측을 잘 해주기 때문에 이것으로 충분히 많은 데이터를 합성할 수 있어졌긴 함
(2)에서 계속
'Background > Biology' 카테고리의 다른 글
나노바디 (Nanobody)리뷰 (1) 구조적 특징 (0) | 2025.02.03 |
---|---|
Antibody Antigen Generative Modeling (3) Modularity (0) | 2025.01.31 |
Antibody Antigen Generative Modeling (2) Learnability (0) | 2025.01.28 |
Morgan fingerprint, Morgan circular fingerprint? (4) | 2023.04.16 |
What are pH/Ka/pKa/Kd/Ki/IC50/EC50 values? (2) | 2023.01.11 |
- Total
- Today
- Yesterday
- eigenvalue
- 3b1b
- nanobody
- 베이즈정리
- marginal likelihood
- ai신약개발
- MorganCircularfingerprint
- 오일석기계학습
- kl divergence
- manim library
- 선형대수
- 나노바디
- eigenvector
- elementry matrix
- 3B1B따라잡기
- Matrix algebra
- 제한볼츠만머신
- kld
- MatrixAlgebra
- manim
- 인공지능
- 이왜안
- 파이썬
- 최대우도추정
- variational autoencoder
- 백준
- manimtutorial
- Manimlibrary
- MLE
- 기계학습
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |