티스토리 뷰

Paper/Bioinformatics

DeepInterAware 논문 리뷰 (1) 모델 구조

벼랑끝과학자 2025. 8. 25. 00:11

https://pmc.ncbi.nlm.nih.gov/articles/PMC11967782/

DeepInterAware: Deep Interaction Interface‐Aware Network for Improving Antigen‐Antibody Interaction Prediction from Sequence

Abstract Identifying interactions between candidate antibodies and target antigens is a key step in developing effective human therapeutics. The antigen–antibody interaction (AAI) occurs at the structural level, but the limited structure data poses a si

pmc.ncbi.nlm.nih.gov

2025 Apr, Adv Science (IF 14) 중국 위주 저널이긴 하지만 USA도 많고 한국에서 제출된 논문도 세번째로 많은 저널 2015년도 처음 퍼블리시 되었는데 빠르게 성장했나보다. 아무래도 중국 위주 저널이.. 상당히 citation도 많이 되고 그러는 것 같긴 하다.

Q1에 SCIE에 JIF 상위 10% 이내의 저널인데 알아두면 좋을 듯 하다.

1. Introduction

여타 다른 논문들과 완전히 동일한 introduction을 사용하고 있어서 생략.

Antigen-Antibody Interaction (AAI) 예측은 중요한데 wet-lab 기반의 실험 screening은 너무 고비용에 비효율적이라 computational method가 필요함.

여기는 ML-method는 아예 언급 않고 바로 Deep Learning 모델들을 이야기함

DLAB (2022, Jan, oxford Bioinformatics, IF 7)
https://doi.org/10.1038/s41551-021-00699-9 (2021, April, Nature Biomedical Engineering, IF 24)
https://doi.org/10.1080/19420862.2022.2069075 (2022, Jan, mAbs, IF 7)
https://doi.org/10.3389/fimmu.2022.1053617 (2022, Dec, Frontiers in Immunology, IF 5)

추가로 다양한 LLM 모델들이 Protein 분야로 옮겨져와서 서열정보만 가지고도 구조 정보를 어느정도 파악하고 실제 다양한 단백질 예측분야에서 성능 향상을 이뤘다는 점에서 영감을 받아서 서열 기반의 LLM 모델들이 AAI 분야에서도 예측 성능 향상에 도움이 될 것으로 기대했다고 함.

DeepInterAware

단백질의 3차원 구조 정보 없이, 아미노산 서열 정보만으로 항체와 항원이 실제 접촉하는 부위(인터페이스)를 학습하고 예측에 활용

특히 결합 부위 예측과 돌연변이 발생시 Antigen과 Antibody 사이의 결합력의 변화량 (ΔG) 값 예측도 정확하다는 두 가지 장점을 내세움

2. Results

2.1. DeepInterAware Framework

다음과 같이 4개의 큰 block으로 구성되어있다.

Sequence Encoder; (ESM2, AbLang 사용)
Interaction Interface-aware Learner (IIL);
Specificity Information Learner (SIL);
Dynamic Confidence Fusion (DCF) and Prediction.

[ 1. DeepInterAware Architecture—Sequence Encoder ]

항원과 항체 서열이 각각 ESM2와 AbLang 모델에 의해서 480, 768 차원으로 embedding 된다.

이 때, 항원의 서열 길이는 M으로 항체의 서열 길이는 N으로 표현함

다음 이것을 input으로 하는 1D CNN block을 사용해서 동일차원(d)의 representation vector로 만들어줌

[ 2. DeepInterAware Architecture—Interaction Interface-Aware Learner(IIL) ]

IIL 모듈은 두 가지 목적이 있음

Interaction Interface Information 획득
pairwise local interaction between Ag-Ab 정보 획득

두 가지 목적을 달성하기 위한 두 가지 모듈로 구성되어 있음

Bilinear interaction map → pairwise interaction matrix(I) 획득 where, I ∈ R^MxN
interaction information pooling(IIP) module

[ Bilinear interaction map ]

1에서 얻어진 H_Ag과 H_Ab를 이용해서 다음과 같은 식을 이용해 pairwise interaction matrix(I) 획득

나와있는대로 shape를 맞춰서 계산해보면 pairwise interaction matrix (I)가 실제로 M x N size를 가지는 것을 알 수 있음. 논문은 모름지기 이렇게 모든 shape를 계산해서 오타 없이 잘 정리해둬야 한다고 생각함. 몇몇 논문들을 보면 workflow를 설명하는 벡터의 shape에 오타를 내놓는데 그건 연구자로서 너무 치명적인, 지켜야 할 기초중의 기초를 지키지 않는 무책임한 행동이라고 생각한다.

각설하고, I는 항원과 항체 서열 사이의 결합 강도를 indicate(내비치다) 해주고 있는 행렬로 보면 된다. I와 Equation (1)에서 뽑은 CNN을 이용한 H_Ag, H_Ab를 matmul하여 다음과 같은 새로운 representation vector를 얻는다. Equation (3)에서 얻어지는 두 representation vector H^I_Ag, H^I_Ab 는 기존의 H_Ag, H_Ab 와 동일하게 각각 R^{M x d}, R^{N x d} size를 가진다.

[ Interaction Information Pooling(IIP) ]

다음으로 IIP 모듈을 이용해서 interaction interface를 더 깊게 학습할 수 있도록 해준단다. 딥러닝은 원래 뇌피셜이 강한 분야라서 뭐 자세한 설명은 없이 그냥 이런 설명이 많다.

글로 자세한 설명을 하기가 쉽지 않아서 그냥 간단히 말하자면 ϕ는 Activation Unit이고 그냥 MLP라고 생각하는게 속편하다. 그림에 나오는 H^I는 Ag이냐 Ab이냐에 따라서 shape가 R^{M x d} 또는 R^{N x d}일텐데 이것을 M*d 또는 N*d로 flatten하고 입력받아서 d차원으로 보내는 MLP를 생각하면 된다.

그 다음 MLP를 통과하고 얻어진 d 차원의 벡터를 softmax함수를 취한 뒤, H(CNN만 거친 representation vector)의 각 서열에 대한 d차원의 representation 벡터에 값을 elemental-wise로 multiplication해준다.

그럼 R^{M x d}또는 R^{N x d} 차원의 벡터가 얻어지고, 이것을 sum pooling하여 d차원 하나의 representation vector로 남기면서 최종적으로 얻어진 벡터가 바로 Equation (4)의 S^I_Ab-Ag, S^I_Ag-Ab가 된다. (∈ R^{1 x d})

마지막으로 두 벡터를 concat하고 MLP를 태워서 D 차원의 최종 벡터 Z^I로 만들어준다.

[ 3. DeepInterAware Architecture—Specificity Information Learner (SIL) ]

SIL은 2. IIP에서 representation vector를 얻은 구조와 거의 동일하지만 약간 다른 의미를 가지고 있음. IIP에서는 interaction matrix I의 정보를 이용해 얻어진 H^I_Ag, H^I_Ab를 이용해서 pairwise-interaction information을 얻었다면 SIL은 단순히 자기 자신의 서열정보만을 가지고 sequence-level의 feature를 학습하는 모듈임.

뭐 근데 특별할 것 없이 거의 똑같고 Interaction matrix 정보를 포함한 H^I_Ag, H^I_Ab와 CNN기반의 H_Ag, H_Ab를 함께 사용했던 IIP와 달리 H_Ag, H_Ab만 이용해서 sequence only-level의 information을 학습하는 representation vector(Z^S)를 얻는다고 생각하면 되겠다.

[ 4. DeepInterAware Architecture—Dynamic Confidence Fusion and Prediction ]

Dynamic Confidence Fusion 모듈은 True Class Probability (TCP) 라는 개념에서 영감을 받았다고 한다.

True Class Probability (TCP)란 무엇일까?

딥러닝 분류 모델에서 자주 쓰이는 개념 중 하나가 True Class Probability (TCP) 입니다. 말 그대로, 모델이 실제 정답 클래스에 부여한 확률을 의미합니다.

예를 들어, 고양이 이미지를 넣었는데 softmax 출력이 [dog=0.6, cat=0.3, fox=0.1]이라면,

모델이 예측한 최대 확률(MSP)은 0.6 (dog)
하지만 TCP는 실제 정답 클래스(cat)에 부여된 확률 0.3 입니다.

CrossEntropy와 TCP

사실 우리가 흔히 쓰는 CrossEntropy Loss는 이미 TCP를 최대화하는 방식으로 학습됩니다.

L=−log⁡p(y\*∣x)L = -\log p(y^\* \mid x)

즉, 모델이 정답 클래스에 더 높은 확률을 주도록 직접적으로 최적화하는 거죠.

그런데 여기엔 한 가지 문제가 있습니다. CrossEntropy로 학습된 softmax 확률은 종종 과신(over-confidence) 되어 있어서, TCP 값이 실제 정확도를 제대로 반영하지 못할 때가 많습니다.

TCP를 정교하게 만드는 방법들

그래서 연구자들은 TCP를 더 신뢰할 수 있게 만들기 위해 여러 방법을 제안했습니다:

BCE 기반 학습: 정답/비정답을 이진 분류로 보고 TCP 교정을 강화
Temperature Scaling: softmax 확률에 “온도”를 조정해 calibration 개선
Confidence-aware Loss: TCP가 낮은 샘플에 더 집중하도록 손실 설계 (예: focal loss)

이런 기법들을 활용하면 TCP 값이 단순히 “학습된 확률”이 아니라, 실제 정답일 확률과 더 잘 align된 신뢰도 지표가 됩니다.

✅ 정리

TCP = 정답 클래스에 대한 softmax 확률
CrossEntropy로 이미 TCP를 키우도록 학습하지만, 과신 때문에 calibration이 필요할 수 있음
Temperature scaling, BCE, focal loss 등으로 TCP를 더 정교하게 다듬을 수 있음

우선 fI와 fS는 그냥 각각 ZI와 ZS를 입력으로 받아서 Ag-Ab 사이의 결합 확률을 예측한 확률 pI와 pS를 내뱉는 MLP이다. 이 때 TCP score(cI, cS)는 모델이 실제 정답 클래스에 할당한 확률임. Eq (8) 참고

근데 이 TCP는 문제가 있음. 실제 label이 무엇인지 모르면 어떤 값을 TCP로 해야할 지 알 수 없다는 것. 따라서 실제로 모델을 응용하기 위해 입력되는 데이터의 정답값을 추론(inference)하는 과정을 진행할 수가 없다는 치명적인 문제가 있음.

논문 실험(Test set 평가): TCP 직접 계산 가능 (라벨 있음)
실제 inference time: TCP 직접 계산 불가능 (라벨 없음 → 별도 TCP 예측기 필요)

따라서 훈련데이터를 학습하는 과정에서 TCP를 직접 예측학습하는 별도의 TCP predictor인 gI와 gS를 구성해서 predicted TCP (ĉI , ĉS)값을 계산해야함 (Equation (9)). 이 두 값은 실제 TCP score인 cI, cS와 최대한 가까운 값을 가져야 함. 따라서 두 값들이 서로 가까운 값을 가질 수 있도록 Loss function을 추가해줘야 함.

Loss는 다음과 같이 구성됨. 그림과 함께 찬찬히 보면 바로 이해할 수 있을 것임.

이 모델은 two stage로 학습된다고 함. IIL과 SIL 모듈은 Equation (11)까지만 사용해서 먼저 학습된 뒤, 다시 Equation (14)를 이용해서 전체 모델이 학습된다고 함.

실험 결과는 하나의 포스팅에 전부 하기엔 너무 길어져서 따로 포스팅 하였다.

https://biomadscientist.tistory.com/186

DeepInterAware 논문 리뷰 (2) 실험 및 결과

https://biomadscientist.tistory.com/185 DeepInterAware 논문 리뷰 (1) 모델 구조https://pmc.ncbi.nlm.nih.gov/articles/PMC11967782/ DeepInterAware: Deep Interaction Interface‐Aware Network for Improving Antigen‐Antibody Interaction Prediction from

biomadscientist.tistory.com

저작자표시 (새창열림)

'Paper > Bioinformatics' 카테고리의 다른 글

DeepInterAware 논문 리뷰 (2) 실험 및 결과 (4)	2025.08.26
AttABseq 논문 리뷰 (4)	2025.08.22
AbSet 논문리뷰 (3)	2025.08.19
[2022 NIPS] DIffAb 논문리뷰 (1) (0)	2025.03.27
HyperAttentionDTI 논문 리뷰 (4)	2023.11.24

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

글 보관함

벼랑끝 바이오 매드 컴퓨터 사이언티스트