티스토리 뷰

AI 신약개발 분야에서 공부하다보면 finger print라는 단어를 많이 보게 된다.

우리가 각각의 사람들마다 서로다른 지문(finger print)를 가지고 있듯 chemical들도 각각의 finger print를 부여해 서로 구분할 수 있도록 하자는 개념이다.

서로간의 chemical similarity를 구분짓기 위해 수많은 chemical들을 Morgan algorithm으로 분석하여 circular substructures 또는 circular fingerprints들을 구성한다. 그리고 각각의 chemical의 시퀀스를 알고리즘을 통해 분석하여 해당 chemical 시퀀스에 존재하는 circular substructure는 1로, 존재하지 않으면 0으로 나타낸다.

 

예를 들어보자

CH3CH2OH로 나타내어지는 에탄올에 대해 이야기하면 에탄올 내부의 Morgan circular substurcture는 C-C, C-O, C-C-O등이 포함된다. 이렇게 morgan circular substructure에 포함되는 chemical 내부의 원자 구조는 1로 나타내어지며 나머지 substructure들은 0이된다.

C8H10N4O2로 나타내어지는 카페인의 경우 카페인에서는 N-C-N, C-C-C, C-N-C, C-C-O 같은 것들이 존재한다.

아래 그림을 보면 이해가 더 잘 될것이다.

https://twitter.com/datamol_io/status/1574772730360172548

 

예를들어 에탄올을 morgan finger print로 나타내면 [0, 0, 0, 0, 1, 0, 0, 1, 0, 1]이라고 하자

반면 카페인을 morgan finger print로 나타내면         [1, 1, 1, 0, 1, 0, 1, 0, 1, 1]이라고 하자.

또 이소프로판올을 morgan finger print로                  [0, 0, 0, 1, 1, 0, 0, 1, 0, 1]이라고 하자 

에탄올과 카페인은 빨갛게 표시된 부분의 구조에서 일치하고 나머지 부분에서는 일치하지 않으므로 그닥 유사성을 가진 chemical이라고 할 수 없을 것이다. 사람으로 치면 사건 현장에서 얻어진 범인의 지문과의 일치율이 40%정도밖에 되지 않는 사람을 범인이라 지목할 수 없는 것과 일맥상통한다.

반면 에탄올과 이소프로판올을 보면 하나의 finger print에서 불일치를 보이고 나머지 9개의 finger print에서 일치한다. 사건 현장에서 나온 범인의 지문과 나의 지문이 90% 일치한다면, 나는 용의선상에 분명히 올라가게 될 것과 같은 이치이다.

이렇게 chemical의 finger print는 두 chemical 간의 유사성을 비교하는데 사용될 수 있다.

 

Morgan algorithm을 통해 내가 가지고있는 chemical sequence를 Morgan fingerprint로 변환하는 것은 RDKit을 통해 쉽게 사용할 수 있어보인다. Morgan algorithm에대해서 자세히 파고들 필요성까지는 느끼지 못해서 포스팅은 여기서 마치도록 한다.

 

↓ 내용이 혹시나 도움되셨다면 눌러주세요 꾸준한 포스팅에 큰 원동력이 됩니다 🥰

댓글