Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 1,021

CLASSIFICAITION MODELS OF CHEMICAL SUBSTANCES BRAIN PENETRATION BY MEANS OF STRUCTURE SIMILARITY METHOD

Yarkov A.V. 1 Trepalin S.V. 1 Grigorev V.Y. 1 Raevsky O.A. 1
1 Institute of Physiologically Active Compounds
Проницаемость в центральную нервную систему (CNS) является ключевым фактором для создания новых лекарственных препаратов для лечения неврологических заболеваний. В настоящей работе проведена классификация проницаемости химических соединений в центральную нервную систему (CNS) c использованием методов структурного сходства (Structural Similarity) и среднеарифметического свойства (Arithmetic Mean Property). В основе метода структурного сходства лежит тот факт, что свойство исследуемого соединения определяется из известных свойств наиболее родственных структурных соединений. На основе этого построена классификационная модель проницаемости химических соединений в нервную систему, результаты классификации которой значительно лучше, чем в широко используемых эмпирических правилах «rule-5» и MPO. Полученная модель довольно проста и может быть использована на ранней стадии поиска новых лекарств.
The penetration into central nervous system (CNS) is the key factor for creation of new drugs to treat neurological deceases. In the present work the property of penetration of chemical substances into brain (CNS) was classified using the methods of Structure Similarity and Arithmetic Mean Property. In the basis of the structural similarity lies in the fact that the property of a compound is determined from the known properties of the most structural related compounds. Using above method the classification model was build and the results of classification were significantly better then obtained by empirical methods: «rule-5» and MPO. The resulting model is quite simple and can be used at an early stage of drug discovery.
brain penetration cns
classification methods
structure similarity

Проницаемость в центральную нервную систему (CNS) является ключевым фактором как для создания новых лекарственных препаратов для лечения неврологических заболеваний, так и для защиты нервной системы от вредных веществ. Использование методов QSAR позволяет оценить возможность проникновения в CNS новых веществ на предварительном этапе испытаний, что значительно сокращает затраты и позволяет оптимизировать работы в конструировании лекарств.

В 1997 году Липинским [6] было предложено «правило-5» для оценки того, чтобы вещество могло быть лекарством для CNS. Это правило включает 5 параметров (Молекулярный вес меньше 500, число атомов доноров и акцепторов водорода а также logP меньше 5, пятый параметр заключается в присутствии везде цифры 5). Это правило значительно повлияло на развитие медицинской химии и упоминается в сотнях публикаций. Позднее Вагер и др. [14] предложили более сложный способ оценки для исследования проницаемости в CNS – метод MPO (Multi Parameter Optimization). В методе использованы шесть физико-химических параметров (logP, logD, MW, TPSA, число атомов – доноров H и pKa для наиболее основного центра). Вместо порогового значения в методе MPO используются нормированные (от 0 до 1) значения каждого параметра, и результат определяется суммой этих нормированных параметров (от 0 до 6). В обзоре [10] описаны другие подходы с использованием других дескрипторов для построения QSAR модели проницаемости химических соединений в центральную нервную систему.

В основе метода структурного сходства лежит тот факт, что свойство исследуемого соединения определяется из известных свойств наиболее родственных структурных соединений (подход, аналогичный методу kNN, k-ближайшего соседа). В рамках этого подхода для каждого рассматриваемого соединения устанавливается ряд структурно-родственных соединений, и среднее арифметическое значение их свойства принимается за рассчитанное значение свойства изучаемого соединения. Выбор родственных соединений может быть проведен также с использованием и других дескрипторов, используемых при исследованиях QSAR, поэтому метод структурного сходства является частным случаем метода AMP (Arithmetic Mean Properties) [8, 9]. Результаты исследований данным методом показывают, что в большинстве случаев достаточно использование трех ближайших соседей. В качестве структурных дескрипторов могут быть использованы индексы схожести Танимото [12]. Таким образом, для каждой молекулы можно определить n наиболее похожих молекул, а исследуемому свойству приписать среднее свойство его ближайших соседей.

Целью данной работы является построение классификационной модели для проницаемости в центральную нервную систему с помощью структурных дескрипторов методом структурного сходства и сравнение полученных результатов с эмпирическими правилами Липински [6] и MPO [14].

Материалы и методы исследования

Созданная нами база данных содержит информацию о проницаемости в CNS 2294 уникальных соединений и процитирована из публикаций [1, 3, 4, 5, 11, 15]. Среди них 1159 соединений считались проницаемыми через CNS, 735 – нет. С помощью алгоритма, описанного в [12] и реализованного в СУБД CheD [13], все соединения были отсортированы в порядке убывания индекса разнообразия и отобрано по пятьсот соединений CNS+ и CNS-. Это позволило отобрать наиболее непохожие соединения для формирования обучающей и тестовой выборок. Каждое пятое соединение из отобранных пятисот было отобрано для формирования тестовой выборки. Таким образом, были сформированы выборки из 400 обучающих соединений и 100 тестовых. Кроме того, были сформированы также внешние тестовые выборки по 50 соединений – лекарств [2], для которых данные по проницаемости в CNS наиболее достоверны. Для полученных выборок была рассчитана матрица схожести Танимото Ti,j [12].

Программа AMP [8, 9] в качестве входной информации использует матрицу схожести Танимото, данные по активности CNS («+» или «–») и число ближайших соседей для расчета активности. В выходном файле для каждого соединения перечисляются номера ближайших структурных соседей и индексы схожести Танимото (Tc) c каждым соседом. Считается, что соединение имеет свойство CNS+ (или CNS-), если большая часть его соседей имеет активность «+» (или «-»).

Результаты исследования и их обсуждение

В таблице представлены результаты моделирования проницаемости в CNS методом структурного сходства и дано сравнение с эмпирическими правилами Липински (правило «5») [6] и MPO [14].

Результаты классификации проницаемости химических соединений в CNS методом структурного сходства.

k

Выборка

Число CNS+

Число

CNS-

Точн. CNS+

Точн. CNS-

Точн. общая

Точн. «5»

Точн. MPO

1

Обуч.(800)

326

312

0,815

0,780

0,798

0,560

0,573

 

Тест(200)

76

85

0,760

0,850

0,805

0,630

0,585

 

Тест(100, вн.)

40

31

0,800

0,620

0,710

0,550

0,520

3

Обуч.(800)

322

314

0,805

0,785

0,795

   
 

Тест(200)

77

84

0,770

0,840

0,805

   
 

Тест(100, вн.)

36

36

0,720

0,720

0,720

   

5

Обуч. (800)

315

308

0,788

0,770

0,779

   
 

Тест(200)

78

79

0,780

0,790

0,785

   
 

Тест(100, вн.)

35

38

0,700

0,760

0,730

   

Примечания. k – число ближайших соседей, число CNS+ и CNS- количество правильно определенных соединений, точность CNS+ CNS- доля правильно классифицированных соединений, точность «5» и MPO – доля правильно классифицированных соединений методами Липински [6] и MPO [14].

Приведенные данные демонстрируют значительное улучшение в точности предсказания проницаемости в CNS по сравнению с эмпирическим правилом – «5» и MPO. Немного выпадает точность в классификации CNS-внешней выборки [2], особенно для одного соседа – 0,62. Это может быть связано с тем, что в обучающей выборке недостаточно структурных фрагментов, представленных во внешней тестовой выборке. Остальные результаты близки к экспериментальной точности определения свойств и могут быть использованы при конструировании перспективных лекарств. Полученная модель очень проста, для ее использования не требуется знания сложных машинно-обучаемых методов и программ. Единственным параметром является структура изучаемого вещества. Кроме того, точность прогноза легко может быть улучшена за счет расширения обучающей выборки и привлечения в нее более разнообразных соединений.