Юрий Порозов, "Введение в биоинформатику"
(IBI)

Юрий Порозов
"Введение в биоинформатику"


Первое занятие в субботу 30 октября в 16:00 в 311 аудитории ПОМИ


Современная биоинформатика – молодая, бурно развивающаяся и
довольно непривычная как для математиков, так и для биологов наука. По сути
это собрание различных математических моделей и методов в помощь
биологам (в основном молекулярным биологам) для решения чисто
биологических задач (предсказание пространственной структуры белков,
расшифровка структуры ДНК, хранение, поиск и аннотация биологической информации и т.п.). Несмотря на наличие корня «информатика» в названии этой науки, она настолько пропитана биологией, что без определенных биологических знаний
математику или специалисту в информационных технологиях придется тяжело. В то же время область приложения математических знаний, в том числе и самых современных математических теорий здесь просто безгранична. Цель курса - познакомить слушателей с
основными моделями и методами биоинформатики, современным положением дел в биоинформатике, а также с основными стоящими перед ней проблемами. На курсе будет представлен как теоретический материал, так и результаты исследований, проводимых лектором. Особое внимание будет уделено проблемам протеомики – моделирование структур белка, предсказание его динамики, работе с основными базами данных и программными пакетами. Участие в работе факультатива поможет понять современные проблемы вычислительной биологии. Слушатели будут принимать участие в разборе типичных задач и способов их решения. Желающие смогут выбрать тему для небольшого собственного исследования.

План курса.

I. Введение: 2 ч.

Обзор курса. Предмет биоинформатики. Цели, задачи и методы науки. Основные понятия. Аминокислоты, их строение, свойства. Нуклеиновые кислоты и нуклеотиды. ДНК и РНК. Строение ДНК. Способы представления информации о последовательностях – форматы записи Fasta, Genbank, PDB и способы визуализации.

IIИсточники информации: 2 ч.

Базы данных и Интернет для биоинформатики. NCBI. Genbank. PDBdatabank. Entrez. Протеины, пространственное строение, функции. Принципы работы с основными базами данных.

III. ДНК: 2 ч.

Молекула ДНК – хранилище генетической информации. Строение ДНК. Упаковка молекулы. Комплементарность. Гены, регуляторные последовательности, сайты связывания. Кодирование информации при помощи нуклеотидов. Репликация (удвоение молекулы).

IV. Методы анализа последовательностей: 2 ч.

Анализ последовательностей. Парное выравнивание. Алгоритм Смит-Ватерман. Алгоритм Нидлмана-Вунша. Множественное выравнивание. Динамическое программирование в биологии. Применение выравнивания в биоинформатике, примеры. Визуализация выравнивания.

V. Белки: 2 ч.

Строение белков. Первичная структура белка. Вторичная структура. Третичная и четвертичная структура белка. Мотивы и домены. α-структуры,β-структуры и их комбинации. Функции белков.

VI. Белки (cont): 2 ч.

Связь между структурой и функцией белков. Главная цепь. Боковые цепи. Геометрия главной цепи. Конформации белка. Конформации боковых цепей. Диаграмма Рамачандран и библиотеки ротамеров.

VII. Белки. Трехмерные структуры, предсказание: 2 ч.

Фолдинг (сворачивание) белка. Парадокс Левенталя. Методы определения пространственной структуры белков. X-ray-дифракция. Метод ЯМР. Потенциальная энергия молекулы. Предсказание вторичной структуры.

VIII. Белки. Предсказание третичной структуры. Алгоритмы структурного выравнивания: 2 ч.

Предсказание третичной структуры: AB-initio. Моделирование гомологов. Threading (распознавание фолда). Структурное выравнивание.

IX. Подвижность белков. Количественные оценки. 2 ч.

Физико-химические основы подвижности белка. Метрики RMSD, GDT-TS, TM-score, LCS, их сравнительный анализ.

X. Моделирование подвижности белков. 2 ч.

Моделирование белковой подвижности – точные и приближённые методы. RRT. Elasticnetworks. Linearinterpolation. Сервера и базы данных движений белка.

XI. Биологические базы данных и серверы. Программное обеспечение для биоинформатики. Решение практических задач: 2 ч.

NCBI и сервисы. PDB. OCA. SRS. SRS-3D. PredictProtein. Swiss-Model. ExPASy. UniProt. Сервера EMBL. Сервер ENCODE project. Proteopedia. Инструменты: Swiss-PDBviewer, VMD, Accelrys Discovery Studio.

XII. Задачи, проблемы и подходы к их решению (ДНК):2 ч.

Актуальные проблемы, требующие решения: аннотация генома, поиск генов, поиск сайтов репликации у человека. Машинное обучение. Спектральные методы.

XIII. Задачи, проблемы и подходы к их решению (белки):2 ч.

Сворачивание белков, предсказание структуры белка, предсказание функции и клеточной локализации белков. Предсказание подвижности белков и классификация протеинов по принципу подвижности. Формализация движений.