Молодые ученые: биоинформатик Антон Теслюк

,

Teslyuk4

© Федор Ратников

Антон Теслюк рассказывает о том, как применять математические методы в генетических исследованиях и объясняет, почему бюрократия губительна для науки.

Где учился: факультет общей и прикладной физики МФТИ (2004 год), стажировка в Институте теоретической физики им. Ландау

Что изучает: создание суперкомпьютерных комплексов и их применение для решения сложных научных задач.

Особые приметы: катается на горных лыжах и сноуборде, читает Довлатова, слушает классическую музыку.

Теория графов — раздел дискретной математики, который изучает свойства графов, или узлов в сети. Теорию используют в программировании, логистике, экономике, химии.
С четвертого курса я пошел на стажировку и занимался применением методов статистической физики к интернету. В качестве дипломной работы применял методы теории графов для исследования закономерностей в графе веб-документов.

После института стал работать в Курчатовском институте, исследовал высокопроизводительные вычислительные комплексы, грид-системы, параллельные кластеры. Занимаюсь созданием суперкомпьютерных комплексов и их применений для решения сложных научных задач, требующих больших вычислительных мощностей.

Грид-система — «виртуальный суперкомпьютер», который представлен в виде обычных компьютеров, соединенных в сеть для решения большого числа задач. Вычисления на Большом адронном коллайдере производятся грид-системой.
В Курчатовском суперкомпьютерном центре я стал лучше понимать, как можно с помощью больших компьютеров решать сложные задачи с огромными массивами данных, требующие «тяжелого» анализа, недоступного на персональных компьютерах или даже отдельных серверах. Работа эта жутко интересная, но было одно «но». Хотелось не только помогать считать другим, но и работать над своими собственными научными задачами, писать формулы, придумывать алгоритмы и математические модели, применять свои знания физики и математики.

Teslyuk3

Примерно два года назад я почти случайно познакомился с командой исследователей из лаборатории «Геноаналитика», и у нас оказались общие научные интересы. Для анализа большого количества генетических данных по проекту i-gene был полезен мой опыт в высокопроизводительных вычислениях, а у меня появилась возможность заниматься интересной математической задачей по кластеризации генетических данных.

Здесь есть два основных направления работы. Первое — выполнение заказов других научных лабораторий: генотипирование или анализ уровня экспрессии генов. Что такое экспрессия? Есть ген, участок молекулы ДНК, он может или молчать, или работать, то есть на его матрице будет синтезироваться РНК и белок. Когда белок образуется, ген экспрессируется. ДНК во всех клетках организма одинаковая, а сами клетки — разные. Это значит, что экспрессируются разные белки. Поступают, например, заказы из онкологического центра: сравнить уровень экспрессии гена в норме и при опухоли.

А второе направление – это проект «Мой ген»: «Мой ген — здоровье» и «Мой ген — этно» — его мы сами придумали. ДНК состоит из четырех нуклеотидов, они обозначаются буквами – A, T, G, C. В некоторых генах могут происходить ошибки, например, А заменяется на С или G на T. Такие замены называют однонуклеотидными полиморфизмами, или, в сокращенном виде, SNP (Single Nucleotide Polymorphism), мы называем их «снипы».

Базы данных снипов — это очень удобный инструмент генетического анализа. Многие снипы связаны с риском определенных заболеваний. Еще в однонуклеотидных полиморфизмах содержится информация о происхождении человека. Такие «исторические» снипы позволяют разделить всех людей на несколько гаплогрупп, в зависимости от их происхождения.

Мы делаем проект «мой этнический состав», можно проанализировать свой геном и сравнить себя с другими народностями. Все популяции, с которыми мы работаем, условно разделяют на 6: азиаты, народы Кавказа, славянские народы, народы бассейна реки Лены и другие — для каждого отобраны характерные маркеры. Были проведены масштабные исследования с выборкой в несколько тысяч образцов. Мы проанализировали якутов, русских-староверов, которые довольно изолированно живут, народы Поволжья, украинцев, белорусов и чехов; китайцы есть, японцы, киргизы, казахи. Индейцев Северной Америки пока нет, но мы постепенно расширяем базу данных.

  • Teslyuk1
  • Teslyuk2

После проведения такого анализа человек получает информацию о том, как он соотносится с этими метапопуляциями: на сколько процентов он схож с русскими, на сколько — с евреями-ашкенази, на сколько — с киргизами. По-моему, это очень интересно.

У нас есть еще один биоинформатический анализ, относящийся к этнике, — метод анализа компонентов. Это довольно известный статистический подход, не мы его придумали, но мы его впервые применили применительно к нашим этническим исследованиям. Получается такая карта, на которой располагаются люди разных национальностей. Мы ее назвали этногенетическая карта, она чем-то похожа на географическую. Есть совершенно четкий кластер русских, но он очень близок, практически перекрывается с украинцами, белорусами и поляками — можно говорить, что это практически одна народность. И можно найти на этой карте себя.

Книги, которые советует прочитать Антон:

«Геном»

Genom

Handbook of Statistical Genetics

320
Еще в лаборатории делают анализ по определению предрасположенности к разным болезням. Среди них многие виды онкологии, сахарный диабет, болезни сердца, психиатрические болезни (шизофрения, биполярное расстройство, депрессия). Эти болезни полигенные, или мультифакториальные, то есть на них влияет и генетика, и факторы внешней среды. Где-то генетика 30 процентов, а среда 70, где-то наоборот — для разных болезней по-разному. Мы не можем ставить диагнозы по генетике — только оценить риски, сказать, что по такой-то болезни риск в 2 или в 3 раза больше в сравнении со всей популяцией. Это нужно, чтобы больше узнать о себе и каким-то образом скорректировать свой образ жизни.

Я изучал математику, и это очень востребовано в моей работе, равно как и опыт в ИТ. Помимо собственно знаний, я очень благодарен вузу за способность быстро погружаться в новые предметные области,  с которыми раньше почти не сталкивался, — генетику, в моем случае.

Основные проблемы науки в России — неповоротливость больших научных институтов и организаций. Часто время и силы, которые нужно потратить, чтобы организовать решение какой-нибудь задачи, делает саму задачу бессмысленной. Особенно это критично в таких направлениях как ИТ или генетика, где развитие технологии идет семимильными шагами, и прибор или сервер, актуальный сегодня, через два-три года может быть никому не нужен, потому что появятся новые, которые умеют делать в 100 раз больше.

Я не уезжаю работать за рубеж, потому что мне удается успешно самореализовываться и в России. У меня есть интересные задачи и возможность ими заниматься. Как специалист в своей области я востребован и получаю неплохую зарплату. Еще у меня есть семья, родители, друзья, которых совсем не хочется оставлять тут. Я люблю виндсерфинг, горные лыжи и сноуборд. Из-за этих увлечений люблю путешествовать, особенно в места, где есть горы со снегом или море с хорошим сильным ветром. Этой заграницы мне хватает.

Комментарии

Когда, интересно, генетический анализ станет доступным для рядового потребителя и вообще обычной частью жизни. Давно это пророчат.

Как раз в лаборатории, где работает Антон, можно заказать себе генетический анализ - и про здоровье, и про этнику.

для рядового потребителя и обычная часть жизни означает, что это будет стоить раза в 2 меньше как минимум

Есть же еще американские 23andme.com. С доставкой в Европу вроде проблем нет.

Вроде были какие-то проблемы с нашим законодательством в этой области?

«В настоящее время анализ ДНК требует 2-х недель, а стоимость такого исследования достигает нескольких тысяч долларов США. Компания из США скоро сможет провести анализ генотипа любого желающего в течение дня и гораздо дешевле.
Американская компания Ion Torrent, которая входит в состав корпорации Life Technologies Corp, объявила о том, что, начиная со второй половины этого года, начнет предоставлять услуги по расшифровке индивидуального генетического набора любого желающего.
В то время как в настоящее время подобная процедура требует не менее 2 недель, сотрудники Ion Torrent смогут сделать это в течение суток, причем стоимость такого анализа также будет меньше в несколько раз.
Представитель компании Ion Torrent сообщил, что на первых порах цена уникального анализа индивидуальной ДНК составит не более 1 000 долларов США.
Это станет возможным благодаря использованию новейшего оборудования: удивительный аппарат Ion Proton стоимостью более 150 000 долларов США, который и способен расшифровать личный геном любого человека за сутки, по размерам не превышает обычный офисный принтер.
Медики США уже приветствовали новшество, которое они назвали «прорывом в науке».
Первыми «клиентами» нового медицинского сервиса, по идее, должны стать новорожденные младенцы, особенно из семей, где существует риск рождения детей с наследственными заболеваниями.
Но и у совершенно здоровых детей наличие полных данных об индивидуальных генетических особенностях позволит иметь четкую картину о том, какие болезни могут больше всего угрожать малышу, когда он станет взрослым.
Генетическая карта, составленная еще в младенчестве, с высокой точностью может определять риск развития многих форм рака, диабета, болезней сердца и многих других недугов.
Однако новая методика может оказать неоценимую помощь и при лечении взрослых – например, расшифровка индивидуальной ДНК человека, у которого обнаружена злокачественная опухоль, будет способствовать выбору максимально эффективного метода лечения, что поможет спасти немало жизней.»

По какому принципу народы объединили в 6 популяций? Почему народы бассейна Лены отдельной строкой? И кто тогда азиаты? А Кавказ это разве не южные европеойды, если брать антропологическую классификацию? Или лучше вообще параллелей с другими классификациями не проводить?:)

Мы объединяли народы в группы исключительно основываясь на математическом анализе генетической информации. Несколько различных методов: анализ главных компонент (PCA), филогенетический анализ и методы admixture/structure дают схожие результаты, которые состоят в том, что генотипы японцев и китайцев (это основные представители азиатских народов, данными которых мы располагали), кавказские народы, такие этносы как кеты или ханты (их мы условно назвали народы бассейна Лены) образуют хорошо обособленные кластеры. Параллели с антропологической классификацией были бы очень интересны, любопытно найти и проанализировать случаи, когда соображения расселения, истории, культуры различных этносов вступают в противоречия с анализом генетики.

джинса

Мне интересно, как влияет тип питания на предрасположенность к болезням у последующих поколений.
Возможно, не совсем по адресу, однако, интересно.

весьма хорошие професии для биоинформатика - математик и ITшник.
у меня вопрос к Антону - вы не пробовали использовать графы, которые вы упомянули, СОВМЕСТНО с фракталами для исследований ? сама суть фракталов - довольно неплохо отражает в природе суть жизни и развития живых систем..

Спасибо за вопрос. Графы совместно с фракталами мне удавалось удачно применить к такому объекту как граф веб-документов, у которого ряд характеристик хорошо описывается степенными распределениями с «тяжелыми» хвостами, что является верным признаком фрактальных объектов.

В генетических данных, с которыми есть возможность работать, пока таких объектов не видно, но мне кажется не потому что их там нет, а потому что нужно больше данных, нужно генотипировать больше организмов, что бы собрать статистику распределений различных величин и заметить в них «тяжелые» степенные хвосты. Полностью соглашусь с тем, что в генетике стоит ожидать фрактальные объекты, т.к. в сложных системах с очень большим количеством степеней свободы они находятся почти всегда.

Комментировать