«Биотех бурлит во всем мире, его кривая роста опережает развитие компьютерных технологий»
Более пяти лет в НИУ ВШЭ действует Международная лаборатория биоинформатики. За это время ее ученые добились значительных научных результатов. Здесь разработан уникальный в мировой практике тест «Кардиожизнь», позволяющий прогнозировать вероятность проявления сердечно-сосудистых заболеваний. С привлечением студентов и аспирантов Вышки ведутся исследования для создания лекарств нового поколения. Заведующая лабораторией Мария Попцова рассказала о ее работе в интервью новостной службе «Вышка.Главное».
— Когда была создана лаборатория?
— Сначала была организована научно-учебная группа в 2018 году. Примерно через полгода она была преобразована в научно-учебную лабораторию. А уже в период пандемии мы стали международной лабораторией. Тогда можно было пригласить в лабораторию иностранного ученого без его обязательного присутствия в России.

В то время мы активно разрабатывали модели глубокого обучения для анализа геномных данных, и нам было важно взаимодействовать с зарубежными коллегами, обмениваться идеями и данными. Наличие статуса международной лаборатории позволило наладить сотрудничество с экспериментальной лабораторией Онкологического центра Фокс-Чейза Университета Пенсильвании, и наш совместный проект завершился публикацией статьи в ведущем мировом журнале Nature. Коллеги направляли нам экспериментальные данные, мы их обрабатывали и как биоинформатики, и как дата-сайентисты: строили модели глубокого обучения для прогнозирования крайне важного элемента в геноме — Z-ДНК, вторичной структуры ДНК, закрученной не вправо, а влево. Построенная нами модель была использована при исследовании механизма действия лекарства от рака.
— Почему вы решили выбрать научным руководителем профессора Алана Герберта? Какова его роль в работе лаборатории?
— С профессором Аланом Гербертом мы познакомились, когда подали статью в один из международных журналов, где мы предлагали нашу первую модель глубокого обучения для прогнозирования Z-ДНК. В рецензии было указано, что мы не учли несколько работ по нашей тематике. Когда стали разбирать замечания, выяснилось, что автором всех упомянутых статей был Алан Герберт, известный ученый в области вторичных структур ДНК, ключевой специалист по тематике наших исследований. Мы списались по электронной почте, затем поговорили по Zoom. Как раз летом 2020-го мы проводили летнюю школу по машинному обучению в биоинформатике, которую из-за пандемии коронавируса пришлось перенести в онлайн, и благодаря этому нам удалось собрать ученых из разных стран: США, Китая, европейских государств. Профессор Герберт увидел уровень наших докладов и согласился стать научным консультантом.
С тех пор мы активно работаем с ним онлайн. Вместе мы организовали ставшую ежегодной международную конференцию ABZ по Z-ДНК, которая все эти годы проводилась онлайн, но есть планы провести ее в будущем году очно в Оксфорде.
Алан Герберт продолжает выстраивать научное сотрудничество с учеными из других стран, хотя сейчас это нелегко. Помимо работы в университетах, он возглавляет небольшой стартап, и это тоже помогает в выстраивании международных связей.

— Как объяснить непосвященным, что такое биоинформатика, какие научные дисциплины она соединяет?
— Изначально биоинформатика возникла как компьютерные методы обработки данных молекулярной биологии. Обычно это информация об объектах, которые находятся внутри клетки: ДНК, РНК, белки и другие макромолекулы. Практически одновременно с появлением компьютеров начались эксперименты по расшифровке состава этих макромолекул. Например, последовательность ДНК можно написать текстом на алфавите из четырех букв, а белка — на алфавите из 20 букв, и есть правило перевода одного алфавита в другой — так называемый генетический код. В конце 1960-х годов его расшифровали. Одновременно технологически научились получать последовательности ДНК и белков из разных организмов. Тогда же возникла необходимость разрабатывать алгоритмы для оценки схожести и различия последовательностей, чтобы рассчитать вероятность процессов, объясняющих, как одна строка ДНК трансформировалась в другую. Так и появилась биоинформатика. А дальше ее методы и алгоритмы развивались и усложнялись параллельно с появлением новых биотехнологий.
— В чем это выражается?
— Появилась, например, технология полногеномного секвенирования. Как следствие, возникла необходимость обрабатывать полногеномные данные и извлекать из них информацию. Например, сравнивать последовательности разных геномов или определять изменения в геноме конкретного человека — замену одной буквы, вставку или удаление маленьких и больших подстрок.
Далее появилась новая линейка экспериментальных технологий, благодаря которым можно прочитать не только последовательность ДНК, но и сигналы с других уровней кодирования информации — так называемый эпигенетический код.
Мы открывали лабораторию под изучение вторичных структур ДНК, тоже закодированных в геноме, с дальнейшей целью понять, по каким алгоритмам и правилам работает геном. Для решения данной задачи необходимо сопоставлять все уровни кодирования генетической информации. Поскольку в геноме человека насчитывается 3 млрд символов и уже сейчас доступны сотни тысяч полногеномных экспериментов по определению сигналов эпигенетического кода, возникла необходимость применения алгоритмов глубокого обучения для понимания связей между разными кодировками. В сферах, не связанных с биологией, алгоритмы глубокого обучения эволюционируют очень быстро, поэтому необходимо так же быстро адаптировать их применение к нашим биологическим задачам.
— Каковы ключевые направления исследований вашей лаборатории?
— Мы разрабатываем методы и архитектуры алгоритмов глубокого обучения для своих задач. В последние пару лет уже в геномике специально для биологии стали появляться большие языковые модели и фундаментальные модели, построенные на алгоритмах, на которых работают ChatGPT, DeepSeek и другие сложные системы ИИ.
Большие языковые модели в геномике, так же как и в языках, очень большие (Evo2, к примеру, содержит 40 млрд параметров), и, чтобы их запустить, нужен суперкомпьютер
Одна из наших задач состоит в тестировании таких гигантских моделей на геномах кардиопациентов и их внедрении в генетические тесты. Мы также занимаемся разработкой собственных моделей глубокого обучения для анализа кода вторичных структур ДНК и эпигенетики.
Среди других направлений в лаборатории развиваются исследования микроокружения опухоли на данных одноклеточного секвенирования, что позволяет понять, какие гены или программы включены, а какие выключены в отдельной клетке.
Например, если мы берем образец опухоли, то в нем есть клетки нормальной ткани, опухолевой ткани и клетки иммунной системы: лимфоциты, макрофаги, нейтрофилы и другие. Основной вопрос, на который мы хотим получит ответ, — почему и как опухоль избегает иммунного ответа. В нормальном организме клетки иммунной системы должны распознавать чужеродные опухолевые клетки и ликвидировать их, но опухолевые клетки как-то перепрограммируют клетки иммунной системы так, что они перестают распознавать и уничтожать раковые клетки. Такое поведение обусловлено действием генетических программ, подавляющих или, наоборот, активирующих иммунный ответ. Мы пытаемся такие программы выявить и изучить. Данное направление развивается пока на открытых данных, но мы планируем налаживать сотрудничество с российскими экспериментальными лабораториями.
Параллельно мы ведем исследования роли некодирующих вариантов, находящихся не в генах, кодирующих белки, а в межгенном пространстве, которое занимает 98% размера генома. Эффект таких некодирующих вариантов малоизучен. Мы разрабатываем методы глубокого обучения и используем большие языковые модели, чтобы определить эффект некодирующих вариантов, способных влиять на производство белка или, наоборот, прекращать его выработку клеткой, что может быть связано с возникновением и течением болезни.
— В каких областях медицины и биологии наиболее востребованы результаты работы лаборатории? Где они позволяют добиться серьезного прогресса в профилактике и лечении болезней?
— Одно из таких направлений — тестирование в области кардиогенетики, отстающей по сравнению с онкогенетикой. Мы развиваем данное направление около пяти лет. Нами был организован кардиогенетический консорциум, куда вошли врачи, биоинформатики и генетические лаборатории, способные секвенировать, то есть прочитывать, индивидуальный геном. В рамках проекта «100 000 российских геномов» мы работаем с кардиоцентром имени Чазова и 29-й горбольницей имени Баумана. Сейчас у нас отсеквенировано около 1000 полных геномов, которые мы исследуем на наличие вариантов, ассоциированных с кардиозаболеваниями.
На сегодняшний день известно более 900 генов, участвующих в развитии сердечно-сосудистых заболеваний. Весь наш накопленный опыт позволил нам создать генетический тест, названный «Кардиожизнь», который уже доступен на коммерческой основе. С его помощью пациент может получить информацию о наличии патогенных вариантов, ассоциированных с сердечно-сосудистыми заболеваниями.
— Каковы перспективные направления ваших исследований?
— Наша лаборатория готова расширить масштаб работ, перейдя в онкогенетику, поскольку методы генетического тестирования одинаковы для разных заболеваний. Кроме того, у нас есть опыт анализа большого массива геномных данных с помощью алгоритмов ИИ. Стоит задача найти небольшое количество маркеров, имеющих хорошую прогностическую силу. Чем меньше маркеров, способных прогнозировать заболевание, тем проще осуществлять масштабирование тестирования. Ожидается, что проводить раннюю диагностику рака возможно 8–10 маркерами. Это наша задача на ближайшее будущее.

— В чем ключевые особенности разработанного лабораторией теста «Кардиожизнь»?
— Это уникальный, не имеющий аналогов в мире тест, созданием которого мы гордимся. Из числа имеющихся сегодня тестов он наиболее полно учитывает набор генов и регуляторные области. Есть стандартные программы, которые применяются для генетического тестирования в генетических компаниях. Мы же проводим исследование на порядок глубже. У одного гена может быть много разных вариантов, и мы перебираем все изоформы, поскольку даже одна и та же мутация может по-разному влиять на изоформы. В дополнение мы анализируем некодирующие варианты и определяем их влияние на экспрессию генов с применением методов ИИ. В этом уникальность теста «Кардиожизнь». При стандартном генетическом тестировании такие исследования не проводятся.
— Расскажите о ключевых направлениях работы зеркальной лаборатории с Сургутским университетом.
— Анализ и создание прогностических систем на основе методов ИИ в медицине. Данный проект вырос из кардиогенетического консорциума, когда мы узнали, что в Ханты-Мансийском автономном округе — Югре электронные медицинские карты хранятся с 2009 года. Мы стали анализировать медицинские карты пациентов, попавших в сургутский окружной кардиоцентр с диагнозом «инфаркт миокарда».
Пациентам оказывали помощь, выписывали из больницы и отслеживали дальнейшее течение событий, поскольку у многих из них был высокий риск неблагоприятных событий: повторного инфаркта, инсульта, кровотечения и смерти. Мы построили прогностическую систему оценки риска наступления такого события, обучаясь на данных 10 000 пациентов за период с 2009 года. Есть идея дообучать эту модель на данных других кардиологических центров. Мы также научились обрабатывать медицинские данные для подачи алгоритмам машинного обучения — как классическим, так и тем, на основе которых сделан ChatGPT. Этот проект хорошо масштабируется и переносится в другие регионы. Также врачи могут поставить новые задачи. Например, можно создать модель для прогноза возникновения побочных эффектов от назначения тех или иных лекарств.
В частности, в сотрудничестве с Российской медицинской академией непрерывного профессионального образования мы начали строить первые модели по предсказанию неблагоприятных событий при приеме антикоагулянтов и антидепрессантов. Это очень важно, поскольку у них много побочных эффектов, особенно у подростков.
— Используется ли ИИ в разработке лекарств?
— Еще одно направление, которым мы недавно начали заниматься, — применение методов ИИ для генерации лекарств белковой природы. Напомню, что в 2024 году Нобелевской премии по химии «за вычислительный дизайн белков и предсказание их структуры» удостоились директор Института белкового дизайна Университета Вашингтона в Сиэтле Дэвид Бейкер и сотрудники Google DeepMind Демис Хассабис и Джон Джампер. В последние годы произошел прорыв в разработке лекарств благодаря применению генеративных моделей для создания пептидов из 15–20 аминокислот, которые могут связываться с заданным участком белка. Белковые байндеры представляют собой новое поколение лекарств, которое, в отличие от нынешних, базирующихся на химических молекулах, будет иметь биологическую природу. Вместо громоздких химических антител можно будет применить байндеры для связывания с вредоносными белками. Разработанные Бейкером и его институтом модели находятся в открытом доступе. И теперь уже студенты защищают дипломы и курсовые по использованию этих моделей для открытия белок-белковых взаимодействий. Создано немало компаний, занимающихся разработкой такого рода лекарств белковой органической природы. За этим будущее. Мы тоже работаем в этой сфере, есть уже первые результаты.
Биотех бурлит во всем мире, его кривая роста опережает развитие компьютерных технологий.
Известный футуролог, топ-менеджер Google Рэй Курцвейл, прогнозирующий научно-технический прогресс и его ключевые прорывы, предсказавший появление беспилотных автомобилей и ИИ, полагает, что к середине 2030-х годов ожидается сингулярность, когда человек сольется с ИИ и возникнет новый гибридный способ сосуществования. Будут изучены важнейшие области человеческого мозга и расшифрованы алгоритмы работы клетки. Совмещение этих знаний позволит программировать клетки ткани и выращивать органы. Такая фантастика ждет нас благодаря сочетанию биотехнологий и искусственного интеллекта.
— Какие результаты фундаментальных и прикладных работ вы бы назвали ключевыми достижениями лаборатории?
— Создание «Кардиожизни», публикацию в Naturе, открытие потенциального лекарства от рака посредством включения генетической программы через вторичную структуру ДНК, создание моделей глубокого обучения для полногеномной аннотации вторичной структуры ДНК — это, кроме нас, не делал никто в мире.
— Как используются результаты научных работ лаборатории в учебном процессе университета?
— Я всегда даю студентам темы курсовых и дипломов по актуальным научным задачам. Если они их успешно решают, то становятся авторами научной публикации. На лекциях я всегда освещаю работу лаборатории, а на междисциплинарном майноре «Биоинформатика» рассказываю, как студенты могут погрузиться в науку через курсовые и дипломы. С сентября буду вести спецкурс, где мы со студентами будем подробно разбирать научные методы и прорывные идеи последних двух-трех лет.
— Насколько активно в деятельности лаборатории участвуют студенты и аспиранты Вышки?
— Весьма активно. У нас работают более 20 стажеров-исследователей: студенты старших курсов бакалавриата, магистранты и аспиранты.
Вам также может быть интересно:
Аспирантку НИУ ВШЭ наградили за лучший доклад на 58-й конференции Societas Linguistica Europaea
С 26 по 29 августа в Бордо (Франция) состоялась крупнейшая ежегодная конференция по лингвистике Societas Linguistica Europaea, в которой приняли участие аспиранты и исследователи из НИУ ВШЭ. Работа Елены Шведовой “Lability drift in Modern Aramaic languages” была высоко оценена членами экспертного сообщества и заняла первое место среди докладов аспирантов. О своем исследовании и самой конференции Елена рассказала в интервью новостной службе «Вышка.Главное».
Нейросеть научили предсказывать кризисы на фондовом рынке России
Экономисты из ВШЭ разработали нейросетевую модель, способную за сутки до события с точностью более 83% предупредить о приближении краткосрочного фондового кризиса. Модель работает даже на сложных, несбалансированных данных и учитывает не только экономические показатели, но и настроение инвесторов. Работа сотрудников Центра финансовых исследований и анализа данных ФЭН ВШЭ Тамары Тепловой, Максима Файзулина и Алексея Куркина опубликована в журнале Socio-Economic Planning Sciences.
«Человеческое существование без математики сегодня трудно, а завтра будет просто невозможно»
Математики всего мира говорят на одном языке и продолжают сотрудничество, несмотря на сложности последних лет. Центр их общения перемещается в Китай, где ученые разных стран встречаются на конференциях и других научных мероприятиях. Сотрудничество с ведущими китайскими университетами перспективно для продолжения прежних и организации новых контактов. Об этом, а также о том, что такое ИИ и почему государство должно сотрудничать с математиками, новостной службе «Вышка.Главное» рассказал заведующий Международной лабораторией зеркальной симметрии и автоморфных форм НИУ ВШЭ Валерий Гриценко.
Новые модели изучения заболеваний: от чашки Петри до органов-на-чипе
Биологи из НИУ ВШЭ совместно с исследователями из НМИЦ АГП им. В.И. Кулакова используют новейшие микрофлюидные технологии для изучения преэклампсии — одного из самых опасных осложнений беременности, которое угрожает жизни и здоровью матери и ребенка. В статье, опубликованной в BioChip Journal, они рассмотрели современные клеточные модели, включая передовые технологии «плацента-на-чипе», позволяющие глубже понять механизмы заболевания и разработать эффективные лекарства.
Как разработать честный тест: зачем нужны параллельные тексты для диагностики дислексии
Исследователи из Центра языка и мозга ВШЭ разработали тест для точной оценки навыков чтения у взрослых — например, до и после занятий с логопедом. Он включает два разных по содержанию, но одинаковых по сложности текста: участники читали их с равной скоростью, делали равное количество ошибок и одинаково понимали смысл. Подобные параллельные тексты позволят точнее диагностировать дислексию и отслеживать прогресс коррекции. Исследование опубликовано в журнале «Вопросы образования».
Внутренние часы: как сердце и эмоции меняют ощущение времени
Восприятие времени зависит от частоты сердцебиения — к такому выводу пришли нейроученые из НИУ ВШЭ. В эксперименте добровольцы смотрели короткие видео с разной эмоциональной окраской и оценивали их продолжительность, пока ученые фиксировали сердечную активность с помощью ЭКГ. Оказалось, что чем медленнее билось сердце участника, тем короче ему казалось видео, особенно это проявлялось при просмотре неприятного контента. Исследование опубликовано в журнале Frontiers in Psychology.
«Мы близки к практическому применению системы бесстимульного картирования головного мозга»
Созданные учеными Вышки совместно с медиками нейроинтерфейсы позволяют установить контакт с головным мозгом и декодировать его сигналы. Их применение создает возможности для стимуляции мозговой активности, восстановления и нормализации мышечного контроля пациентов, перенесших инсульт, инфаркт или страдающих иными неврологическими заболеваниями, а также способствует реабилитации людей с черепно-мозговыми травмами и потерей конечностей. О работе Центра биоэлектрических интерфейсов Института когнитивных нейронаук НИУ ВШЭ рассказывает его директор Алексей Осадчий.
Исследователи НИУ ВШЭ представили новую архитектуру нейронных сетей, понимающую симметрии мира
Сотрудники Лаборатории геометрической алгебры и приложений НИУ ВШЭ разработали новую архитектуру нейронных сетей, которая может ускорить и упростить анализ данных в физике, биологии и инженерии. Свое решение ученые представили 16 июля в Ванкувере на ведущей международной конференции по машинному обучению ICML 2025. Текст статьи и исходный код выложены в открытый доступ.
Исследователи НИУ ВШЭ выяснили, как часто у россиян с легочной гипертензией встречаются генетические мутации
Команда ученых и медиков впервые в России провела масштабное генетическое исследование пациентов с легочной артериальной гипертензией. Исследователи, включая сотрудников Международной лаборатории биоинформатики факультета компьютерных наук НИУ ВШЭ, изучили геномы более ста пациентов и обнаружили, что примерно у каждого десятого встречаются опасные мутации в гене BMPR2, отвечающем за рост сосудов. Три мутации были описаны впервые. Исследование опубликовано в журнале Respiratory Research.
Центр языка и мозга провел первое полевое нейролингвистическое исследование чтения на якутском языке
В июле команда Центра языка и мозга НИУ ВШЭ совместно с Центром изучения, сохранения и развития родных языков Академии наук Республики Саха (Якутия) организовала в селе Чурапча первую в истории нейролингвистическую экспедицию по исследованию чтения на якутском языке с использованием метода электроэнцефалографии (ЭЭГ). В ходе двухнедельной работы впервые были собраны ЭЭГ-данные 43 взрослых участников, а также поведенческие данные 40 детей.