Міжнародний консорціум Telomere-to-Telomere, куди увійшли вчені СПбДУ, опублікував першу версію нового референсного геному людини. У ній вперше, за участю представників Університету, вдалося розшифрувати центромери - ділянки ДНК з великою кількістю повторів, що становлять близько 2% всього геному. За допомогою еталона вчені зможуть знайти більше зв'язків між мутаціями і хворобами, а значить - підвищити ефективність різних видів лікування.
Перша збірка геному була отримана близько 20 років тому. На проект «Геном людини» (The Human Genome Project, HGP) було витрачено кілька мільярдів доларів і більше десяти років наполегливої роботи багатьох фахівців по всьому світу. При цьому отримана збірка насправді була далеко не повною.
Майже 10% людського геному не було зібрано через проблеми на різних стадіях дослідження: від біологічних експериментів до вирішення алгоритмічних завдань зі складання. Протягом наступних 20 років референсний геном багаторазово поліпшувався, але тим не менш навіть його остання версія GRCh38 все ще містила невідомі послідовності довжиною близько 161 мільйона пар підстав - це майже 5% геному.
"Однією з головних проблем для складання є довгі ділянки повторюваних послідовностей. З використанням технологій секвенування, здатних виробляти тільки короткі фрагменти, було неможливо визначити, де саме в геномі і в якій кількості такі повторювані ділянки містяться. Але в 2010-х роках активне поширення отримали нові технології секвенування, що розробляються компаніями Pacific BceSciences і Oxford Nanopore. Послідовності, одержувані за допомогою цих технологій, набагато довші, ніж у попередніх поколінь секвенаторів, і складають десятки і сотні тисяч підстав ", - розповіла один з авторів проекту, науковий співробітник лабораторії" Центр алгоритмічної біотехнології "СПбДУ Алла Міхеєнко.
Тому тільки зараз, майже через 20 років після створення першого складання геному людини, наука нарешті готова закрити всі прогалини в референсному геномі. Для цього дослідники з різних країн об'єдналися в міжнародний консорціум Telomere-to-Telomere (T2T), очолюваний Адамом Філліппі (Adam Phillippy) з Національних інститутів здоров'я США (The National Institutes of Health, NIH) і Карен Міга з Університету Каліфорнії в Санта-Круh of, Щоб зрозуміти сенс назви консорціуму, необхідно знати, що теломери - це ділянки геному, які знаходяться на кінцях кожної хромосоми. Відповідно, метою T2T є складання кожної хромосоми «від теломери до теломери», тобто від початку до кінця.
Перша версія нового референсного геному, створеного Т2Т, була опублікована восени 2020 року. Зараз консорціум займається підготовкою великої наукової публікації, в якій будуть детально описані методи складання геному і перевірки його на наявність помилок. Тепер дослідників по всьому світу чекає величезна робота з аналізу нового референсного геному.
"Наша група під керівництвом професора Павла Певзнера займалася в першу чергу роботою з одними з найскладніших ділянок людського геному, збірка яких до недавнього часу була принципово неможлива, - центромерами. Це ділянки довжиною кілька мільйонів літер, в яких одна і та ж послідовність може повторюватися кілька тисяч разів. Центромери беруть участь у найважливіших клітинних процесах - наприклад, у поділі клітини ", - зазначила інший автор проекту, співробітниця лабораторії" Центр алгоритмічної біотехнології "СПбДУ Тетяна Дворкіна.
Перша програма, здатна отримувати автоматичну збірку центромер, була створена в лабораторії Павла Певзнера в Університеті Каліфорнії в Сан-Дієго його аспірантом Андрієм Бзікадзе. Потім група під керівництвом Сергія Нурка з NIH створила програму HiCanu, здатну збирати будь-які геноми з довгих високоточних фрагментів, вироблених секвенатором компанії Pacific BceSciences. У проекті з розшифровки геному були використані обидві ці програми, що дозволило отримати послідовності центромер для всіх хромосом. Примітно, що обидва вчених, Андрій Бзікадзе і Сергій Нурк, захистили дисертації (магістерську та кандидатську відповідно) в СПбДУ.
Програма TandemTools, розроблена співробітниками Центру алгоритмічної біотехнології СПбДУ Аллою Міхеєнко та Олексієм Гуревичем, дозволила знайти важливі помилки в перших варіантах складання центромер, виправити алгоритм складання і отримати в підсумку правильні послідовності, які і були включені в опубліковану збірку геному. Інша програма, розроблена співробітницею лабораторії Тетяною Дворкіною, StringDecomposer, використовувалася для вивчення структури центромер, і результат її роботи зможе пролити світло на багато важливих питань, пов'язаних з еволюцією людського геному.
"Важливо розуміти, що збирати якісний геном кожної людини - завдання, з одного боку, неймовірно складне і дороге, а з іншого - абсолютно не потрібне. Дві різні людини генетично збігаються більш ніж на 99,9%. Ми можемо секвенувати ДНК людини, порівнювати отримані фрагменти з відомим еталоном (або референсом) і знаходити відмінності ", - пояснює Тетяна Дворкіна.
Відмінності від референсного геному можуть бути як «шкідливими» (наприклад, мутації, які служать причиною генетичних захворювань), так і, навпаки, «корисними». Наприклад, існують мутації, що знижують ризик розвитку онкологічних або серцево-судинних захворювань. Пошук «шкідливих» мутацій дуже важливий як для розуміння механізмів розвитку різних захворювань, так і для прогнозування ризиків і розробки методів лікування.
Зараз будь-яка людина може секвенувати свій геном і отримати інформацію про те, носієм яких генетичних захворювань вона є, чи є ризик передачі цих захворювань дітям, чи підвищений у неї ризик розвитку хвороби Альцгеймера або раку. Всі ці дані вчені отримали, порівнюючи геноми тисяч людей з референсом.
"Нові статті, в яких дослідники повідомляють про знайдені зв'язки між певними ділянками в геномі і захворюваннями, публікуються буквально щодня. Саме тому, так важливо, щоб еталонна геномна послідовність була повна і безпомилкова. В іншому випадку механізми розвитку деяких захворювань залишаться неясними і розробка лікування для них буде ускладнена ", - розповіла Алла Міхеєнко.



