Информация

SNPs картографиране в протеин

SNPs картографиране в протеин


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Стартиране на нов проект за взаимодействия протеин-протеин и разработване на инструмент за анализ на SNP. Бих искал да попитам как SNPs се картографира в протеин? Какво означава картографиране?


Добре SNPs са единични нуклеотидни полиморфизми. Някои SNPs са в кодиращите региони на гените и могат да доведат до промени в получения протеин. Например, SNP rs1801131 е човешка вариация, при която някои индивиди имат G вместо A на позиция 1515 на гена MTHFR. Когато генът се транскрибира и след това се транслира в протеин, тази вариация (наличието на G нуклеотида) кара глутаматния остатък на позиция 429 на протеина да бъде вместо това глицин.

И така, SNP rs1801131 се картографира до позиция 429 на протеина MTHFR.


Молекулярна биология

Тъй като рестрикционните маркери не са ограничени до онези промени в генома, които засягат фенотипа, те осигуряват основата за изключително мощна техника за идентифициране на генетични локуси на молекулярно ниво. Типичен проблем се отнася до мутация с известни ефекти върху фенотипа, при която съответният генетичен локус може да бъде поставен върху генетична карта, но за която нямаме познания за съответния ген или протеин. Много вредни или фатални човешки заболявания попадат в тази категория. Например кистозната фиброза показва менделско наследство, но молекулярната природа на мутантната функция е неизвестна, докато не може да бъде идентифицирана в резултат на характеризиране на гена. Хипотетичен пример е показан на фигура 3.4. Тази ситуация съответства на намирането на 100% връзка между рестрикционния маркер и фенотипа. Това би означавало, че рестрикционният маркер лежи толкова близо до мутантния ген, че никога не се отделя от него чрез рекомбинация.

Абстрактно

Генетичните варианти, които са свързани с често срещани човешки заболявания, не водят директно до заболяване, а вместо това действат върху междинни, молекулярни фенотипове, които от своя страна предизвикват промени в признаците на болестта от по-висок ред. Следователно, идентифицирането на молекулярните фенотипове, които варират в отговор на промените в ДНК и които също се свързват с промени в характеристиките на заболяването, има потенциала да предостави функционалната информация, необходима не само за идентифициране и валидиране на гените за чувствителност, които са пряко засегнати от промените в ДНК, но също така да се разберат молекулярните мрежи, в които функционират такива гени и как промените в тези мрежи водят до промени в характеристиките на заболяването. За тази цел профилирахме повече от 39 000 транскрипта и генотипирахме 782 476 уникални единични нуклеотидни полиморфизми (SNP) в повече от 400 проби от човешки черен дроб, за да характеризираме генетичната архитектура на генната експресия в човешкия черен дроб, метаболитно активна тъкан, която е важна за редица често срещани човешки заболявания, включително затлъстяване, диабет и атеросклероза. Това изследване на геномна асоциация на генната експресия доведе до откриване на повече от 6000 асоциации между SNP генотипове и черти на експресия на чернодробни гени, където много от съответните идентифицирани гени вече са замесени в редица човешки заболявания. Полезността на тези данни за изясняване на причините за често срещаните човешки заболявания се демонстрира чрез интегрирането им с генотипни и експресионни данни от други човешки и миши популации. Това осигурява така необходимата функционална подкрепа за гените-кандидат за чувствителност, които се идентифицират при нарастващ брой генетични локуси, които са идентифицирани като ключови двигатели на заболяването от проучвания на асоциацията на болестта в целия геном. Използвайки интегративен геномичен подход, ние подчертаваме как генът RPS26 и не ERBB3 се подкрепя от нашите данни като най-вероятния ген за чувствителност за нов локус на диабет тип 1, наскоро идентифициран в мащабно проучване за асоцииране, обхващащо целия геном. Ние също се идентифицираме SORT1 и CELSR2 като кандидат гени за чувствителност за локус, наскоро свързан с коронарна артериална болест и плазмени нива на холестерол на липопротеин с ниска плътност в процеса.


Въведение

Предните генетични екрани се използват за идентифициране на гени, важни за експресията на конкретен фенотип, представляващ интерес. След извършване на мутагенеза и генетичен скрининг, техниките на молекулярната биология могат да се използват, за да се определи кой ген е мутирал, за да доведе до конкретен фенотип. Има няколко начина за картографиране на мутация към ген в моделния организъм Caenorhabditis elegans, но повечето класически подходи започват с определяне коя от шестте хромозоми (пет двойки автозоми и една двойка полови хромозоми) съдържа мутиралия ген (както в справка [1, 2).

Единичните нуклеотидни полиморфизми (SNP) са единични нуклеотидни разлики между генетичния материал на един и друг организъм и могат да се използват като генетични маркери за картографиране на мутация към хромозома. Различни изогенни лабораторни щамове на C. elegans носят различни комплементи от SNPs в своята ДНК. Два специфични щама на червеи N2 (Bristol) и HI (Hawaiian) обикновено се използват за SNP картографиране. В това лабораторно упражнение студентите използват няколко N2-HI SNP, за да картографират специфична мутация, която причинява анормална локомоция.

В този експеримент интересната мутация се пренася във фона на N2, докато фонът на HI не съдържа интересната мутация. Червей N2, експресиращ мутантния фенотип (в този случай, червей, който е некоординиран и е хомозиготен за рецесивна мутация) се чифтосва с HI мъжки. Потомството на мутантния N2 × HI кръстосване има смес от ДНК от всеки щам (виж Фиг. 1). Всички Ф1s ще наследят мутирала хромозома от своя N2 родител, но тъй като мутацията, използвана в тази лаборатория, е рецесивна, две копия на мутантната хромозома са необходими за експресията на мутантния фенотип. Следователно, Ф1 червеите няма да изразят мутантния фенотип. Ф1s е позволено да се самооплождат (тези червеи са хермафродити), за да хомозиготират мутацията. След това мутантният фенотип се наблюдава в някаква част (приблизително 25%) от F2 поколение. Тези Ф2s, проявяващи фенотип на мутантно движение, трябва да са наследили две копия на N2 хромозомата, която съдържа мутиралия ген. Потомството, което не показва мутантния фенотип (координирано потомство), трябва да е наследило поне едно копие на HI хромозомата, което съдържа нормалния алел на гена, мутирал в N2 червеите.

Следващата стъпка е да се определи, за тези F2 червеи, които проявяват некоординирано движение, кои хромозоми са N2 и кои са HI. SNPs се използват за идентифициране на кои F2 хромозомите са N2 и които са HI. За да направят това, учениците първо усилват части от некоординирания F2 хромозоми с помощта на полимеразна верижна реакция (PCR). Регионите на амплифицираната ДНК съдържат известни SNPs - така че ще има разлики в последователността на N2 и HI ДНК. Студентите откриват тези SNP, използвайки анализ на дължината на рестрикционния фрагмент. В този случай бяха избрани SNP, които променят местата за разпознаване на рестрикционни ензими. Рестрикционните ензими разрязват амплифицирана N2 ДНК по различен начин, отколкото HI ДНК поради единичните нуклеотидни разлики между техните ДНК последователности. Тъй като ензимите разрязват N2 и HI по различен начин, получените ДНК фрагменти за N2 и HI ДНК ще бъдат с различни размери. Учениците определят размерите на ДНК фрагментите (и по този начин вида на ДНК-N2 срещу. HI) чрез гел електрофореза. Очакванията са, че хромозомата, съдържаща мутиралия ген, може да бъде направена само от N2 ДНК, докато хромозомите, които не съдържат мутацията, могат да съдържат или N2, или HI ДНК.

Това лабораторно упражнение запознава студентите с няколко молекулярни техники. Упражнението също така запознава студентите със стратегията зад изследванията на генетичното картографиране. Упражнението може да бъде адаптирано за картографиране на всяка рецесивна мутация, която предизвиква лесно наблюдаван фенотип (и не засяга сериозно плодовитостта или причинява смъртност) и се намира на хромозоми II или IV.


Признания

Ние сме изключително благодарни на всички семейства, които взеха участие в проучването ALSPAC, на акушерките за тяхната помощ при набирането им и на целия екип на ALSPAC, включително интервюиращи, компютърни и лаборанти, чиновници, изследователи, доброволци, мениджъри, рецепционисти и медицински сестри. Благодарим на J. Bowden за статистическа подкрепа и съвети, свързани с регресията на MR-Egger. Тази публикация е дело на авторите и J. Zheng ще послужи като гарант за съдържанието на този документ. ДЖЕЙ ЗИ. се финансира от стипендия на заместник-канцлера от Университета в Бристол. Това изследване също е финансирано от Звеното за интегративна епидемиология на Съвета за медицински изследвания на Обединеното кралство (MC_UU_00011/1 и MC_UU_00011/4), GlaxoSmithKline, Biogen и Програмата за интегративна епидемиология на рака (C18281/A19169). Съветът за медицински изследвания на Обединеното кралство и Wellcome (грант № 102215/2/13/2) и Университетът в Бристол предоставиха основна подкрепа за ALSPAC. Изчерпателен списък на безвъзмездното финансиране е достъпен на уебсайта на ALSPAC (https://www.bristol.ac.uk/alspac/external/documents/grant-acknowledgements.pdf/). T.R.G. притежава стипендия на Тюринг в Института на Алън Тюринг. Г.Х. е финансиран от Wellcome Trust и Кралското общество (208806/Z/17/Z). M.V.H. е подкрепен от стипендия за междинни клинични изследвания на British Heart Foundation (FS/18/23/33512) и Оксфордския биомедицински изследователски център на Националния институт за здравни изследвания (NIHR). Тази работа е подкрепена от Центъра за биомедицински изследвания на NIHR в университетските болници в Бристол и Weston NHS Foundation Trust и Университета в Бристол (G.D.S. и T.R.G.). Изразените възгледи са тези на авторите, а не непременно тези на NIHR или Министерството на здравеопазването и социалните грижи. Тази работа беше подкрепена от Института за здравни изследвания на Елизабет Блекуел, Университета в Бристол и наградата на Съвета за медицински изследвания за близост до откритие. P.E. се поддържа от Cancer Research UK (CRUK C18281/A19169). S.L. е финансиран от изследователската и клинична стипендия на Bau Tsu Zung Bau Kwan Yeun Hing (200008682.920006.20006.400.01) от Университета на Хонконг. J.D. се финансира от награда за старши изследовател на NIHR. JD е член на Международния консултативен съвет по сърдечно-съдови и метаболитни въпроси за Novartis (от 2010 г.), Управителния комитет на биобанките на Обединеното кралство (от 2011 г.) и е член на Международната консултативна група MRC (ING) Лондон (от 2013 г.), MRC High Throughput Science 'Omics Panel', Лондон (от 2013 г.), Научния консултативен комитет за Sanofi (от 2013 г.), Международния комитет за изследване и развитие на сърдечно-съдовата система и метаболизма за Novartis и консултативния съвет на AstraZeneca Genomics (от 2018 г.). P.C.H. се поддържа от CRUK Population Research Postdoctoral Fellowship C52724/A20138.

Участниците в рандомизираното контролирано проучване INTERVAL бяха наети с активното сътрудничество на NHS Blood and Transplant England (https://ww.nhsbt.nhs.uk/), която подкрепи теренната работа и други елементи на изпитването. Екстракцията на ДНК и генотипирането бяха съфинансирани от NIHR, NIHR BioResource (https://bioresource.nihr.ac.uk/) и NIHR Cambridge Biomedical Research Center в тръста на Фондацията на Кеймбридж университетски болници. Академичният координационен център за INTERVAL беше подкрепен от основно финансиране от отдела за изследване на кръвта и трансплантациите на NIHR в здравеопазването и геномиката на донорите (NIHR BTRU-2014–10024), Съвета за медицински изследвания на Обединеното кралство (MR/L003120/1), British Heart Foundation (SP /09/002 RG/13/13/30194 RG/18/13/33946) и Центъра за биомедицински изследвания на NIHR в Кеймбридж към тръст на фондацията на Кеймбридж университетски болници. Пълен списък на изследователите и участниците в проучването INTERVAL е предоставен в Di Angelantonio et al. 59 . Академичният координационен център благодари на персонала на кръводарителския център и кръводарителите за участието в изпитването INTERVAL.

С благодарност признаваме всички проучвания и бази данни, които са направили обобщените си данни GWAS достъпни за това проучване: arcOGEN (Изследване на артрит в Обединеното кралство остеоартрит генетика), BCAC (Консорциум на Асоциацията за рак на гърдата), C4D (Консорциум за генетика на коронарна артериална болест), CARDIoGARRAM (Коронарна Репликация и мета-анализ в целия геном на заболяването), CKDGen (консорциум за генетика на хроничните бъбречни заболявания), ДИАГРАМА (Репликация и метаанализ на генетичната репликация на диабета), EAGLE (Консорциум за ранна генетика и епидемиология на жизнения цикъл), EAGLE Eclyezema Genetics and Lifecover Eclyezema Genetics and Meta-analysis Консорциум), EGG (Консорциум за ранна генетика на растежа), ENIGMA (Подобряване на неврологичната генетика чрез мета-анализ), GCAN (Генетичен консорциум за анорексия нервоза), GEFOS (Консорциум за генетични фактори за остеопороза), GIANT (Генетично изследване на генетиката), GIS (консорциум по генетика на желязото), GLGC (глобален консорциум за генетика на липидите), GliomaScan (кохортно базиран GWAS на глиома), GPC (G енетика на личностния консорциум), GUGC (Глобален консорциум за урат и подагра), HaemGen (консорциум за генетика на хематологични и тромбоцитни характеристики), IGAP (Международна геномика на проекта на Алцхаймер), IIBDGC (Международен консорциум за възпалителни заболявания на червата), ILCCOng Cancernational Consortium ), IMSGC (Международен генетичен консорциум за множествена склероза), ISGC (Международен консорциум за генетика на инсулта), MAGIC (Консорциум за мета-анализ на глюкозата и свързаните с инсулина черти), MDACC (Център за рак на MD Anderson), MESA (Мулти-етническо изследване на A ), лабораторията на Нийл (екип от изследователи от групата на Бенджамин Нийл, който направи обобщената статистика на UK Biobank GWAS публично достъпна), OCAC (Консорциум на асоциацията за рак на яйчниците), IPSCSG (Международната изследователска група PSC), NHGRI-EBI GWAS каталог (национален Институт за изследване на човешкия геном и Каталог на Европейския институт по биоинформатика на публикуваните GWAS), PanScan (Кохортен консорциум за рак на панкреаса), PGC (психиатричен ген mics Consortium), консорциум Project MinE, ReproGen (консорциум за генетика на репродуктивното стареене), SSGAC (консорциум на асоциацията на социалните науки по генетиката), TAG (консорциум по тютюн и генетика) и UK Biobank.

ДЖЕЙ ЗИ. признава своята баба Ченжу за цялата й подкрепа, нека почива в мир.


SNPs в микроРНК целеви места и тяхната потенциална роля в човешкото заболяване

В постгеномната ера целта на персонализираната медицина е да определи връзката между генотип и фенотип. Разработването на високопроизводителни технологии за генотипиране, като проучвания за асоциации в целия геном (GWAS) и Проект 1000 генома (http://www.internationalgenome.org/about/#1000G_PROJECT) драстично подобри способността ни да картографираме къде настъпват промени в генома на популационно ниво чрез идентифициране на милиони единични нуклеотидни полиморфизми (SNPs). Полиморфизмите, особено тези в кодиращите региони на протеините и в снаждащите връзки, са получили най-голямо внимание, но също така е ясно, че полиморфизмите в некодиращите региони са важни. В тези некодиращи региони, регионите на усилвател и промотор са получили най-голямо внимание, докато 3′-UTR регионите доскоро бяха пренебрегвани. В този преглед ние изследваме как SNPs засягат микроРНК-свързващите места в тези региони и как промените в стабилността на mRNA могат да доведат до патогенеза на заболяването.

1. Въведение

Единични нуклеотидни полиморфизми (SNP) се срещат при 1% или повече в популацията [1]. Въпреки че тези популации са идентични в 99,5% на ниво ДНК [2], има приблизително 10 милиона SNPs в човешкия геном, което показва, че те се срещат веднъж на всеки 300 bp както в кодиращите, така и в некодиращите региони на гените [3]. SNPs в кодиращия регион могат да доведат до синонимни и несинонимни промени, като последните водят до промяна на аминокиселината или въвеждане на стоп кодон [4]. Тези промени могат да доведат до човешки заболявания [5] и всъщност се предвижда поне 25% от докладваните несинонимни SNP да влияят негативно на протеиновата функция [6,7].

Синонимните SNP са наричани тихи мутации, тъй като не променят аминокиселината [8]. Въпреки това, има нарастващ брой доказателства, показващи, че синонимните SNP наистина влияят на правилната протеинова функция [9]. Например, два синонимни SNPs в последователността, кодираща протеина с множествена лекарствена резистентност 1 (MDR1), засягат сгъването и функцията на протеина [10]. Освен това, най-честата причиняваща болест мутация в гена за трансмембранен регулатор на проводимост на кистозна фиброза (CFTR) е изтриване извън рамката на фенилаланин-508 (ΔF508), което въвежда SNP при изолевцин-507 (I507) и този SNP допринася до тежестта на дисфункцията на ΔF508 CFTR канала [11,12].

Напоследък се обръща повече внимание на SNP, идентифицирани в некодиращи региони. Интересно е, че около 93% от функционалните SNP в каталога на GWAS са в некодиращи региони [13]. Те са наречени регулаторни SNPs (rSNPs), тъй като влияят на транскрипционната регулация или пост-транскрипционната генна експресия [14]. rSNPs могат да причинят промени в клетъчната функция на различни нива на генна регулация. Например, те могат да повлияят на генното сплайсиране [15] и свързването на транскрипционния фактор [16]. Тези rSNPs се намират в последователността на некодираща РНК в промоторните и енхансерните области [16]. Те могат също така да повлияят на полуживота на информационната РНК (иРНК) и да доведат до понижени нива на протеин чрез взаимодействия тРНК-микроРНК (miRNA). SNPs в миРНК целеви места в 3′-UTR на иРНК се означават като poly-miRTS [17]. Наборът от данни за SNP от браузъра UCSC Genome (NCBI dbSNP, Build 130 [18]) се състои от 18 833 531 човешки SNP, докато геномните координати за подмножество от 175 351 (приблизително 11%) ги локализират в 3'-UTRs от 16 810 гена [19]. Като се има предвид, че има приблизително 19 000–20 000 гена в човешкия геном, това предполага, че по-голямата част от гените могат да бъдат регулирани от miRNAs [20], което показва, че потенциалната биологична последица от тези мутации трябва да бъде внимателно обмислена. Освен това се съобщава за значителен брой SNPs и редки мутации в pri-, пред- и зрели miRNA последователности [21,22]. Въпреки че някои от тези miRNA SNPs са свързани с човешки заболявания [23–27] (прегледани в [17]), тяхната биологична роля е трудна за изясняване, като се има предвид, че промените във всяка miRNA могат да имат дълбоки ефекти в целия геном, тъй като miRNAs могат да се свързват със стотици на различни иРНК. От 2008 г., когато Sethupathy & Collins [17] преразгледаха критично докладите за miRNA SNPs, участващи в човешки заболявания и предоставиха ясни критерии за валидиране на такива асоциации, бяха предложени голям брой нови поли-miRTS, свързани с човешки заболявания. Освен това, наскоро разработени подходи, посветени на функцията на miRNA, насочени към редактиране на генома с в силико методите предоставят нови инструменти за комплексна проверка на последствията от miRNA SNP.В този преглед ние се фокусираме върху поли-miRTS и тяхното потенциално въздействие върху човешките заболявания.

2. SNPs в миРНК целеви места

2.1. иРНК: асоциация на miRNA

miRNAs са къси (приблизително 22 nt) ендогенни некодиращи едноверижни РНК, които действат като пост-транскрипционни регулатори на генната експресия [28]. В цитозола зрели miRNAs, които са част от съдържащите Argonaute заглушаващи комплекси, наречени miRNA рибонуклеопротеинови комплекси (miRNP), могат да регулират понижаващо специфична целева иРНК чрез Argonaute-катализирано разграждане на целевата верига на mRNA в P тела или чрез транслационна репресия [29, 30]. Следователно, основната последица от сдвояването на miRNA: иРНК е загубата на експресия на протеин, в резултат или от намалени нива на транскрипт, или от транслационна репресия [29].

Въпреки че механизмът, лежащ в основата на разпознаването на мишени на тРНК от miRNAs, е подробно проучен, минималните изисквания за функционална mRNA: miRNA асоциация не са напълно разбрани. Освен това, въпреки факта, че много иРНК имат запазени миРНК целеви места, се съобщава за различни взаимодействия чрез незапазени места [31]. И накрая, средният размер на човешкия 3′-UTR е около 950 nt (за силно експресирани невронални гени той е 1300 nt, докато за гените, специфични за не-невронната тъкан, той е само 700 nt) [32], докато ефективната miRNA - мястото на свързване се състои от 6–8 nt. Следователно, 3′-UTR на специфична иРНК може да включва тандемни целеви последователности за специфична miRNA, както и целеви последователности за много други miRNA. Съставът на специфични miRNAs, свързани с 3′-UTR на иРНК, заедно с ефективността на сдвояването на miRNA с техните целеви последователности, оказва влияние върху полуживота на mRNA и влияе върху нивата на протеина [33,34]. Следователно, определянето на последствията от SNPs в миРНК целеви места не е тривиално начинание.

Като се има предвид това, добре е установено, че комплементарното сдвояване на 3′-UTR на иРНК към запазена хептаметрична семенна последователност обикновено се намира на позиции 2–7 от 5′-края на miRNA и е от решаващо значение за избора на мишена на mRNA [ 35]. Първоначално се смяташе, че перфектното допълване на 3′-UTR на тРНК към семенната последователност на miRNA води до разграждане на транскрипта, а частичното съвпадение причинява транслационно инхибиране [35]. Въпреки това, последните проучвания показват, че неканонични места също съществуват и могат да регулират разграждането на иРНК [36]. Освен това, сдвояването на бази между иРНК и miRNA семенни последователности не винаги води до намалена експресия на целевия транскрипт [37]. Горните констатации предполагат, че допълнителните характеристики на целевите последователности на иРНК играят решаваща роля в ефективното свързване на miRNA. Подробният анализ на семенните последователности установи 8-nt сдвояване (8-mer) с иРНК като най-ефективно, докато 7- и 6-nt свързващи места (7-mer и 6-mer) са по-малко ефективни (фигура 1). Въпреки че 6-мерните често осигуряват ефективно сдвояване, дори в изместено положение (фигура 1а,б), 4-mer е нефункционален сайт in vivo [38]. Интересното е, че ефективността на 7-мерно сдвояване разчита строго на допълването на последователността. Следователно, въпреки че мястото на 7-mer-m8 (точно съвпадение с позиции 2-8 на зрялата miRNA - семето и позиция 8 (фигура 1° С)) има повишено сдвояване на семена в сравнение с 6-mer, 7-mer-A1 (точно съвпадение с позиции 2-7 на зрялата miRNA - семето, последвано от "A1") има подобно сдвояване на семена с 6-mer (Фигура 1д). Сдвояването на семена, включващо както съвпадението на позиция m8, така и A1, е характерно за 8-мерен сайт [37] (фигура 1д). Ефектът от G : U базовите двойки и изпъкналостите в семето също се разглежда, показвайки, че едно G: U колебание или целеви места с изпъкналост от 1 nt все още могат да бъдат функционални [38] (фигура 1е). Въпреки това, сдвояването на базата на Уотсън-Крик е абсолютно критично между нуклеотидите на позиции 9-12 в целевото място, тъй като хидролизата на фосфодиестерния гръбнак в иРНК, разцепена от miRNA, се случва само когато 10-ти и 11-ти нуклеотиди на иРНК са комплементарни на тРНК. позиции 2-15 в miRNA [39].

Фигура 1. Видове иРНК: взаимодействия на miRNA. (а) 6-мер, (б) 6-мер офсет, (° С) 7-mer-m8, (д) 7-mer-A1, (д) 8-мер, (е) GU колебливо сдвояване, (ж) продуктивно 3'-сдвояване, (з) компенсаторно място и (и) центриран сайт.

Освен това, допълнителното сдвояване на иРНК към 3′ региона на miRNA, наречено продуктивно сдвояване на семена, може да увеличи разпознаването на целта или може да компенсира несъответствието със семето (3′ допълнителни места и 3′ компенсаторни места, съответно) [36] . Значителното сдвояване на 3′ компенсаторни места към иРНК увеличава слабото 5′ сдвояване, което води до функционално свързване на miRNA (фигура 1ж,з).

Интересното е, Шин et al. [30] показват, че центрирани последователности на тРНК, състоящи се от 11 nt, създават двойки на Уотсън-Крик с нуклеотиди на miRNA в позиции 4–14 или 5–15 и служат като вид миРНК целево място. Този уникален клас от миРНК целеви места е лишен както от перфектно сдвояване на семена, така и от 3′ компенсаторно сдвояване, но може да бъде допълнен от сдвояване с другите зони на miRNA (фигура 1и).

Въз основа на изследванията, обсъдени по-горе, тРНК целевите места могат да бъдат разделени на две големи групи. Първата група се състои от канонични места с (i) силно семенно сдвояване към 5′ края на miRNA (ниска енергия на сдвояване), което се усилва чрез свързване на силни бази към 3′ края на miRNA (разширение на типа семена) или (ii) силно сдвояване на семена към 5′ края на miRNA семенни места, изискващи малка или никаква подкрепа за 3′-UTR сдвояване. Тези канонични сайтове имат енергия за сдвояване и често са функционални в едно копие. За разлика от тези места, вторите групи са неканонични зародишни места с по-висока енергия на сдвояване, които трябва да съществуват в 3′-UTR в повече от едно копие, за да бъдат ефективни [38]. Трябва да се подчертае, че семенната област допринася за по-голямата част от енергията на свързване и силното свързване разчита главно на сдвояване на бази в този регион, докато допълнително 3′ сдвояване само леко намалява енергията на свързване [40]. Интересно е, че сдвояването извън позиция 16 и в позиции 10-11 увеличава енергията на свързване, което води до отслабено свързване [40].

Друг фактор, който трябва да се вземе предвид при miRNA: mRNA взаимодействията е местоположението на целевите mRNA сайтове. Като цяло, 3′-UTR mRNA сайтовете са най-ефективни [37,41]. Освен това, целевите иРНК места, разположени в рамките на най-малко 15 nt от стоп кодона, местата, разположени далеч от центровете на дългия 3′-UTR, както и тези миРНК целеви места, разположени в богати на AU региони, са най-ефективни [37,41 ]. Освен това, местоположението на целеви mRNA сайтове в непосредствена близост до протеин-свързващи места и до други miRNA-свързващи места може също да повлияе на асоциациите на miRNA: mRNA [33,37]. Квартилите на 3′-UTR иРНК, граничещи с опашката на mRNA poly(A) и ORF, показват по-ефективно насочване от останалите два центрирани квартила. Този ефект обаче е очевиден само за по-дълги 3′-UTRs (повече от 1300 nt) [37].

Като се има предвид сложността на сдвояването на miRNA: mRNA, въвеждането на SNP в 3'-UTR може да има множество функционални последици или чрез въвеждане или премахване на миРНК целеви последователности или промяна на ефективността на свързване. Поли-miRTSs в рамките на каноничната семенна последователност могат или да създадат нов целеви сайт на иРНК от вече съществуваща 5-мерна последователност (в 6-мерна офсетна или 6-мерна) или да увредят съществуващата 6-мерна или 6-мерна офсетна последователност на съществуващото целево място (в 5-мер). Освен това, тъй като въвеждането на poly-miRTSs в семенните региони може също да повлияе на ефективността на свързване на miRNA: mRNA, това може да доведе до повишена или намалена пост-транскрипционна регулация на mRNA. И накрая, поли-miRTS могат също да повлияят на ефективността на свързване на miRNA чрез промяна на допълнителното сдвояване на семена, което се прилага както за канонични, така и за неканонични места на свързване. Освен това, в случай на неканонични свързващи места, поли-miRTS могат да въвеждат или премахват тандемни целеви места и по този начин да променят ефектите на miRNA. И накрая, въвеждането или отстраняването на миРНК целеви места може да повлияе на свързването с други миРНК целеви последователности в непосредствена близост до SNP, което може да има непредвидени ефекти върху полуживота на mRNA. Като се има предвид броя на SNPs в човешката популация, не е изненадващо, че поли-miRTSs е доказано, че влияят на нивата на множество протеини, които са свързани с различни нарушения (таблица 1) [39]. По-долу обсъждаме примери за няколко проучвания, идентифициращи поли-miRTS и тяхната потенциална връзка с човешки заболявания.

Таблица 1. Доклади за поли-miRTS асоциации с човешки заболявания. Удебелен шрифт показва, че проучванията са изпълнили критериите за определяне на SNPs като поли-miRTS, участващи в човешки заболявания и включват: (i) функционално експериментално валидиране на SNP, свързани с диференциално насочване на mRNA (ii) генетично тестване на връзката с болестта, което взема предвид ефекти от стратификацията на популацията и (iii) механистично тестване, лежащо в основата на механизма, чрез който поли-miRTS допринасят за заболяването [17].

2.2. Създаване на нови миРНК целеви сайтове от SNPs

2.2.1. MDM4 | miR-191 или miR-877-3p

Mdm2-подобен p53-свързващ протеин (MDM4) е онкопротеин, който регулира негативно туморния супресорен протеин на p53 [70]. Добре е документирано, че свръхекспресията на този протеин води до развитие на рак [70]. Последните проучвания предполагат, че вариацията в 3'-UTR на MDM4 може да доведе до намален риск от различни злокачествени заболявания [42–47]. Появата на C minor алел (SNP rs4245739 A>C) в 3'-UTR на MDM4 е доказано, че намалява риска от рак и забавя прогресията на метастазите и свързаната с рака смърт [42–47]. Многобройни проучвания показват, че въвеждането на този C minor SNP създава ново място на свързване за miR-191 [42–46] и/или miR-887-3p [42,43,47] и това води до понижено ниво на MDM4 протеин. Освен това, наскоро проведен мета-анализ на 69 477 субекта (19 796 случая на девет различни вида рак и 49 681 контроли) показа, че гореспоменатият SNP корелира с намален общ риск от рак [71].

2.2.2. ΔNp63 | miR-140-5p

p63 е друг туморен супресорен протеин, принадлежащ към семейството на p53. Поради различни промотори и алтернативно сплайсинг, има две основни изоформи на TP63: TAp63 (наличен домейн на киселинна трансактивация) и ΔNp63 (без домейн за трансактивиране) [72]. интересно е, in vivo експериментите показват, че TAp63 действа като туморен супресорен ген, докато ΔNp63 е онкоген [73–75]. Уанг et al. [48] ​​установи, че SNP rs35592567 (C>T) в 3′-UTR на ΔNp63 оказва влияние върху риска от рак на пикочния мехур. Анализът показа, че алелът Т е свързан с намален риск от рак на пикочния мехур, тъй като miR-140-5p е в състояние да се свърже с 3'-UTR на ΔNp63. Свръхекспресията на miR-140-5p в 5637 клетки (клетки на карцином на пикочния мехур II степен) отслабва клетъчната миграция и инвазия и инхибира клетъчната пролиферация [48].

2.2.3. HNF1B | miR-214-5p и miR-550a-5p

Друг пример за положителен ефект на SNP върху риска от заболяване е rs2229295 (C>A), който се намира в 3′-UTR на хепатоцитния ядрен фактор 1-бета (HNF1B) иРНК. Този ген кодира транскрипционен фактор, известен като регулатор на растежа и развитието в панкреаса [76]. Тъй като HNF1B има роля в контролирането на чернодробната инсулинова активност и метаболизма на глюкозата in vivo [77], Года et al. [49] предполагат, че rs2229295 SNP може да корелира с чувствителността към захарен диабет тип 2 (T2DM). Използвайки луциферазни репортерни вектори, те демонстрират, че конструкциите на алел А се регулират от две miRNA: miR-214-5p и miR-550a-5p, докато конструкциите на алел С не са. Следователно, наличието на алел А намалява нивата на протеин HNF1B и има защитен ефект срещу T2DM [49].

2.2.4. APOC3 и APOA5 | miR-4271 и miR-485-5p

APOC3 и APOA5 са гени, които кодират аполипопротеин С3 и А5, съответно. И двата протеина заедно с липопротеин липазата (LPL) и аполипопротеин С2 (APOC2) участват в метаболизма на триглицеридите [50,51]. Ху et al. [50] показват, че намалените нива на APOC3 водят до по-ниски нива на триглицеридите и намаляват риска от коронарна болест на сърцето (CHD). Това се дължи на SNP (rs4225 G>T), открит в 3′-UTR на APOC3. Когато T минорният алел присъства в клетката, miR-4271 е в състояние да се свърже с 3′-UTR на APOC3, и това води до намален превод на APOC3. miR-4271 обаче не може да се свърже с варианта, съдържащ G-мажорния алел [50]. По същия начин, APOA5 c.*158C>T (rs2266788) също се свързва с промени в метаболизма на триглицеридите и води до хипертриглицеридемия [51]. В този случай редкият c.*158C APOA5 алел създава ново функционално свързващо място за miR-485-5p. Важно е, че и двете miRNAs регулират APOC3 и APOA5 се експресират ендогенно в черния дроб на човека, така че ако се появи SNP, те могат да участват в регулирането на метаболизма на триглицеридите in vivo. Въпреки това, и двата примера за SNP и тяхното въздействие върху риска от заболяване се нуждаят от допълнително изясняване, тъй като са получени различни резултати за различните етнически групи [50].

2.2.5. PLIN4 | miR-522

PLIN4 (перилипин 4) е член на семейството на перилипините и тези протеини покриват вътреклетъчните капчици за съхранение на липиди (LSD). Предполага се, че PLIN4 насърчава усвояването на свободни мастни киселини от кръвта в LSD и зависи от хранителния статус на клетката [78]. Мета-анализът на две популации от този ген, rs8887 (G>A), анализирани с антропометрични измервания, показва, че двете популации са различни. Индивидите с A minor алел са имали увеличен обем на висцералната и подкожната мастна тъкан и по-висок ИТМ и тегло в сравнение с индивиди с G голям алел [52]. Това проучване съобщи, че PLIN4 се регулира от miR-522 само във варианта rs8887A. Все още не е ясно обаче дали по-ниското изразяване на PLIN4 допринася за затлъстяването, тъй като резултатите са противоречиви [79,80].

2.2.6. FXN | miR-124-3p

Предполага се, че намалената експресия на протеина на митохондриалния фратаксин (FXN) играе роля в атаксията на Friedreich (FRDA), наследствено невродегенеративно заболяване [81]. По-ниските нива на фратаксин се дължат на повторната експанзия на GAA в FXN ген [81]. Освен това Бандиера et al. [53] предполагат, че miR-124-3p регулира FXN изразяване in vivo само при пациенти с FRDA. Те идентифицираха седем SNPs в 3′-UTR на FXN при деца и възрастни с диагноза FRDA. Един от тях, rs11145043 (G>T), позволява свързване на miR-124-3p само когато е налице T алел. Въпреки че miR-124-3p е силно експресиран в нервната система [82], той е свръхекспресиран при пациенти с FRDA [83], което предполага ролята му в FRDA. Въпреки това, влиянието му върху FXN се нуждае от допълнително уточнение.

2.3. Загуба на миРНК целеви места от SNPs

2.3.1. SCNA | miR-34b

α-синуклеинът SCNA генният полиморфизъм се счита за основен риск за обикновената спорадична форма на болестта на Паркинсон (PD приблизително 90% от всички случаи на PD) [84]. α-Synuclein е важен протеин, който създава имунореактивни агрегати в Lewy-тела, които са типични за мозъците на пациенти с болест на Паркинсон [85]. Проучванията показват, че miR-34b е насочен към α-синуклеин mRNA3′-UTR в две различни места и потиска транслацията на този протеин [86]. Важно е, че в мозъка на пациенти с PD нивото на miR-34b в substantia nigra е намалено. Кабария et al. [54] са идентифицирали SNP, rs10024743 (T>G), в 3′-UTR на α-синуклеин, който е локализиран в целевото място 1 на miR-34b. Този SNP намалява медиираната от miR-34b репресия на нивата на α-синуклеин поради нарушаване на асоциацията miRNA: mRNA. Това проучване обаче е извършено само върху SH-SY5Y клетки и връзката му с PD остава неясна [54].

2.3.2. PALLD | miR-96 и miR-182

В PALLD генът кодира свързания с актин протеин Palladin, чиято експресия корелира тясно с характеристиките на патологичната клетъчна подвижност на агресивните ракови клетки. Нивото на експресия на Palladin при пациенти с рак на гърдата е по-високо при инвазивни и злокачествени видове ракови клетки, отколкото при неинвазивни и нормални клетъчни линии. Резултатите предполагат, че Palladin насърчава образуването на подозоми, регулира актиновия цитоскелет по множество пътища, участва в разграждането на матрицата и по този начин улеснява метастазирането при рак на гърдата [87,88]. Гилам et al. [55] съобщават, че miR-96 и miR-182 намаляват миграцията и инвазията на клетките от рак на гърдата чрез регулиране на нивата на протеин Palladin и че този процес се нарушава от SNP, rs1071738 (G < C), разположен в 3′-UTR на на PALLD ген. Този SNP се характеризира с най-висока честота на минорния алел (повече от 43%) и алтернативният G алел е много по-често срещан от предшественика минор С алел. Ако алелът С се появи в мястото на свързване, целевата последователност на иРНК в 3'-UTR на PALLD е напълно комплементарен на miR-96 и miR-182 семенни региони, докато наличието на алтернативен G алел води до едно несъответствие. Значително намаляване на нивата на Palladin се намалява от експресията на miR-96 и miR-182 (приблизително 30% и приблизително 70% намаление, съответно) в присъствието на алела C, но не и в присъствието на алела G поради нарушената асоциация miRNA:mRNA. Тези открития предполагат, че въпреки че miR-96 и miR-182 могат да предотвратят метастази на рак на гърдата, функционалният вариант rs1071738 G премахва този ефект [55].

2.3.3. EFNB2 | miR-137

В EFNB2 (ephrin-B2) ген кодира ефрин, протеин тирозин киназа, която участва в ремоделирането и развитието на синаптични връзки, които се регулират от активиран NMDA рецептор. Ephrin-B2 е от съществено значение за пътя на Reelin, контролиращ невронната миграция. Освен това, активирането на EFNB2 е от решаващо значение за спасяването на дефекта на Reelin и нарушаването на този път е свързано с шизофрения [56,89]. Напоследък отрицателна корелация между miR-137 и EFNB2 беше показана експресия [56]. Важно е, че SNP rs550067317 (A>C) се намира на предвиденото целево място на miR-137 в 3′-UTR на EFNB2. Малкият C алел на rs550067317 нарушава образуването на типичната структура на стволови бримки по време на сдвояване на miR-137 с прогнозираната целева последователност в 3'-UTR, следователно обръщайки инхибирането на EFNB2 изразяване.

2.3.4. HIF1A | miR-199a

В HIF1A генът кодира протеина HIF-1α (индуцируем от хипоксия фактор 1), зависима от кислород субединица и главен транскрипционен регулатор на реакцията на клетките на бозайници към липсата на кислород и следователно е важен както в сърдечно-съдовата, така и в областта на рака. Към днешна дата многобройни проучвания демонстрират ролята на miRNA в регулирането на нивата на HIF-1α [90–93]. Наскоро SNP (rs2057482 T>C) в 3′-UTR на HIF1A е идентифициран близо до мястото на свързване на miR-199a [57,94].Алелът С на този вариант има повишена честота при пациенти с дуктален аденокарцином на панкреаса и този генотип CC се характеризира с по-голям размер на тумора, по-кратка обща преживяемост и по-висок риск от това заболяване в сравнение с CT и TT генотипове [57]. Освен това, появата на алел С е значително свързана с по-високи HIF1A иРНК и следователно повишаване на нивата на HIF1, което предполага, че този SNP уврежда miR-199a: HIF1A обвързване [57].

2.3.5. ДРОША | miR-27b

Много интересен пример за синонимна мутация, която води до загуба на място за свързване на miRNA, е SNP rs10719 (T>C), разположен в 3′-UTR на ДРОША ген. Ензимът Drosha, член на семейството RNAase III, играе критична роля в биогенезата на miRNA. Той освобождава пре-miRNA стволовата бримка чрез разцепване на по-дългите pri-miRNAs в ядрото [95]. В допълнение към тази функция, Drosha също влияе върху клетъчната пролиферация и апоптоза [96]. Тъй като свръхекспресията на Drosha се наблюдава при рак на пикочния мехур, този SNP се свързва с повишен риск от рак на пикочния мехур [58]. юан et al. [58] съобщи това на ДРОША 3′-UTR съдържа целево място за miR-27b, докато rs10719 (T>C) се намира в непосредствена близост до това място (46 bp надолу по веригата от мястото на свързване на miR-27b). Те постулират, че преходът от rs10719T към C води до по-слаба асоциация на тРНК: miRNA в целевото място на miR-27b и следователно до повишена експресия на Drosha.

2.4. SNP, засягащи взаимодействието miRNA: mRNA

2.4.1. FGF20 | miR-433

Пример за друг поли-miRTS, свързан с PD, беше предоставен от Wang et al. [59], които съобщават за корелация между SNP (rs127202208 C/T) в 3′-UTR на растежен фактор на фибробластите 20 (FGF20) и развитието на PD. FGF20 се експресира главно в substantia nigra и увеличава пролиферацията и насърчава оцеляването на допаминергичните неврони през ранните етапи от живота. Въпреки това, повишените нива на FGF20 в по-късните етапи от живота повишават експресията на α-синуклеин и могат да доведат до смъртта на допаминергичните неврони [59]. Показано е, че miR-433, който е в изобилие в мозъка, регулира надолу транслацията на FGF20, главно защото този докладван SNP се намира в рамките на предвиденото място на свързване за miR-433. Алелът C на този полиморфизъм представлява валидно сдвояване на базата на miRNA, докато алелът T въвежда G : U колебливо базово сдвояване и следователно несъответствие, което засяга взаимодействието miRNA : mRNA. Въпреки това, този SNP не елиминира свързването на miRNA: иРНК, а го атенюира. Това води до повишени нива на FGF20 и индиректно до свръхекспресия на α-синуклеин. Важно е ефектът на този SNP върху FGF20 експресията и нейната връзка с нивата на miR-433 бяха потвърдени in vivo [59].

3. Заключение

Обсъжданите примери за poly-miRTS силно предполагат, че тези SNPs могат да бъдат решаващи фактори за развитието на човешки патологии и биха могли да допринесат за генетичното разнообразие. Както беше споменато, приблизително 180 000 SNPs в човешкия геном, които са разположени в 3'-UTR региона, бяха идентифицирани заедно с около 2600 зрели miRNA последователности, които се отлагат в mirBase (v. 21), което предполага, че голям брой от тези SNPs може да въведе миРНК-свързващи промени. Освен това, скорошното развитие на техники за дълбоко секвениране и усъвършенствани бази данни/софтуерни инструменти като miRSNP и PolymiRTS Database 3.0 (вижте таблица 2 за пълен списък) позволява на изследователите първоначално да имат достъп до потенциални poly-miRTS. Следователно в близко бъдеще можем да очакваме нарастващ брой проучвания, свързващи поли-miRTS с човешки заболявания.

Таблица 2. Текущ софтуер и бази данни, предназначени за поли-miRTS изследвания.

През 2008 г. Sethupathy & Collins [17] предоставиха критерии за определяне на SNPs като poly-miRTS, участващи в човешки заболявания, които включват: (i) функционални (за предпочитане in vivo) експериментално валидиране на SNPs, свързани с диференциално насочване на иРНК (ii) генетично тестване на връзката с болестта, което взема предвид ефектите от стратификацията на популацията и накрая (iii) механистично тестване, лежащо в основата на механизма, чрез който поли-miRTS допринасят за заболяването [ 17]. Малко настоящи проучвания удовлетворяват всички тези критерии (таблица 1), докато повечето от тях разчитат на корелационните ефекти на населението и в силико само моделиране, пренебрегвайки необходимостта от механистичен подход. Важно е, че често използвани методи за потвърждаване на диференциална miRNA: свързване на иРНК, инвитро луциферазните репортерни конструкции и свръхекспресията на miRNA често не отчитат физиологичните нива на miRNA in vivo. Въпреки това, физиологичните нива на miRNA често претърпяват динамични промени поради епигенетични фактори [101] и по този начин те могат да повлияят на проверката на механизмите, свързани с поли-miRTS заболяването. Базираните на луцифераза репортерни анализи обикновено се извършват в изкуствени ракови клетъчни линии, които позволяват лесно доставяне на AgoMiR (имитираща) и често се характеризират с ниски нива на ендогенна miRNA. Последният инхибира ендогенните miRNA да разграждат репортерите преди свръхекспресията на miRNA. Важно е, че свръхекспресията на miRNA в тези системи често е сто пъти по-висока от in vivo условия. Следователно, в случай на валидиране на нови целеви сайтове, създадени от poly-miRTS, този експериментален модел може да доведе до фалшиво положителни резултати, тъй като не може да направи разлика между слабо и силно свързване с целите. Базираната на вектор miRNA експресионна система, която осигурява индуцируем и мащабируем контрол върху нивата на miRNA, може да осигури по-солидна проверка на потенциалното свързване на miRNA: иРНК [102].

Напоследък разработването на морфолино-базирана технология за защита на целта предоставя елегантен инструмент за тестване на функционалността на новите потенциални miRNA: mRNA взаимодействия, които имитират физиологични условия [103,104]. Целевите протектори се свързват със специфични целеви иРНК последователности и блокират достъпа до miRNA, но без да задействат RNAi отговор [105]. Следователно, целевите протектори позволяват блокиране на медиираната от miRNA потискане на специфична целева иРНК [105]. Важно е, че тези модифицирани олигонуклеотиди могат да се използват за оценка на значимостта на взаимодействията на miRNA: mRNA в контекста на физиологичните нива на miRNA.

Освен това, често промените в нивото на иРНК на гена не се отразяват в неговите протеинови нива [106]. Следователно, изследванията на мишени, засегнати от miRNA SNP, трябва винаги да бъдат придружени от наблюдение на нивата на протеин в клетъчните линии, свързани с болестта. И накрая, въпреки че в изследователските модели обикновено се разглеждат една miRNA и една мишена, единичната miRNA обикновено се предвижда да свърже стотици целеви mRNA и да има множество ефекти върху клетъчния метаболизъм. Следователно, изучаването на механизма на участието на поли-miRTS в човешки заболявания изисква проверка, че ефектите на miRNA са резултат от косвени цели, свързани с болестта. Въпреки че тази възможност не може да бъде напълно елиминирана, следните ефекти в целия геном на специфична модулация на miRNA (с секвениране от следващо поколение) могат да поддържат директни взаимодействия на miRNA: mRNA.

Най-убедителният и последен критерий за свързване на поли-miRTS с болестта е установяване на свързаните с болестта механизми на диференциално свързване на miRNA. Като се има предвид сложността на потенциалния ефект на SNP върху сдвояването на miRNA: mRNA, това може да бъде предизвикателство. Въпреки това, скорошното развитие на целеви инструменти за редактиране на геном (като системи CRISPR/Cas9) позволява да се правят ефективни, прецизни и целенасочени промени в генома на живите клетки и отваря нови възможности за преодоляване на това ограничение [107]. За съжаление, към днешна дата не е докладвано проучване, в което е приложено целево редактиране на генома, за да се валидират poly-miRTS.

Анализиране на специфичните ефекти на хомозиготни и хетерозиготни SNP и в двете инвитро и in vivo моделите на болести биха могли да осигурят критично доказателство за ролята и честотата, че поли-miRTS се срещат при човешки заболявания.


Практически поглед върху финото картографиране и приоритизирането на гените в ерата на асоцииране след генома

През последните 15 години проучванията за асоцииране в целия геном (GWAS) позволиха систематично идентифициране на генетични локуси, свързани с черти и заболявания. Въпреки това, поради проблеми с разрешаването и методологични ограничения, истинските причинно-следствени варианти и гени, свързани с черти, остават трудни за идентифициране. В тази ера след GWAS много биологични и изчислителни подходи за фино картографиране сега имат за цел да решат тези проблеми. Тук разглеждаме подходите за фино картографиране и приоритизиране на гени, които, когато се комбинират, ще подобрят разбирането на основните механизми на сложни черти и заболявания. Финото картографиране на генетични варианти става все по-сложно: първоначално вариантите просто се припокриват с функционални елементи, но сега може да се идентифицира влиянието на вариантите върху регулаторната активност и директните 3D взаимодействия на вариант-ген. Освен това, генната манипулация от CRISPR/Cas9, идентифицирането на локусите на количествените черти на експресия и използването на мрежи за коекспресия са подобрили нашето разбиране за гените и пътищата, засегнати от локусите на GWAS. Въпреки този напредък обаче, ограниченията, включително липсата на клетъчни типове и специфични за болестта данни и непрекъснато нарастващата сложност на полигенните модели на черти, представляват сериозни предизвикателства. Наистина, комбинацията от фино картографиране и приоритизиране на гени чрез статистически, функционални и базирани на популации стратегии ще бъде необходима, за да се разбере наистина как GWAS локусите допринасят за сложни черти и заболявания.

1. Въведение

Повечето, ако не всички, фенотипни черти и заболявания имат генетичен компонент, който влияе върху тяхното развитие, податливост или характеристики. Кои генетични региони (локуси) са свързани с фенотипни черти до голяма степен се определя от проучвания на асоциации в целия геном (GWAS) (фигура 1а). GWAS сравняват и свързват милиони относително често срещани генетични варианти, обикновено еднонуклеотидни полиморфизми (SNP), между базова (здрава) популация и такава с интересна черта като диабет тип 1 [1], цьолиакия [2] или височина [3]. Свързаните с черти генетични локуси, получени от GWAS, са маркирани със специфични варианти, наричани маркерни или топ варианти. Всеки вариант на маркера означава хаплотип, съдържащ много близки варианти, които са във високо неравновесие на връзката (LD), което показва, че е най-вероятно те да бъдат наследени заедно [4] (фигура 1б). Над 4000 GWAS са публикувани от 2002 г. насам [5], което дава почти 150 000 асоциации на вариант на маркер към стотици черти [6]. Въпреки това, въпреки голямото първоначално обещание на метода, GWAS не са предоставили незабавна представа за основните биологични механизми на всяка черта поради два основни усложняващи фактора.

Фигура 1. Очертание на текущия работен процес след GWAS. (а) Първо, трябва да се идентифицира правилният контекст за изследваната черта. (б) Впоследствие причинно-следствените варианти могат да бъдат фино картографирани, за да се разберат по-добре основните механизми на транскрипция. Тук причинният вариант (звезда) не е най-силният GWAS сигнал, а по-скоро вариант в силен LD с горния ефект, разположен в активна област на усилване. (° С) За да получите представа за биологичните процеси, водещи до фенотипа, гените могат да бъдат приоритизирани и причинно-следствени мрежи да бъдат изградени. Вариантите на GWAS обикновено са често срещани в популацията и имат по-малки размери на ефекта (синьо). По този начин е по-вероятно гените, върху които те въздействат, да имат малък ефект и върху фенотипа (периферни гени). Гените, върху които се сближават много периферни гени (основни гени), обикновено имат по-силни ефекти (червени) върху фенотипа. Като такива, вариантите, които засягат основните гени, е по-вероятно да бъдат варианти на менделска болест.

Първо, GWAS не могат да разграничат сигнала с вариант на маркера от този на другите варианти, които са с висок LD. Над 95% от вариантите с висока LD (Р 2 > 0,8) са разположени извън гените в некодиращата ДНК [7] и могат да бъдат разположени на разстояние до 500 kb един от друг [8]. Следователно всеки от тях може да бъде действителният причинно-следствен вариант (фигура 1б).

Второ, ефектите от некодиращите причинно-следствени варианти могат да бъдат силно специфични за клетъчен тип, контекст и заболяване [9]. Некодиращата ДНК съдържа регулаторни региони - подобрители и промотори - които могат да свързват протеини на транскрипционния фактор (TF) и да регулират генната експресия [10]. Кои подобрители и промотори се използват зависи от специфичното за клетъчния тип изобилие от приблизително 1600 човешки TFs и тяхната епигенетично регулирана достъпност до даден регулаторен регион [11]. Вариантите могат да нарушат свързването на който и да е от тези TFs, което води до променена усилваща или промоторна активност. Това от своя страна засяга генната експресия [12] и клетъчните пътища [13]. По този начин клетъчният тип и специфичната за тъканта или болестта микросреда силно влияят на това кои варианти, TFs, гени и пътища са включени (фигура 1). Тези сложности затрудняват разбирането как локусите на GWAS допринасят за свързаните с тях черти и значително затрудняват тълкуването и прилагането на резултатите от GWAS. За да се справим с това, в ерата след GWAS са разработени много различни подходи за фино картографиране с цел идентифициране на важните варианти и гени и интерпретиране на тяхното биологично въздействие върху болестите и чертите [14–17].

Важно е да се отбележи, че за да се намали сложността на финото картографиране, повечето подходи приемат, че само един вариант на локус допринася за дадена черта. Това обаче не е правилно отражение на реалността, тъй като множество варианти в рамките на един GWAS локус могат да имат ефект върху експресията на един ген. Това може да се случи по един от двата начина: или ефектът на вариантите се сумира по линеен начин (адитивен ефект), или е необходимо взаимодействие между два или повече варианта, за да се повлияе на генната експресия (епистатичен ефект) [18,19]. По този начин множество варианти могат да играят роля в един локус, или в рамките на един клетъчен тип, или по специфичен за контекста и клетъчен тип начин [18]. Това допълнително усложнява извършването и тълкуването на подходи за фино картографиране и приоритизиране на гени. За простота, през целия този преглед, ние продължаваме да разглеждаме варианти, които засягат генната регулация и пътища във връзка с GWAS черта по някакъв начин като причинно-следствена, въпреки че може да е необходима група от по-малки допринасящи ефекти, действащи в унисон на локус, за да се предизвика функционален ефект върху GWAS черта.

Тук ние оценяваме подходите за фино картографиране и приоритизиране на гени, които са били използвани за превеждане на GWAS локусите към функционално разбиране на свързаната черта, като същевременно вземаме предвид клетъчния тип и специфичния контекст на заболяването. По-конкретно, ние правим преглед на генетиката на общите варианти с по-нисък ефект, идентифицирани чрез GWAS, а не на варианти на менделска болест с висок ефект (фигура 1° С). Освен това, ние обсъждаме въздействието на скорошната промяна на парадигмата към полигенни модели и как те могат да бъдат използвани за подпомагане на идентифицирането на генни мрежи, които подчертават основните гени на заболяването (фигура 1° С).

2. Фино картографиране от гледна точка на варианта

Вариантите за фино картографиране в локусите на GWAS изискват разбиране на основния механизъм, чрез който вариантът може да допринесе за дадена черта. Преодоляването на LD и идентифицирането на специфичните за контекста варианти, които са причинни за дадена черта, е наложително за разбиране на механизмите на заболяването и уверено идентифициране кои гени и пътища надолу по веригата са засегнати. За тази цел са разработени и приложени много функционални и изчислителни (високопроизводителни) методи за фино картографиране. По-долу разглеждаме няколко метода за фино картографиране според нарастващата им способност да описват сложната роля на вариантите в GWAS черти и заболявания.

2.1. Идентифициране на припокриване с функционални елементи

Най-простият подход за фино картографиране е припокриването на варианти на GWAS във висока LD с функционални елементи като промотори и подобрители (фигура 2а). Понастоящем най-добрият ресурс за функционални елементи е съставен от консорциума за епигеномично картографиране на пътната карта на NIH [20] (електронен допълнителен материал, таблица S1), който използва ChIP-seq (електронен допълнителен материал, таблица S2) за измерване на хистоновите марки за определяне на разположение на функционалните елементи в 127 различни типа клетки и тъкани [20,21]. Финото картографиране на варианти на GWAS от 21 автоимунни заболявания, използвайки пътната карта на NIH и подобни данни, изчислява, че приблизително 60% от кандидат причинно-следствените варианти се свързват с подобрители на имунни клетки, а други приблизително 8% с промотори [12]. Това е отразено и в тъканно-специфичното обогатяване на вариантите на чувствителност към диабет тип 1 в подобрители на лимфоиден ген [22]. Освен това, кандидат причинно-следствените варианти бяха обогатени с подобрители, дефинирани от хистоновия знак H3K27ac в специфични подгрупи от CD4+ Т клетки, CD8+ Т клетки и В клетки [12]. Такъв беше и случаят в друго проучване при моноцити, неутрофили и CD4+ Т клетки [23]. Други проучвания също идентифицират тъканно-специфично обогатяване на свързани с болестта варианти чрез припокриване с функционални елементи, което показва, че този подход може да помогне да се определи кои варианти играят роля в определени типове клетки [23,24].

Фигура 2. Илюстративно изображение на GWAS локус, показващо примерни механизми, чрез които могат да бъдат открити вариантни ефекти върху активността на усилвателя и генната експресия. (а) Много варианти, свързани с черти, са показани с различна сила на LD (диаграма на разсейване) в сравнение с GWAS-идентифицирания вариант на маркер (в черно). В този пример каузалният вариант се намира в алел-зависим активен усилвател (C-алел, caQTL), както е показано от отворените хроматинови региони на същия локус (диаграма на пиковата плътност под варианта). Вариантът засяга мястото на свързване на TF на зеления TF със силно предпочитание на свързване за C-алела, както е показано от активността на усилвателя в полето „афинитет на свързване на транскрипционния фактор“. В допълнение, използвайки 3D взаимодействия (сиви арки, свързващи гена, промотора и подобритела), физическият контакт с близкия „ген X“ показва, че подобрителът влияе върху експресията на гена. (б) За да се подчертаят специфичните за клетъчния тип ефекти, влиянието на причинно-следствения вариант е изобразено в три типа клетки с различна наличност на TF. Експресията на иРНК на „ген X“ е по-силна за CC-генотипа в сравнение с GG-генотипа поради повишения афинитет на свързване на TF към зеления TF (както е показано на а). Тази експресия на иРНК остава ниска, но стабилна за GG-генотипа и в трите типа клетки, независимо от наличността на TF, но намалява за CC-генотипа в клетъчни типове с намалена наличност на TF, което намалява кооперативното TF свързване.

Други начини за откриване на регулаторни региони, които могат да се използват за фино картографиране на варианти на GWAS, се основават или на достъпността на ДНК, като ATAC-seq [25] и DNase-seq [26] (електронен допълнителен материал, таблица S2), или идентифициране на присъща транскрипционна активност на подобрители и промотори [27,28], като GRO-seq [29], PRO-seq [30] и CAGE [31] (електронен допълнителен материал, таблица S2).Колективните публични бази данни, използващи тези техники – като консорциума на NIH Roadmap [20], ENCODE [32], FANTOM5 [33] и консорциума IHEC [34] – са незаменими ресурси, специфични за контекста (електронен допълнителен материал, таблица S1). Изглежда обаче, че е по-трудно, отколкото първоначално се очакваше да се посочи точното местоположение на регулаторните региони, тъй като всички тези методи показват различна чувствителност и точност при картографирането на активните регулаторни региони [35]. Освен това припокриването на вариант с активен регулаторен регион може да не доведе до функционално нарушаване на тези елементи и по този начин не сочи окончателно причинно-следствена връзка. Тази несигурност ограничава точността на финото картографиране чрез припокриване с функционални елементи и все още ни оставя с множество възможни причинно-следствени варианти.

2.2. Извеждане на алел-специфични вариантни ефекти

При високопроизводителни методи като ATAC-seq, показанията за секвениране, съдържащи вариант, могат да бъдат разделени въз основа на неговия алел. Алел-специфичното изобилие от четения за секвениране може директно да ни информира за функционалността на този вариант в отворената хроматинова област. Вариантите, които причиняват алелен дисбаланс в регулаторните региони, се наричат ​​локуси на количествен признак за достъпност на хроматина (caQTLs фигура 2а) [25,36]. Много caQTLs бяха идентифицирани в първични CD4+ Т-клетъчни ATAC-seq пикове и те показаха силно обогатяване на кандидат-каузални автоимунни варианти [36]. По подобен начин съществуването на варианти или хистон-QTL, които засягат регулаторните региони чрез промяна на свързаните с усилвател H3K27ac или H3K4me1 хистонови пикове също предполага, че тези варианти имат ефект върху специфичната за клетъчен тип усилваща активност [23]. Поради техния функционален ефект върху достъпността на ДНК и епигенетичните белези, тези варианти е по-вероятно да бъдат причинно-следствени варианти за GWAS черти.

Друг механизъм, чрез който некодиращите варианти на GWAS могат да имат алелен ефект върху генната експресия, е алтернативно сплайсиране на гени. Свързаните с GWAS варианти имат потенциала да индуцират специфично за клетъчния тип алтернативно сплайсинг (sQTL) или могат да повлияят на транс-действащите гени за регулиране на сплайсинга [37,38]. Това беше показано в подход, обхващащ целия геном, където бяха идентифицирани 622 екзона с интронични sQTL. Сто и десет от тези екзони съдържат варианти в LD с GWAS маркерни варианти [37]. В по-специфичен пример, PRKCA генът, свързан с множествена склероза, изглежда е засегнат от интроничен sQTL, който увеличава експресията на генна изоформа, по-предразположена към безсмислено медиирано разпадане, като по този начин намалява вероятните защитни нива на PRKCA mRNA след транскрипция [39] . Въпреки това, sQTLs изглежда също действат чрез по-сложни механизми, като индиректно чрез caQTLs [40], или чрез индуциране на алтернативни начални места на транскрипция нагоре [41]. Тези и много други примери [38] предполагат, че sQTLs може да са важен, но сложен механизъм, чрез който свързаните с GWAS варианти засягат дадена черта.

2.3. Идентифициране на варианти, които нарушават основните места за свързване на TF

По-нататъшно приоритизиране на варианти в регулаторни региони, които показват алелни дисбаланси, може да бъде направено чрез изчислителен или функционален анализ на основните места за свързване на TF (TFBS) или мотиви. Регулаторните региони се състоят както от много строги, така и от по-дегенерирани ДНК мотиви [42], към които TFs могат да се свържат, за да инициират локална транскрипция (например усилващи РНК) и да регулират близки или далечни гени [10,27]. Вариантите могат да променят TFBS, променяйки афинитета на свързване на TF и ​​променяйки активността на регулаторен регион (фигура 2а) [18,43,44]. Специфичността и местоположението на потенциалните TFBS са събрани за много типове клетки в големи бази данни като JASPAR [45], FANTOM5 [33] и ENCODE [32] (електронен допълнителен материал, таблица S1), най-вече използвайки ChIP-seq и HT- SELEX [46] (електронен допълнителен материал, таблица S2).

Обогатяване на разрушаването на TFBS чрез предполагаемо причинно-следствени варианти е идентифицирано за 44 семейства TFs [18]. За TFs като AP-1 и ETS TF-семейството, регулаторните региони, съдържащи тези нарушени TFBS, също показват ефекти върху достъпността на хроматина, което показва, че ефектът на вариантите върху афинитета на TF свързване води до caQTL [18]. По същия начин, при идентифициране на близо 9000 DNase-seq локации, засегнати от алелни дисбаланси, беше установено, че алелите, свързани с по-достъпен хроматин, също са силно свързани с повишено свързване на TF [43]. В по-специфичен случай, TFBS анализира смущенията и инвитро потвърждението от ChIP-seq доведе до идентифицирането на rs17293632 като вероятна причинна SNP, която увеличава риска от болестта на Crohn чрез нарушаване на AP-1 TFBS [12]. Интересно е, че този ефект върху AP-1 TFBSs е специфичен за стимулиране: пиковете на H3K27ac със засегнатите AP-1 TFBSs са обогатени със стимулирани CD4+ Т клетки в сравнение с нестимулирани клетки [12]. Това подчертава значението на специфичността на контекста и необходимостта от стимулации, свързани с тъканите и болестите, в експериментални настройки (фигура 2б) [12,47]. И накрая, в проучване на пациенти с левкемия, малко вмъкване на ДНК, което води до TFBS за MYB, създава подобрител близо до TAL1, което доведе до активиране на този онкоген и началото на левкемия [48]. По този начин, намаленият или повишен афинитет на TFs поради генетични варианти или малки промени в ДНК може да има дълготрайни ефекти.

Понастоящем само 10–20% от потенциално причинно-следствените некодиращи GWAS варианти, дефинирани от алелни дисбаланси в рамките на регулаторен регион, може да се покаже, че нарушават известен TFBS [12]. Следователно, действителните причинно-следствени варианти могат потенциално да действат чрез различен механизъм или нашето разбиране за свързването на TF може все още да е недостатъчно [49]. Един усложняващ фактор тук е потенциалното кооперативно свързване на повече от един TF при припокриващ се TFBS. Откриването на тези съвместни свързващи мотиви в момента се подобрява както чрез биологични методи (като SELEX-seq [50]), и изчислителни методи, като No Read Left Behind (NRLB) [44]) (електронен допълнителен материал, таблица S3). Поразителен пример за специфично за контекста кооперативно свързване на TFs е илюстрирано от повишеното обогатяване на TFBS с p300, RBPJ и NF-kB в рисковите локуси на GWAS черти като следствие от наличието на EBNA2 протеин на Epstein-Barr (EBV) [51]. ]. В това проучване бяха използвани ChIP-seq данни от EBV-трансформирани В-клетъчни линии, заедно с алгоритъма RELI (електронен допълнителен материал, таблица S3), за систематично оценяване на обогатяването на вариантите в TFBS [51]. В шест от седемте тествани автоимунни нарушения, RELI идентифицира, че 130 от 1953 кандидат причинно-следствени варианта [12] се припокриват с EBNA2 свързващи места в В-клетъчни линии, идентифицирани от ChIP-seq [51]. Интересно е, че много автоимунни заболявания, включително цьолиакия и множествена склероза [52,53], се смятат за частично предизвикани от вирусни инфекции, което предполага, че вариантите могат да бъдат причинни само когато са налице и вирусни фактори. Освен това, TF мотивите могат да бъдат силно дегенерирани и малка промяна в афинитета на TF свързване може да предизвика фин ефект на дозата върху активността на регулаторен регион [44]. Въпреки че този ефект може да е фин, гените надолу по веригата могат да бъдат засегнати достатъчно [44], за да индуцират или повлияят на черта. По този начин е необходимо по-добро разбиране на това как се медиира афинитетът на свързване на TF към ДНК мотивите, за да се разбере как вариантите влияят върху функционалността на регулаторен регион.

2.4. Фино картографиране чрез откриване на активност на регулаторния регион

По-непосредствен подход за фино картографиране е директното измерване на ефекта, който вариантът може да има върху силата на регулаторен регион. Активните промотори и енхансери имат сайтове за начало на транскрипция (TSSs) и активността на подобрител или промотор е пряко свързана с активната транскрипция от тези TSSs [27]. Въпреки това, някои промоторни РНК и повечето подобрители РНК са много краткотрайни, което ги прави трудни за откриване с повечето методи за секвениране на РНК [10,27]. CAGE (електронен допълнителен материал, таблица S2) наистина позволява идентифициране на точни TSS местоположения, както и нива на експресия на гени, чрез секвениране на 5′-капирани транскрипти, независимо от тяхната стабилност [30]. CAGE идентифицира промоторни и усилващи ефекти и показа, че 52% от ефектите, наблюдавани в промоторните региони, са във вторични CAGE пикове, подчертавайки, че гените могат да имат множество активни промотори в зависимост от генотипа [54]. CAGE QTLs са наблюдавани за локуси, свързани със системен лупус еритематозен (SLE) и възпалително чревно разстройство [54], което подкрепя тяхното значение при имунно заболяване.

Репортер-плазмидните анализи могат също да се прилагат за директно измерване на ефектите на вариантите върху активността на подобрител или промотор на TSS чрез преместване на съдържащи варианти ДНК фрагменти от естествената им среда към плазмид и трансфектирането им в клетъчен тип, представляващ интерес. Най-традиционният репортер-плазмиден анализ, луциферазният анализ (електронен допълнителен материал, таблица S2), беше използван за потвърждаване на функционален ефект на rs1421085, който е свързан с риска от затлъстяване, като показва, че алелът на риска предизвиква повишаване на активността на усилвателя [55]. Въпреки това са необходими високопроизводителни методи за репортерски анализ с висока разделителна способност за фино картографиране на всички потенциално причинни варианти в рамките на цели GWAS локуси въз основа на активността на регулаторния регион.

Един такъв метод, масовият паралелен репортерен анализ (MPRA електронен допълнителен материал, таблица S2), може да тества над 30 000 варианта кандидат чрез синтетично създаване на 180 bp ДНК фрагменти, съдържащи и двата алела на вариант с уникален баркод и интегрирането им в GFP-reporter плазмиди, които впоследствие се трансфектират в различни клетъчни линии [56]. Използва се MPRA за идентифициране на експресията на 12% (3432) от 30 000 кандидат ДНК фрагмента в три клетъчни линии, като 842 показват алелни дисбаланси, причинени от SNP. Всъщност 53 от тези SNP преди това са били свързани с GWAS черти [56]. Подобни високопроизводителни методи за фино картографиране, които използват ДНК, получена от пациента вместо синтетично генерирани ДНК последователности, са STARR-seq [57] и SuRE [58] (електронен допълнителен материал, таблица S2). Използвайки подход на целия геном, методът SuRE успя да скринира 5,9 милиона SNPs в линията на червените кръвни клетки K562, идентифицирайки над 30 000 SNP, които засягат регулаторните региони и позволявайки задълбочено фино картографиране на SNPs за 36 кръвни клетки. свързани GWAS черти [59]. Последващите изследвания на тези репортерски анализи идентифицираха причинно-следствена SNP (rs9283753) при анкилозиращ спондилит [56] и друга (rs4572196) в потенциално до 11 черти на червените кръвни клетки [59]. Въпреки очевидните предимства на високопроизводителните екрани за фино картографиране, основен недостатък е, че тези методи обикновено се прилагат при ракови или EBV-трансформирани клетъчни линии. Тези клетъчни линии могат да се различават значително от клетъчните типове, извлечени от характерна черта [60] и често са натрупали много соматични мутации в резултат на години на култивиране [61]. По този начин грешните варианти могат да бъдат идентифицирани като причинно-следствени, тъй като не са били взети предвид съответните клетъчни типове и контекстно-специфични ефекти [62].

2.5. От причинно-следствен вариант до ген с помощта на 3D интерактом

Когато е идентифициран причинно-следствения вариант, ефектите на генната експресия на този вариант могат да бъдат директно оценени чрез картографиране на необходимото физическо взаимодействие на регулаторния регион, който засяга с неговите целеви гени (фигура 2а) [63,64]. Например, регионите на H3K27ac, съдържащи варианти с приоритет на автоимунните заболявания, бяха свързани с TSS на гените, използвайки HiChIP (електронен допълнителен материал, таблица S2) и показа, че съдържат специфични за клетъчния тип взаимодействия между TSS на IL2 ген и rs7664452 в Th17 клетки и между rs2300604 и целевия ген BATF в Т-клетките на паметта [63]. Интересно е, че за 684 варианта, свързани с автоимунно заболяване, оценени с HiChIP, са идентифицирани 2597 взаимодействия ген-вариант, което показва, че вариантите на автоимунно заболяване могат да регулират множество гени. Освен това само 14% (367) от тези взаимодействия ген-вариант са с гена, най-близък до варианта [63]. Друг пример за взаимодействие на далечни разстояния на причинен вариант е това на споменатия по-горе rs1421085, който е свързан с риск от затлъстяване и се намира в интрон на FTO. Анализите на разрушаването на TFBS показват, че rs1421085 нарушава ARID5B TF свързващия мотив и засяга активността на подобрител, който регулира IRX3 и IRX5, гени, разположени 1,2 Mb нагоре, вместо първоначално очакваните съвместно локализирани FTO самия ген [55,65]. По този начин анализът на финото картографиране и взаимодействието идентифицира допълнителни причинно-следствени гени в този рисков локус, свързан със затлъстяването.

Hi-C (електронен допълнителен материал, таблица S2) е друг високопроизводителен метод за идентифициране на специфични промоторни и усилващи генни взаимодействия [19,66–68]. Например, Hi-C беше използван за приоритизиране на четири гена на ревматоиден артрит чрез припокриване на взаимодействия промотор-ген на различни първични имунни клетки с GWAS варианти на ревматоиден артрит [19]. Друго проучване анализира Hi-C набори от данни от 14 първични човешки тъкани и показа, че често взаимодействащите региони (FIREs) са обогатени за свързани с болестта варианти на GWAS [68]. Въпреки това, ограниченията на разделителната способност на Hi-C и други данни за взаимодействие затрудняват точното определяне на причинно-следствения вариант в рамките на регулаторен регион [63,64,68]. В допълнение, ефектите от клетъчния тип и околната среда влияят върху взаимодействията на регулаторните региони с гените, както е показано от факта, че 38,8% от FIRE са идентифицирани само в една тъкан или клетъчен тип [68]. По този начин, множество стратегии, както са описани тук и събрани в бази данни като EnhancerAtlas2.0 [69] (електронен допълнителен материал, таблица S1), трябва да бъдат комбинирани, за да се направят уверено фино картографирани причинно-следствени варианти и да се свържат с гени, които играят роля в GWAS чертите .

3. Приоритизиране на гена, използвайки GWAS черти

Традиционните подходи за фино картографиране се фокусират върху идентифицирането на причинно-следствените варианти, които засягат интересна черта. Макар и много важно, познаването кои варианти са причинно-следствени, не идентифицира ефектите надолу по веригата на варианта върху чертата. Един от начините да получите такива прозрения е чрез идентифициране на гените, които са засегнати от всеки GWAS локус. Освен това, ако причинно-следствените гени, засегнати от локуса, са известни, това може да намали достоверния набор от потенциално причинни варианти. Последните усилия в системната биология са фокусирани върху идентифицирането на такива причинно-следствени гени и техните ефекти надолу по веригата.

3.1. Приоритетиране на ген, използвайки локуси на експресионни количествени признаци

По-всеобхватен подход за идентифициране на гените, засегнати от GWAS локус, е чрез използването на локуси на количествени черти (QTL фигура 3а). Докато caQTL често са показателни за каузален вариант или регулаторен регион, специфична подгрупа от QTL, наречена експресионни QTL (eQTL), може да се използва за идентифициране на гените, засегнати от GWAS локус [70–72]. Най-простият начин за приоритизиране на гени с помощта на eQTL анализ е просто да се припокрие вариантът на маркера на GWAS локус с най-горния вариант на eQTL. Пример за това е вариант на риска от SLE, който също е a цис-eQTL за TF IKF1. eQTL е включен IKF1 повлиява транскрипцията на 10 гена в транс които всички се регулират от IKF1 [70], подчертавайки този ген като вероятен кандидат причинен ген за SLE. Освен това, тези видове ефекти могат да бъдат специфични за контекста, както беше показано за a цис-eQTL е включен TLR1 след стимулиране на мононуклеарни клетки на периферната кръв (PBMCs) с Ешерихия коли [73]. Това цис-eQTL също беше силен транс регулатор на Е. coli-индуцирана мрежа за отговор, регулираща други 105 гена [73], което показва, че eQTL може силно да повлияе на имунния отговор към патогени.

Фигура 3. Аспекти на фино картографиране на гени от GWAS локуси. (а) Използвайки eQTLs (тъмно синьо) и CRISPRi/a-базирани анализи, GWAS локусите могат да бъдат свързани с гени, когато се използва правилният контекст. (б) Не всяка връзка между генетиката и експресията може да бъде описана адитивно. Епистатичните ефекти (тъмночервени) описват връзка, при която са необходими две (или повече) мутации, за да се стигне до фенотипа. (° С) Използвайки ко-експресия, регулаторните връзки между гените могат да бъдат количествено определени, но специфичната роля на генетиката в тези взаимоотношения е неизвестна. (д) Използвайки PGSs, съвместните ефекти на GWAS локусите могат да бъдат оценени, жертвайки разделителната способност за получаване на прозрения от по-високо ниво за пътищата, засегнати от генетиката, свързана с фенотипа. (д) Когато се оценява при разделителна способност на една клетка, цялата мрежа може да бъде деконструирана на съответните компоненти за клетъчен тип. Засегнатите клетки могат впоследствие да покажат променено взаимодействие с други клетки в тъканта или индивида, което води до променен резултат за дадена тъкан или индивидуален фенотип.

Въпреки това, най-горният вариант на eQTL може да не винаги е същият като или в LD с най-горния вариант на GWAS маркер поради шум в данните за eQTL [74] или множество причинно-следствени ефекти върху ген или заболяване в локус [75] . В резултат на това са създадени много статистически рамки, за да дадат по-точни оценки на припокриването или причинно-следствената връзка между GWAS локус и QTL локус, включително FUMA [76], COLOC [77] и Менделска рандомизация (MR електронен допълнителен материал, таблица S3) . Последният обикновено се използва за оценка на причинно-следствената връзка между GWAS и QTL профилите [78–84] и се прилага успешно за идентифициране на гени, причинно свързани със сложни черти [3,79–81]. Например, изследванията на MR са в състояние да идентифицират причинно-следствена роля за SORT1 върху нивата на холестерола [79,81], роля, която е експериментално потвърдена [85]. И все пак, MR може да бъде предизвикателство, тъй като множество варианти на LD могат да засегнат един и същ ген (връзка) и няколко гена могат да бъдат засегнати от същите причинно-следствени варианти (плейотропия) [70,73,86]. По-новата работа върху MR се фокусира върху по-точното контролиране на плейотропията и връзката [79,81,82,84]. Независимият избор на вариант за MR в момента се извършва или чрез LD-базирано струпване или някаква форма на стъпаловидна регресия, като се използват инструменти като COJO на GCTA [75] (електронен допълнителен материал, таблица S3), които избират само за независимост, а не за причинно-следствена връзка. Точното фино картографиране може потенциално да помогне на тези усилия чрез подобряване на независимия избор на вариант за MR, тъй като финото картографиране може да разкрие истинските причинно-следствени варианти, независимо от връзката.

Напоследък се предполага, че приблизително 70% от наследствеността в експресията на иРНК се дължи на транс-eQTLs [87,88], което подчертава важността на транс-eQTL отношения. Докато транс-eQTL имат потенциала да разширят разбирането ни за сложни черти, тежестта на множеството тестове е много голяма поради големия брой сравнения, които трябва да се направят, когато се прави в целия геном транс-eQTL картографиране (в най-лошия случай, милиони варианти по около 60 000 гена) [70,72]. Поради това много eQTL проучвания избират само да картографират цис-eQTL въздейства върху целия геном, тъй като това драстично намалява броя на сравненията, които трябва да се направят [70–72,74]. Друг подход е ограничаването на броя на сравненията само чрез картографиране транс ефекти за предварително дефинирана подгрупа от варианти или гени [70,72,73,86]. Въпреки това, тъй като пълен транс-Наборът от данни за картографиране на eQTL е рядко наличен, припокриват се между тях транс-действащи гени и GWAS локуси ще бъдат пропуснати.

Допълнително предизвикателство с подходите за приоритизиране на гените, базирани на QTL, се крие в контекста-специфичността на използваните QTL данни, тъй като различни тъкани, типове клетки, времеви точки и условия на стимулация могат да предизвикат много различни модели на експресия и различни взаимодействия с вариантите в GWAS локус [23,73,89–92]. Следователно, информацията за QTL, която е налична, може да не е информативна за изследваната черта. Това е особено предизвикателство при изучаване на черти, които присъстват в тъкан, различна от кръвта, какъвто е случаят с неврологични разстройства [93,94], тъй като обикновено не са налични достатъчно мощни QTL изследвания за клетъчен тип или контекст. Въпреки това, с появата на едноклетъчно РНК секвениране (scRNAseq) и нарастващата наличност на мащабни набори от данни за тъкани, различни от кръвта, някои от тези предизвикателства се преодоляват [70,72,90,91]. scRNAseq (електронен допълнителен материал, таблица S2) позволява високопроизводителен eQTL анализ в отделни типове клетки вместо насипна популация, както е показано за PBMCs [90]. Това позволява увеличаване на разделителната способност и може да помогне за оценка само на релевантните за черти типове клетки [91], както е показано за eQTL на TSPAN13 и ZNF414, които присъстват само в CD4+ Т клетки, а не в насипно състояние или други специфично оценени клетъчни типове [90]. Консорциуми, които натрупват едноклетъчни данни в голям мащаб в много различни тъкани – като Атласа на човешките клетки [95], Single-cell eQTLgen [96] и консорциума LifeTime [97] (електронен допълнителен материал, таблица S1) – ще улесняват използването на данни за едноклетъчно секвениране за черти, при които обемната RNA-seq, получена от кръв, не е информативна.

3.2. Идентифициране на ефекти надолу по веригата на GWAS локуси с помощта на други QTL

Отвъд базирания на генна експресия eQTL съществува множество други типове QTL, които засягат изобилието от протеини (pQTL) [98,99], метаболити (mQTL) [100], ДНК метилиране (meQTL) [101], микробиота (miQTL ) [102] и клетки (клетъчен брой или ccQTL) [103,104]. Естествено, всички те могат да се припокриват с локусите на GWAS, за да се получи представа за тяхната патология. Например, на ex vivo Доказано е, че цитокиновият отговор към стимулация има силни генетични регулатори [99]. Интересното е, че всички открити свързани ефекти бяха транс (т.е. не в близост до цитокиновите гени), което предполага, че освобождаването на цитокини се контролира от гени в пътищата на рецептора, а не се контролира директно от нивата на иРНК на цитокина. Освен това, контекст-специфичността е важна, тъй като е установено, че QTL, засягащи цитокини от Т клетки, са обогатени в автоимунни GWAS локуси, докато QTLs, засягащи цитокини от моноцити, са по-обогатени в локуси, свързани с инфекциозни заболявания [99]. По този начин ефектите на генетиката върху чертите трябва да се изследват не само на ниво генна експресия, но и на нива, по-пряко свързани с фенотипа.

3.3. Функционални подходи за картографиране на генетични ефекти върху експресията

Докато eQTL анализът предоставя безценна информация за гените, които засягат дадена черта или заболяване, специфичните за контекста и клетъчния тип отклонения в данните за експресията и структурата на LD в локусите на GWAS причиняват потенциални грешки при приоритизирането на гените. С неотдавнашното въвеждане на екрани, базирани на CRISPR/Cas9 [105] (електронен допълнителен материал, таблица S2), сега е възможно функционално да се валидират eQTL ефектите по начин с висока пропускателна способност, независим от структурата на LD и в клетъчен тип, свързан с чертата на интереса.

CRISPR-базираните анализи използват насочващи РНК за свързване на специфични региони на генома и или активиране (CRISPRa), или интерфериране (CRISPRi) с транскрипцията на гени или подобрители [106]. Последните постижения както в scRNAseq, така и в CRISPRi/a улесниха методологиите, които оценяват ефектите на усилвател върху гените в единични клетки [107]. Например, скорошно усилие оценява ефектите на 5920 кандидат подобрители върху генната експресия, използвайки CRISPRi [107]. Поразително, 664 показа значителен ефект върху генната експресия в клетките K562. По този начин, базираните на CRISPRi анализи са способни да идентифицират двойки усилвател-ген по високопроизводителен начин. Въпреки това, тъй като само приблизително 10% от кандидат-подобрители действително влияят на генната експресия, идентифицирането на подобрители са активни въз основа на вече налични данни може да не винаги е лесно, дори за много добре характеризирана клетъчна линия като K562 [20,32 ,34,58,59].

В допълнение към картографирането на активни усилващи генни двойки, CRISPRi/a-базирани анализи могат да се използват за идентифициране на епистатични взаимодействия между гените и за генериране на генни мрежи на базата на промени в ко-експресията в нарушени срещу не-смущени клетки (фигура 3б). Гените, които са силно ко-експресирани, вероятно ще бъдат регулирани от общ механизъм [86]. Следователно, идентифицирането на такива гени може да помогне за разкриването на генната мрежа, която води до свързана с болестта черта [94,108,109]. Всъщност, CRISPRi скрининг, който е насочен към 12 TFs, хроматин модифициращи фактори и некодиращи РНК, е в състояние да идентифицира епистатични ефекти в клетките, нарушени от две водещи РНК [110]. В тези клетки достъпността на хроматина остава относително стабилна в локуси, свързани с автоимунно заболяване в клетки с един нарушен TF. Въпреки това, се наблюдават значителни промени при оценката на достъпността на хроматина за същите локуси в клетките, също нарушена за NFKB1. Това отново подчертава важността на вземането под внимание на целия контекст на дадена черта при фино картографиране или интерпретиране на ролята на GWAS локус.

Основен недостатък на повечето CRISPRi/a екрани е, че те са много трудоемки и следователно обикновено се извършват в лесно манипулирани, но също така силно модифицирани ракови клетъчни линии [61]. За щастие, последните проучвания показват, че CRISPRi екраните могат да бъдат приложени към първични Т клетки [111,112]. Това, макар и предизвикателство, трябва да бъде разширено и до други тъкани и моделни системи. Тези проучвания значително ще подпомогнат усилията за фино картографиране на варианти, регулаторни региони и гени, тъй като те директно идентифицират двойките активен усилвател-ген и генната мрежа надолу по веригата, засегнати в специфични типове клетки. В допълнение, бъдещата работа може да се съсредоточи върху извършването на CRISPRi/a екрани в клетки, получени от пациенти, които съдържат подходящи рискови генотипове, за да се достигне напълно разделителна способност на ниво вариант.

3.4. Картографиране на регулаторните взаимодействия ген-ген, използвайки данни за популацията

Ко-експресията може също да се моделира въз основа на междуиндивидуални вариации в експресията, която може да се използва за приоритизиране на болестните гени и за изводи за последиците от болестите надолу по веригата (фигура 3° С) [94,108,109,113]. Например, DEPICT (електронен допълнителен материал, таблица S3) интегрира генната съвместна регулация с GWAS данни, за да осигури вероятни причинно-следствени гени и пътища, подходящи за чертата [113]. Освен това инструментът GADO (електронен допълнителен материал, таблица S3) правилно идентифицира причинно-следствените гени в 41% от кохорта от 83 пациенти с различни менделски разстройства и даде приоритет на няколко нови причинно-следствени кандидат гени чрез комбиниране на специфични за черти генни набори с ко-експресия мрежа [109]. И накрая, eMAGMA (електронен допълнителен материал, таблица S3) използва ко-експресия заедно с тъканно-специфични eQTL в мозъчни региони, за да даде приоритет на 99 кандидат-каузални гена за голямо депресивно разстройство [94]. Тези модули за съвместна експресия бяха обогатени в мозъчни региони, но не и в пълнокръвни, подчертавайки тъканно-специфичния характер на мрежите за коекспресия [94].

Базираните на популацията мрежи за съвместна експресия описват връзките между гените както чрез генетиката, така и чрез околната среда. Следователно, въз основа само на съвместната експресия, не е възможно да се раздели коя част от ко-експресията се дължи на генетиката. Следователно тези мрежи имат ограничена употреба за фино картографиране на причинно-следствени варианти и се използват главно за идентифициране на гени и пътища, засегнати от GWAS локусите, след като са направени приоритети на гените. Освен това мрежите за съвместно изразяване не са насочени [108]. Генетичната информация на индивидите, използвани за генериране на мрежата за съвместно изразяване, би решила този проблем, тъй като генетичните и екологичните компоненти биха могли да бъдат разделени и към мрежата може да се добави насоченост [108], въпреки че това не е тривиална задача. Финото картографиране би било от голяма полза при моделирането на генетичния компонент на мрежата, като улеснява избора на истински причинно-следствени варианти.

3.5. Фино картографиране по омнигенния модел

Както се обсъжда в този преглед, става все по-ясно, че сложните черти са силно полигенни и че много варианти могат да дерегулират цис- и транс-действащи фактори по различни начини (фигура 2а). В светлината на това, Бойл et al. [87] предложи омнигенен модел за сложни черти, при който всеки ген, който се експресира в клетката, ще има ефект върху чертата или заболяването по някакъв начин (фигура 1° С) [87,88]. Например височината е толкова полигенна, че повечето 100 kb геномни прозорци изглежда допринасят за обяснението на нейната дисперсия. Като се има предвид, че размерите на ефекта на индивидуалния вариант стават толкова малки, това повдига въпроса: какво означава причинно-следствената връзка на индивидуалния вариант в сложна черта [87,88,114]? Ако омнигенният модел е верен, той представлява голямо предизвикателство за финото картографиране на локусите на GWAS, особено за интерпретацията на последствията надолу по веригата, тъй като сложността на генетичните ефекти върху чертите само ще се увеличава. В допълнение, настоящите функционални анализи може да не са подходящи за моделиране на малките и фини вариантни ефекти и взаимодействията ген-ген или ген-среда, наблюдавани при популационни проучвания, използващи милиони индивиди.

Вместо това, пълният GWAS сигнал от всички локуси, свързани с дадена черта, може да се използва за оценка на полигенен резултат (PGS), който описва генетичната предразположеност на индивида за дадена черта. В най-основната си форма PGS представлява линейната комбинация от всички независими рискови генотипове, претеглени от размера на ефекта на GWAS, но съществуват много по-сложни методи (фигура 3д) [115–117]. PGS за даден признак може да бъде свързан с нивото на експресия на гени (и протеини) в популация [72,118]. Ако има силни корелации, GWAS локусите заедно, както е представено от PGS, съвместно влияят върху тези гени. Тези гени вероятно представляват основни гени в свързана с болестта ко-експресионна мрежа. Въпреки че PGS имат проблеми, когато става въпрос за широка приложимост в популациите [119], те могат да бъдат полезен абстракционен слой за осмисляне на полигенна черта.

Като се има предвид, че ставаме наясно с вероятната полигенна и дори омнигенна природа на чертите, финото картографиране на отделния GWAS локус изглежда като невъзможна задача. Въпреки това, с настоящите подходи могат да бъдат изяснени по-силните и може би по-важни генетични ефекти, свързани с черти и заболявания [70,72,73]. Освен това, чрез използване на абстракционни слоеве като PGS, могат да се направят изводи за съвместните последици от тези ефекти [72]. Всъщност гените и пътищата, свързани с по-силни или съвместни генетични ефекти, са по-вероятни кандидати за лекарствени интервенции [120] (електронен допълнителен материал, таблица S1). Въпреки че може никога да не разберем напълно всички малки ефекти и взаимодействия, лежащи в основата на дадена черта, вероятно ще видим увеличаване на умните начини да стигнем до интерпретируемите биологични механизми зад чертите.

4. Бъдещи перспективи

Прегледахме скорошни високопроизводителни подходи за фино картографиране на GWAS, които могат да идентифицират варианти и гени, причинени за дадена черта или заболяване. Сложността и несигурността, присъстващи в аспектите на тези подходи, илюстрират, че един-единствен подход не е достатъчен, за да се схване пълната причина и ефект на кандидат-вариантите и гените. Освен това, докато големите масиви от данни, предимно в кръвта, са идентифицирали много потенциално причинно-следствени варианти и гени, свързани с черти, тези кандидати трябва да бъдат прецизирани и валидирани с помощта на специфични за тъканите и клетките ресурси в комбинация със специфични за черти фактори на околната среда, за да рекапитулирайте истинското биологично състояние на всяка черта възможно най-точно. Допълнително предизвикателство се крие в превеждането на тези гени на заболяването в клиничната практика, тъй като приоритетните гени може да не са съществуващи, нито практически цели за лекарства.

Въпреки тези предизвикателства, ние вярваме, че комбинирането на използването на материал, получен от пациента, с методи, които намират регулаторни региони и техните гени надолу по веригата, ще подпомогне идентифицирането на целта на лекарството за сложни заболявания. В допълнение, това знание може да се използва за генериране на модели за прогнозиране, които подпомагат бързото и неинвазивно идентифициране на специфични за черти варианти и гени в общата популация. Това ще формира основата на нашето разбиране за сложни черти, ще подпомогне разработването на лекарства и ще позволи специално пригодена прецизна медицина в близко бъдеще.


Тъканно-специфична експресия и идентификация на целевия ген при ендометриоза

Взети заедно, изследванията, разгледани по-горе, показват сложни взаимодействия между генотипа (вариация на ДНК последователността), епигенетиката и генната транскрипция. В допълнение, тъканно-специфичните и разликите в развитието в регулирането на генната експресия са допълнително усложняващи фактори [92]. Макар че много цис-eQTL се наблюдават в тъканите, приблизително 30% от цис-eQTLs са тъканно-специфични [92]. Това има важни последици, защото трябва да изследваме генната експресия в тъканите, свързани с болестта. Към днешна дата повечето проучвания с достатъчен мащаб са проведени с помощта на проби от кръвни или лимфобластоидни клетъчни линии, въпреки че това се променя.

Не знаем кои тъкани и тип клетки са мишени за регулаторни ефекти на вариацията на SNP, които увеличават риска от ендометриоза. Тъканите, допринасящи за развитието и растежа на ендометриозни лезии, могат да включват отлагане на жизнеспособна ендометриална тъкан или ендометриални стволови клетки чрез ретроградна менструация [93-95], епителни клетки от фалопиевите тръби [96], остатъци от ембрионални клетки [97], мезотелиум [98] ] и имунната система [ 99]. Възможно е също така тъканта на произход да варира при различните прояви на ендометриоза.

Данните за съответните клетъчни линии за репродуктивни тъкани в проекта ENCODE са ограничени и понастоящем не са налични изчерпателни данни, които картографират критичните регулаторни последователности в репродуктивните тъкани. Това ограничава способността ни да свързваме бързо вариацията на SNP с целевите гени. Ние инициирахме Проекта за експресия на ендометриален ген (EGEP) за eQTL изследвания в ендометриума, за да помогнем за приоритизирането на гените и пътищата за последващи изследвания. Избрахме ендометриума за тези изследвания като една важна тъкан, в която можем да изследваме регулаторните ефекти на вариацията на SNP, засягаща ендометриозата.

Големите размери на пробите ще бъдат от съществено значение, за да имат достатъчно мощност за оценка на важна тъканно-специфична регулация на генната експресия. Размерите на ефекта на eQTL са големи в сравнение с резултатите за GWAS. Въпреки това, нашата способност да откриваме значително eQTL също е ограничена от увеличената тежест на множество тестове, която е характеристика на eQTL анализите. Изчисленията на мощността показват, че е необходим размер на пробата от 100 тъканни проби, за да се открие eQTL, който обяснява ∼10% от дисперсията в генната експресия с 80% мощност (при коригирана за цялото изследване П стойност 10 −9). Увеличавайки размера на извадката до 400 индивида при същия процент на грешки от тип I (10 -9 ) и мощност (80%), бихме могли да открием eQTL, които обясняват ∼6,3% от дисперсията в генната експресия. Тъй като разпределението на размерите на ефекта не е еднакво и въз основа на нашите данни за цяла кръв, увеличаването на размера на пробата от 100 на 400 би довело до увеличаване на броя на eQTL, открити от ∼1200 с >10% дисперсия до ∼3100 с >6. 3% отклонение. Предвид факта, че генната експресия на ендометриума варира през целия менструален цикъл, ще са необходими дори по-големи размери на пробите с добре дефиниран етап на менструалния цикъл, за да се разбере генната регулация в ендометриума и ефектите от етапа на менструалния цикъл.


Охарактеризиран последователно усилен регион (SCAR)

ДНК фрагменти, амплифицирани чрез полимеразна верижна реакция (PCR), като се използват специфични 15-30 bp праймери, проектирани от нуклеотидни последователности, установени в клонирани RAPD (случайна амплифицирана полиморфна ДНК) фрагменти, свързани с особеност от интерес. Чрез използване на по-дълги PCR праймери, SCAR не се сблъскват с проблема с ниската възпроизводимост, обикновено срещан при RAPD. Получаването на ко-доминиращ маркер може да бъде допълнително предимство при превръщането на RAPD в SCAR.


Въведение

Интерлевкин-1 (IL-1) е голямо семейство цитокини (сигнални протеини от малки клетки), които медиират вродените имунни отговори за защита на гостоприемника срещу патогени. Семейството IL-1 има 11 членни протеини (IL-1F1 до IL-1F11) и те са кодирани от 11 различни човешки и миши гена [1]–[3]. Първите открити членове на семейството, IL-1α (новоназовани IL-1F1) и IL-1β (IL-1F2), се секретират от макрофаги и епителни клетки в отговор на патогени и имат силни провъзпалителни свойства, водещи до треска (засягащи хипоталамуса) и активиране на Т клетки и макрофаги.

Членовете на семейството на IL-1 са интензивно изследвани (особено IL-1α и IL-1β), като се разкриват ролите им при редица автовъзпалителни заболявания [4]–[6]. Сигнализацията, инициирана от IL-1 цитокините, повишава експресията на адхезионни фактори върху ендотелните клетки, което води до миграция на имунни клетки (като фагоцити и лимфоцити) към мястото на инфекцията. Автовъзпалителното заболяване е клас хронично възпаление с повишена секреция на активен IL-1β, като по този начин блокирането на IL-1β е терапевтично полезно [7].

IL-1α и IL-1β могат да индуцират експресия на тРНК на стотици гени, включително самите тях (верига за положителна обратна връзка), а техните генни регулаторни действия се провеждат чрез запазен сигнален път [8]. Разпространението на сигнала зависи главно от митоген-активирани протеин кинази (MAPKs), MAPK кинази (MKK/MAP2Ks), MKK кинази (MKKK/MAP3K/MEKKs) и низходящите протеини на MAPKs, което накрая води до активиране на транскрипционни фактори, които регулират експресията на протеини за защита на гостоприемника (Фигура 1). Сигналът се инициира чрез свързване на IL-1α или IL-1β лиганди към тип I рецептор (IL-1R1) и се разпространява с помощта на ко-рецепторния IL-1 рецепторен спомагателен протеин (IL-1RAP), образувайки тримерен комплекс [ 9].В този тримерен комплекс, Toll- и IL-1R-подобните (TIR) ​​домейни в цитоплазмените региони на IL-1R1 и IL-1RAP рецепторите се доближават един до друг, което води до набирането на ген за първичен отговор на миелоидната диференциация 88 (MYD88) , Toll-взаимодействащ протеин (TOLLIP) [7] и IL-1 рецептор-асоциирана киназа 4 (IRAK4) [10], [11]. Образува се стабилен комплекс между IL-1, IL-1R1, IL-1RAP, MYD88 и IRAK4 [10]. Свързването на MYD88 задейства фосфорилиране на IL-1 рецептор-свързани кинази IRAK4, IRAK2 и IRAK1, което води до набиране и олигомеризация на фактор 6, свързан с тумор некрозисфактор (TRAF6) [12]–[14]. TRAF6 и фосфорилираните IRAK1 и IRAK2 се дисоциират и мигрират към мембраната, за да се свържат с TGF-β-активирана киназа 1 (TAK1) и TAK1-свързващи протеини TAB1 и TAB2 [7]. Комплексът TAK1-TAB1-TAB2-TRAF6 мигрира обратно в цитозола, където TRAF6 е убиквитиниран и TAK1 е фосфорилиран [7]. От тази точка сигналът може да се разпространява по два основни пътя: IKK – IκB – NF-κB и/или MKK – MAPK/JNK/ERK (Фигура 2). По първия път, фосфорилираният TAK1 активира инхибитора на субединицата на ядрен фактор kappa-B киназа бета (IKKβ), а активираният IKKβ фосфорилира инхибитора на ядрения фактор kappa-B (IκB), който се разгражда, така че ядрен фактор kappa-B киназа (NF- κB) се освобождава и мигрира към ядрото [7]. TAK1 може също да активира митоген-активирани кинази (MAPK) p38, c-Jun N-терминални кинази (JNK) и извънклетъчни сигнално-регулирани кинази (ERK) чрез взаимодействие с протеини на MAP киназа киназа (MKK). Надолу по веригата в този път са транскрипционни фактори като c-Jun, c-Fos, c-Myc и ATF2.

В тази опростена диаграма на сигналния път на IL-1, сигналът се инициира чрез разпознаване на цитокини от IL-1 рецептори и се разпространява чрез множество подпътища, включващи семейни хомолози или алтернативни пътища за активиране на транскрипционни фактори надолу по веригата.

Тази подробна карта на IL-1 сигнализирането представя взаимодействията протеин-протеин и произтичащите от това клетъчни събития. Цветните възли представляват протеини с експериментално идентифицирани 3D структури, а белите възли са протеини без 3D структури. Ръбовете представляват взаимодействия протеин-протеин (прави/пунктирани стрелки се отнасят до налични/недостъпни 3D структури на протеини) или асоциации, водещи до клетъчни събития като клетъчен цикъл или генна експресия (пунктирани стрелки, започващи с кръгли глави).

Сигналните пътища на MAP киназа, които са запазени сред еукариотите, медиират клетъчни събития, задействани от извънклетъчни сигнали като свързване на цитокини [15] и са от съществено значение за IL-1 сигнализирането (Фигури 1 и 2). Този път се основава на тройна киназна каскада, състояща се от MAP киназа киназа киназа (MKKK/MEKK), MAP киназа киназа (MKK/MEK) и MAP киназа (MAPK) и тези кинази последователно се фосфорилират и активират една друга [15]. JNK и p38 MAP киназите, наречени стрес-активирани MAP кинази, имат роля в туморната супресия и могат да бъдат както директно фосфорилирани, така и активирани от MKK4, който също е туморен супресор [16]–[18]. Последователният активиращ механизъм протича по следния начин: MEKK взаимодейства с неактивен MKK и го фосфорилира, комплексът дисоциира, освобождавайки свободния и активен MKK, който е готов да взаимодейства с неактивен JNK, за да го активира [15]. Активирането на JNK води до нарушаване на взаимодействието MKK-JNK, освобождавайки активния JNK да фосфорилира своите цели надолу по веригата. Има няколко механизма, чрез които активираните от стрес MAP кинази регулират туморната супресия, включително насърчаване на апоптоза (p53, Bax, Bim/Bmf), инхибиране на протеини, които инхибират апоптозата (Bcl2, Bcl-XL, 14-3-3, Mcl-1), инхибиране на туморното развитие (TGF-β1) и туморния растеж (CDC25, CyclinD1/CDK4) [16]. Соматичните мутации бяха идентифицирани в пътя на JNK чрез мащабни секвенционни анализи на човешки туморни клетки [19], [20] и JNK3 кодиращ ген (MAPK10) се спекулира като предполагаем туморен супресорен ген, тъй като почти половината от изследваните мозъчни тумори включват мутации [21]. ERK1 и ERK2, другите членове на семейството MAPK, също се регулират нагоре при тумори [22].

Напоследък възпалението е свързано с рак [23]–[25]. Раковите заболявания се дължат най-вече на соматични мутации и фактори на околната среда, а хроничното възпаление е замесено от повечето от тези рискови фактори [26]. Хроничното възпаление, дължащо се на автоимунни заболявания или инфекции, причинява развитие на тумор чрез няколко механизма, включително индуциране на онкогенна мутация [26]. Онкогенните мутации и единичните нуклеотидни полиморфизми (SNPs) са ключови играчи в свързаните с възпалението ракови заболявания и е от решаващо значение да се картографират мутациите/SNP върху съответните 3D структури на протеините, за да се получи представа за това как те влияят върху функцията на протеините [27], [28]. ]. SNPs, които причиняват заболявания, ако не са в ядрото на протеина, често са разположени в региони на интерфейс протеин-протеин, а не другаде на повърхността [26], [28]. Структурните познания могат да изяснят конформационното и функционално въздействие на мутацията/SNP върху протеина [27]–[29]. Ефектът от функционална мутация може да се изрази чрез промяна в специфичността на взаимодействията между мутиралия протеин и неговите партньори [30]. Количествено, мутацията променя свързващите свободни енергии на взаимодействията на мутанта с неговите партньори по отношение на свободните енергии на неговите взаимодействия в естествената форма [30]. Функционалното въздействие на мутацията върху специфичността е различно. Мутацията може да дестабилизира протеина и/или неговото взаимодействие, което води до „загуба на функция“ или може да доведе до промяна в спецификата на взаимодействията протеин-партньор, което води до „увеличаване на функцията“ или може да доведе до нови свързващи партньори и следователно нова биологична функция, т.е. водят до „превключване на функцията“ [30].

Две скорошни проучвания използваха структурни пътища за картографиране на мутации върху протеин-протеинови интерфейси, единият в по-малък мащаб [27], а другият в голям мащаб [28]. Моска et al. [27] картографира мутации върху протеини като приложение на тяхната полезна техника за изчислително моделиране с данните, ограничени до енциклопедията на гените и геномите от Киото (KEGG) на комплементния каскаден път и взаимодействията на компонент 3 на комплемента (C3) и фактор на комплемента H (CFH). ), които включва. В пионерска работа, Уанг et al. [28] изследва връзките генотип-фенотип в голям мащаб. Те систематично изследваха хиляди мутации и ги картографираха на интерфейси за взаимодействие и експериментално валидираха своите прогнози за взаимодействията MLH1-PMS2, WASP-CDC42 и TP63-TP73. Тези и други проучвания подчертават необходимостта от изчислителни методи за мащабни интерактомни изследвания [31], [32]. Предлагаме метод, подобен на тези, използвани в произведенията на Моска et al. [27] и Уанг et al. [28], като същевременно се въвежда предимството на в силико мутагенеза за наблюдение на ефектите на мутациите върху взаимодействията протеин-протеин в голям мащаб.