Информация

Кой е изобретил dN/dS?

Кой е изобретил dN/dS?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Пиша статия и искам да се позова на оригиналния документ, който въведе термина dN/dS (или Ka/Ks за този въпрос). Намерих ранни работи по dN и dS (като Мията и Ясунага 1980 г.), но не може да намери първата хартия, използваща съотношението dN/dS. Някой знае ли коя хартия е най-добре да се цитират dN/dS?

Редактиране: dN е процентът на несинонимни замествания на несинонимни сайтове; dS е процентът на синонимни замествания за синонимни сайтове. dN/dS е просто съотношението между dN и dS.

Справка: Miyata, T., & Yasunaga, T. (1980). Молекулна еволюция на иРНК: Метод за оценка на еволюционните скорости на синонимни и аминокиселинни замествания от хомоложни нуклеотидни последователности и неговото приложение. Journal of Molecular Evolution, 16(1), 23-36. https://doi.org/10.1007/BF01732067


В статията, която цитирате, виждаме К.А и К.С дефинирани от авторите.

Директното сравнение между двойка известни нуклеотидни последователности в кодиращите региони ни позволява да оценим и двете нуклеотидни разлики на място, причинени от нуклеотидни замествания, водещи до промени в аминокиселините, KА, и тези, водещи до синонимични промени, KС, едновременно.

Същата година Motoo Kimura публикува Прост метод за оценка на еволюционните нива на базовите замествания чрез сравнителни изследвания на нуклеотидни последователности, в който той извежда подобни термини k '(nuc)S и к(nuc) A.

Пишем k'(nuc)S вместо kС', за да подчертаем, че това се отнася до скоростта на нуклеотидно място, получаваме, използвайки уравнение. 14, следната формула.

$ k '_ {(nuc) S} = - frac {1} {4T} log_e (1 - 2P - Q) $

Съответната формула за аминокиселинно-променящи замествания може да бъде получена чрез

$ k _ {(nuc) A} = frac {K "} {2T} $

Причината, поради която нито една хартия не цитира другото, е, че те се появяват в същото издание на Вестник на молекулярната еволюция. Въз основа на обширното кръстосано цитиране между тези автори, както и някои съавторства, е вероятно развитието на KА и К.С метриките бяха едновременни, ако не и съвместни.


Биология, организация на генома и еволюция на парвовирусите в морските скариди

Арун К. Дхар,. Дилип К. Лакшман, в „Напредък в изследванията на вирусите“, 2014 г.

4.2.2 Положителна селекция

Съотношението на несинонимно заместване (замени, променящи аминокиселините) и синонимно заместване (замествания, които не променят аминокиселини) (d нС) е широко използван като индикатор за селекционното налягане. Както при рекомбинацията, този механизъм не е разгледан широко в IHHNV. Въпреки това, сигнали за положителна селекция бяха открити в няколко линии на IHHNV, в които скоростта на аминокиселинните замествания надвишава тези на синонимните замествания в сравнение с неутралните очаквания за генетичен дрейф и мутация (Roles-Sikisaka et al., 2010). Предполага се, че положителната селекция допринася за по-високото генетично разнообразие, наблюдавано в IHHNV.


Кой е изобретил dN/dS? - Биология

Студентът е част от изследователско сътрудничество между Центъра за изчислителна генетика и геномика (CCGG) и Института за геномика и еволюционна медицина (iGEM).

Съвместните изследователски усилия между две изследователски организации на CST доведоха до публикуването в престижния Известия на Националната академия на науките (PNAS). Документът, озаглавен „Слаб подбор на синонимни кодони, значително увеличава оценките на dN/dS в бактериите“, е автор на Shakibur Rahman, специалност биология, професор Сергей Понд от iGEM и докторант Андрю Уеб и професор Джоди Хей от CCGG.

Рахман, изгряващ старши с непълнолетни по немски език и културология, наскоро сподели своите мисли за изследвания, защо е избрал CST и Temple University и плановете си за бъдещето.

От колко време работите в лабораторията на д -р Хей? Какво ви привлече в работата им?

Работя в лабораторията Hey от около октомври 2018 г., есента на първата ми година. Бях привлечен от тази лаборатория по -специално, защото въпреки че нямах предишен опит с кодирането, това беше умение, върху което определено исках да работя и реших, че като започна в началото на първата година, ще имам много време да се опита да придобие умения с кодирането. Също така смятах, че проектът е интересен.

Можете ли да опишете изследването?

Това изследване е по същество анализ на синонимични замествания, които са промени в кодона, които водят до транслация на същата аминокиселина, и използване на кодон в 13 до известна степен близки видове бактерии.

Взехме съществуващия метод за оценка на силата на естествения подбор върху гените и го модифицирахме, така че да отчита повече фактори и следователно да бъде по -точен. Категоризирахме синонимните замествания като неутрални или избрани по модел на многокласов синонимно заместване, съкратен като MSS, вместо да приемем, че всички синонимни замествания са строго неутрални.

Съотношението на несинонимно към синонимно заместване беше сравнено между MSS модела и стандартния кодонен модел с неутралното предположение. Несинонимното заместване е промяна на кодона, която води до транслация на различна аминокиселина.

Надценяването на съотношението dN/dS е установено при изчисления, използващи стандартния модел на кодон, като MSS моделът е средно 80 % от стандартното съотношение. Установено е, че обяснението за вариацията на отклонението на кодона или избора на синонимни замествания се дължи на много слаба селекция.

Защо този документ е важен?

Има много документи, които използват предположението, че синонимичните замествания в бактериите са неутрални вместо възможните категории неутрални и избрани. Това може да доведе до изчисляване на свръх инфлацията на съотношението dN/dS, което често е мярка за това дали има положителна или отрицателна селекция и силата на селекцията в популация.

Прекалено надутото съотношение dN/dS би довело до надценяване на положителната селекция при даден вид, а също и до подценяване на силата на отрицателната селекция. Намерихме начин да идентифицираме добра контролна група, за която промените в кодона не се влияят от естествения подбор и използвайки тази група, бихме могли да оценим по-добре силата на естествения подбор.

Това ли е първата ви публикация? Какво е чувството да си първи автор?

Това е първата ми публикация и първият ми истински опит с изследванията като цяло. Чувства се донякъде сюрреалистично и много възнаграждаващо да бъдеш първи автор, въпреки че проектът определено беше групово усилие.

Как намерихте пътя си към Храм? Какво те накара да искаш да дойдеш в CST?

Дойдох в Храма по няколко причини. Старият ми брат беше първокурсник в Темпъл, когато кандидатствах, а университетът е достатъчно близо до дома, където все още можех да видя семейство, но достатъчно далеч, за да узря далеч от тях. Това също беше достъпен вариант и имаше специалност и второстепенно, които исках да преследвам.

Дойдох в CST, защото също много се интересувах от биология и много класове също се припокриват с изискванията за предварително лечение. Също така оцених акцента на Темпъл върху изследванията.

Какви са вашите кариерни цели?

Кандидатствам за приемния цикъл за медицинско училище през 2022 г. с крайната надежда да стана кардиоторакален хирург. Надявам се също да продължа с някои изследвания в медицинско училище и докато съм хирург, ако това се случи.


Розалинд Франклин

Нашите редактори ще прегледат изпратеното от вас и ще решат дали да преразгледат статията.

Розалинд Франклин, изцяло Розалинда Елси Франклин, (роден на 25 юли 1920 г., Лондон, Англия - починал на 16 април 1958 г., Лондон), британски учен, най-известен с приноса си към откриването на молекулярната структура на дезоксирибонуклеинова киселина (ДНК), съставна част на хромозомите, която служи за кодиране генетична информация. Франклин също допринесе за нов поглед върху структурата на вирусите, като помогна да се поставят основите в областта на структурната вирусология.

С какво е най -известна Розалинд Франклин?

Розалинд Франклин откри плътността на ДНК и по -важното установи, че молекулата съществува в спирална конформация. Нейната работа да направи по-ясни рентгенови модели на ДНК молекули положи основата на предположението на Джеймс Уотсън и Франсис Крик, че ДНК е полимер с двойна спирала през 1953 г.

Какви бяха постиженията на Розалинд Франклин?

Розалинд Франклин внесе нов поглед върху структурата на вирусите, като помогна да се поставят основите в областта на структурната вирусология. Нейната работа, изследваща физичната химия на въглерода и въглищата, доведе до нейното изследване на структурните промени, причинени от образуването на графит в нагряти въглероди - което се оказа ценно за коксовата индустрия.

Как умря Розалинд Франклин?

Участието на Розалинд Франклин в авангардни изследвания на ДНК е спряно от нейната преждевременна смърт от рак на 37-годишна възраст през 1958 г. Франклин е диагностицирана с рак на яйчниците през 1956 г. Тя продължава изследванията си през целия си режим на лечение, но тя почина в Лондон на 16 април , 1958 г.

Франклин посещава момичешкото училище на Сейнт Пол, преди да изучава физическа химия в Newnham College, Университета в Кеймбридж. След като завършва през 1941 г., тя получава стипендия за провеждане на изследвания по физическа химия в Кеймбридж. Напредъкът на Втората световна война промени хода й на действие: тя не само служи като лондонски надзирател, но през 1942 г. се отказа от стипендията си, за да работи за Британската асоциация за изследване на използването на въглища, където изследва физическата химия на въглерод и въглища за военните усилия. Въпреки това тя успя да използва това изследване за своята докторска дисертация и през 1945 г. получи докторска степен от Кеймбридж. От 1947 до 1950 г. тя работи с Жак Меринг в Държавната химическа лаборатория в Париж, изучавайки технологията за дифракция на рентгенови лъчи. Тази работа доведе до нейното изследване на структурните промени, причинени от образуването на графит в нагряти въглероди - работа, която се оказа ценна за коксовата индустрия.

През 1951 г. Франклин се присъединява към Биофизичната лаборатория в King’s College, Лондон, като научен сътрудник. Там тя прилага рентгенови дифракционни методи за изследване на ДНК. Когато тя започна изследванията си в King’s College, много малко се знаеше за химичния състав или структурата на ДНК. Скоро обаче тя открила плътността на ДНК и по -важното установила, че молекулата съществува в спирална конформация. Нейната работа да направи по-ясни рентгенови модели на ДНК молекули положи основата за Джеймс Уотсън и Франсис Крик да предположат през 1953 г., че структурата на ДНК е полимер с двойна спирала, спирала, състояща се от две ДНК вериги, увити една около друга.

От 1953 до 1958 г. Франклин работи в кристалографската лаборатория в Birkbeck College, Лондон. Докато е там, тя завършва работата си върху въглища и ДНК и започва проект за молекулярната структура на вируса на тютюневата мозайка. Тя сътрудничи на проучвания, показващи, че рибонуклеиновата киселина (РНК) в този вирус е вградена в неговия протеин, а не в централната му кухина и че тази РНК е едноверижна спирала, а не двойната спирала, открита в ДНК на бактериалните вируси и висши организми. Участието на Франклин в авангардни ДНК изследвания беше спряно от преждевременната й смърт от рак през 1958 г.


Дискусия

Няколко предишни проучвания са използвали генни мрежи за идентифициране на гени, чиято съвместна експресия има специфични за човека характеристики [8, 12, 18], като обикновено се фокусира върху единичен или малък брой области на мозъка поради наличието на данни. Тук извършваме първото цялостно многорегионално, многовидово сравнение на еволюционната дивергенция на мрежите за съвместна експресия, генерирани от човешкия мозък, получени от над 100 индивида [23]. Запазването на съвместната експресия е тествано в над 15 000 проби от 116 проучвания, получени от хора, NHP и мишки (Допълнителен файл 3: Таблица S2). Сравнението на транскриптомичното запазване както в целия мозък, така и в регион по регион, позволи идентифицирането на биологични процеси и гени, които са се разминали в отношенията си на съвместна експресия през еволюционното време. Запазването на повечето миши модули при хората и много човешки модули в мишката като цяло предполага основно ниво на структура на съвместна експресия, споделена между човек и мишка, което е в съответствие с очакванията и предишни проучвания [8, 38, 66, 67]. Въпреки това, силното отклонение на няколко специфични човешки модула от мишката поддържа придобиването на транскриптомна сложност на човешката линия, която не се споделя в мишката. Освен това, модулната дивергенция е значително свързана с независими мерки за селекция, включително дивергенция на регулаторно и протеиново кодиращо ограничение, което показва, че улавя еволюционно релевантни характеристики на геномна последователност.

По-силното разминаване на човешки модули към мишка, отколкото модули на мишка към човек, е в основата на нашето наблюдение на „асиметрична дивергенция“ в отношенията на съвместна експресия. На ниво клетъчен тип тази асиметрична дивергенция е най-голяма за микроглиалните модули, докато на регионално ниво тази дивергенция е най-голяма в мозъчната кора, наблюдение, което е в съответствие с известните еволюционни йерархии [12, 18]. Ние използваме тази здраво дефинирана мрежова структура, за да идентифицираме редица свързани с болестта гени, включително PSEN-1, за който по-рано беше показано, че е различен въз основа на независим анализ на данни от микрочипове [8]. В съчетание с настоящия анализ, това силно предполага, че миши модели на PSEN-1 няма да моделират човешки процеси с висока точност, особено мишките, съдържащи доминантни силно PS-1 мутации, не показват откровена невродегенерация или модел на човешка AD [68]. Други болестни гени, които показват липса на запазване на човешките отношения на ко-експресия при мишки, включват десетки известни гени за риск от ASD, включително SCN2A и SHANK3. Дивергентните гени са склонни да се експресират на по-високи нива при хора в сравнение с мишката. Забелязваме, че това не се дължи в общи линии на промени в състава на клетъчния тип, а по-скоро отразява клетъчните регулаторни ефекти.

Оценка на еволюционната дивергенция с помощта на мрежи за съвместно изразяване

В нашия анализ ние използваме модулна дивергенция (съотношение на два вида Zsum оценки) като прокси за еволюционна дивергенция. Тази метрика ни позволява да преодолеем ефекта от размера на модула върху запазването (Допълнителен файл 1: Фиг. S1D) и предоставя по-количествена основа за сравняване на дивергенцията на транскриптомите между различните процеси. Оценяването на съхранението на модула при нечовекоподобни примати (NHP) позволява прогнозиране дали транскрипционните разлики между хора и мишки са възникнали преди LCA с NHP, или отразяват разликите, настъпили след LCA с NHP и следователно са по-специфични за човека [69, 70]. Ние идентифицираме 13 модула, където резултатите от запазването на NHP са значително по -близки до мишките, отколкото хората, което предполага по -голямо разминаване по отношение на човешкия род, а не на приматите. Следователно тези модули могат да допринесат за диференциацията между човешки и NHP мозък. В бъдеще, когато се генерират допълнителни набори от данни за изрази от различни NHP, човек трябва да може да създава NHP подгрупи и допълнително да прецизира кога са придобити тези разлики в изразите.

Традиционните филогенетични методи използват средна генна експресия, получена от всички видове интереси, и използват дистанционно базирани методи за конструиране на еволюционно дърво [71, 72]. Тези методи оценяват сходството на генната експресия между видовете и изграждат филогения, за да сведат до минимум различията в експресията според тяхното разстояние в йерархията. Оценяването на запазването на съвместната експресия при различни видове ни позволява изрично да оценим еволюционната дивергенция на различни биологични процеси и кога на филогенетичната линия са придобити транскриптомни различия. Подходите за съвместна експресия оценяват връзката на всеки ген с собствен модул, генериран в определен вид. Следователно би било проблематично да се приложи подход, базиран на разстояние между NHP и мишката, когато се използват стойности, получени от a човек мрежа за съвместно изразяване.

Чрез изграждане на мрежи във всеки вид и регион поотделно, можем да дефинираме биологичните процеси и клетъчни типове за всеки вид независимо. Други проучвания са комбинирали набори от данни за експресия от различни видове или региони в цялостна експресионна матрица, преди да се изгради мрежа за съвместна експресия [12, 16]. Тези проучвания могат да подчертаят специфичните за видовете процеси, тъй като модулите за съвместна експресия се ръководят до голяма степен от гени, които показват различна експресия между видовете. Но тези подходи не поставят под въпрос разликите между видовете в съвместната експресия, които може да не са свързани с диференциалната експресия и следователно са допълващи подхода, възприет в нашето изследване.

Изграждането на регионални мрежи дава модули, свързани с различни типове клетки в различните региони, което позволява анализ на запазването при ко-експресия между различни видове в клетъчни подтипове. Едноклетъчното секвениране е позволило откриването на множество клетъчни класове както при хора, така и при мишки, което позволява идентифициране на разликите между видовете на ниво клетъчен тип. Докато съвпадението на клетъчния тип между видовете позволява идентифициране на различно експресирани гени между видовете [7], самите нива на експресия могат да се подчиняват на до голяма степен неутрален модел [17]. Тъй като ко-експресията отразява функционални механизми като съвместно регулиране, промените в позицията на мрежата отразяват промените във функцията [18, 21]. В тази връзка ние наблюдаваме, че регулираните от човека гени са склонни да показват по-силна kME дивергенция, в съответствие с потенциалната адаптивна еволюция. Все пак значителна част (73%) от kME дивергентни гени показват сходни или намалени нива на експресия при хора (Допълнителен файл 1: Фиг. S4E), последното от които може да се тълкува като по -съвместимо с модел на неутрална еволюция [17] . Например, астроцитният ген, PARD3B, показва стабилни нива на експресия на междувидове (& lt 0.5 logFC) както в масивни, така и в едноклетъчни експресионни данни, но показва силно разминаване между хора и мишки на ниво ко-експресия (kME div = 0.51 стр < 0,01), което показва функционална промяна. От друга страна, IL17D показва значително по-висока експресия (> 2 logFC) в човешки обем и едноклетъчни данни, но не е значително разминаващ се за ко-експресия, в съответствие с неутрален модел. Диференциалната експресия е била успешна при идентифициране на различията в генната експресия между клетъчните типове или мозъчните региони, но се предполага, че запазването на генната ко-експресия е по-успешно при рекапитулиране на еволюционните йерархии [18, 70] и следователно може да бъде по-подходящо за оценка на функционалните различия между видовете.

Едноклетъчното секвениране може да не открие гени с ниски нива на експресия, които обикновено се намират в периферията на модулите за коекспресия от клетъчен тип (Допълнителен файл 1: Фиг. S5A-B). Тъй като гените по периферията на модулите от клетъчен тип показват най-голямото разминаване на ко-експресията (Допълнителен файл 1: Фиг. S5C-D), докато не може да се осигури по-голяма дълбочина, анализът на съвместната експресия на секвенирането на насипна тъкан ще остане важен за идентифициране на еволюционни разлики, тъй като анализът на съвместната експресия на данни за групова експресия улавя гени в по-широк диапазон на експресия и позиция в мрежата, а не само в най-централната [73].

Важно скорошно проучване използва анализ на съвместната експресия за идентифициране на маркери за „висока точност“ за широки клетъчни класове в редица области на мозъка както при хора, така и при мишки [19]. Въпреки че нашите идентифицирани гени на човек-мишка се припокриват силно със специфични за видовете маркери за „висока вярност“ [19], нашето проучване подходи по този въпрос към дивергенцията по различен начин, започвайки с набор от данни за откриване и впоследствие оценявайки съвместната експресия в независими тестови масиви от данни различни видове. Разликите в съхранението между изследванията могат да се дължат на технически различия, като например метод за извличане на РНК и платформа за секвениране, или биологични различия като възраст на субекта и условия на настаняване. Идентифицирането на еволюционни разлики, които не са свързани с тези различия в изследването, следователно ще увеличи сигнала, свързан с истинските еволюционни различия между видовете. Започнахме ефекта от изследването, за да създадем интервали на доверие около всички резултати за дивергенция на модули и гени, което ни позволи да оценим потенциалното въздействие на тези технически и биологични ефекти на „проучване“.

Моделиране на мозъчната функция и заболяване при мишки

Като се има предвид повсеместната природа на мишката в биомедицинските изследвания за моделиране на неврологични заболявания [2], важно е да се разберат специфичните за видовете различия. Наблюдаваме, че човешките глии са много различни от мишки, което предполага, че може да е трудно да се направят екстраполации на тези типове клетки при хора, особено когато се разглежда транскриптома. Например, много транскриптомични смущения при невропсихиатрични заболявания (Фиг. 6d [44, 74]) са свързани с имунно-глиална активация, отговор, който вероятно е симптоматичен за нарушаване на невроналната регулация. Следователно първоначалните невробиологични причини за тези заболявания могат да бъдат рекапитулирани в миши модели, но техните транскрипционни резултати надолу по веригата могат да се различават.

Чрез изчисляване на дивергенцията на ниво ген, ние подчертаваме гени, които могат да управляват дивергенцията на клетъчните типове и други биологични процеси при човека. Например, ACBD7 и CYBRD1, и двата в астроцитния модул WB.M6, бяха подчертани в скорошна статия като специфични за човека астроцитни маркери [19], което ние потвърждаваме в нашия анализ (kMEdiv ≥ 0,4 стр & lt 0,01). Kelley et al. също така показа, че PMP2, друг предварително идентифициран за човека ген на астроцитите, когато е регулиран нагоре в миши астроцити, е в състояние да увеличи броя на първичните процеси и размера на миши астроцити [19], което е добре известно разграничение между човешки и миши [ 6]. В нашия набор от данни, от всички гени, PMP2 показва най-голямата промяна в експресията между човек и мишка и показва силна дивергенция на ко-експресията в CTX (kMEdiv = 0,54 стр & lt 0,01). Както се поддържа от едноклетъчни данни, PMP2 се свързва както с астроцити (WB.M6 средно kME = 0,48), така и с олигодендроцити (WB.M7, средно kME = 0,29), което може да е предотвратило присвояването на модула в други региони [7]. В допълнение към тези конкретни гени, ние идентифицираме стотици значително различаващи се гени за астроцити и други типове клетки, за които функционалните експерименти могат да изяснят ефекта на гените върху превръщането на съответния им клетъчен тип в мишка по -„човешки“ (Допълнителен файл 4: Таблица S3) . Например, тъй като функционалният ефект на регулирането на PMP2 е сравнително скромен [19], ние прогнозираме, че регулирането на допълнителните гени може да позволи на човешките и миши типове клетки да станат все по -сравними.

Оценката на 100-те най-добри генни двойки от всеки консенсусен модул на „целия мозък“ може да подчертае нови специфични за човека функции за всеки тип клетка (Допълнителен файл 7: Таблица S6). Специфичните за човека асоциации на глутаматни транспортери SLC1A3 и SLC1A2 (EAAT1/EAAT2) в астроцитния модул WB.M6 предполагат човек астроцитите имат повишена способност да доставят глутамат на съседни неврони. Многобройни много различни гени на олигодендроцитния модул WB.M7 (например PSEN-1, HSPA2) са свързани с болестта на Алцхаймер (AD) [40, 75]. Освен това, силното разминаване на генните двойки WB.M7, участващи в метаболизма на карнозин (CARNS1, CNDP1) и мед (SLC31A2), предполага специфична за човека роля за металната хомеостаза в олигодендроцитите. Освен това, гена за риска от AD AD TREM2 [76] се намира сред силно различаващите се микроглиални гени WB.M10. Каскадните гени на комплемента C1QA-C, C3 и C3AR1 също образуват много от силно различаващите се генни двойки в рамките на микроглиалния модул WB.M10, което предполага специфична за човека роля за комплементарно-медиираното синаптично подрязване в микроглия, което може да има последици и за двете Патофизиология на болестта на AD и ASD [77, 78].

Ние идентифицираме десетки гени, свързани понастоящем с риск от невродегенеративни и невроразвитие, чиято съвместна експресия е значително различна от мишката (Допълнителен файл 9: Таблица S8). Забележително е, че алфа-синуклеинът (SNCA), ген за риск от PD, показва дивергенция предимно в substantia nigra-първият регион, който показва дегенерация при пациенти с PD [79]. Presenilin-1 (PSEN-1), ген за риск от AD, показва дивергенция към мишка в множество мозъчни региони, но е запазен в NHP. PAX6 и ERLIN2, в модула на астроцитите WB.M6, са замесени в интелектуални увреждания и показват ко-експресионна дивергенция във всички области на мозъчната кора. SHANK3 е сред 57 други гени за риск от ASD („Методи и материали” [46,47,48]), показващи значителна дивергенция на kME в поне една област на мозъка и предоставяме пълен списък в Таблица S8. По-специално, нашите данни предоставят убедителни доказателства, че някои от основните биологични пътища, в които участва SHANK3, също са различни, което предполага, че моделирането в системи на примати или хора in vitro вероятно ще рекапитулира по-вярно патофизиологията на заболяването. Заедно тези открития демонстрират редица гени, които допринасят за човешкото заболяване, но чиято функция е малко вероятно да бъде вярно рекапитулирана при мишка.

In vitro модели на човешки мозък и клетъчни типове

Последните постижения в ин витро моделирането на човешкия мозък предлагат потенциал за моделиране на функцията на човешкия мозък в чиния [50,51,52,53]. Кортичните органоиди вярно рекапитулират астроцитни, активирани глиални и повечето невронални in vivo сигнали за съвместна експресия. Въпреки че олигодендроцитните и хомеостатичните микроглиални сигнатури не са уловени, бъдещите анализи трябва да се опитат да включат тези типове клетки по подходящ начин [60, 80]. Понастоящем, като се има предвид, че застаряващият мозък на мишка най-успешно рекапитулира микроглиалния ко-експресионен подпис, някои свързани с микроглията процеси могат да бъдат по-подходящи за изследване при стареещи мишки. Но след като микроглията е вярно включена в 3D органоидни модели, тяхното запазване трябва да бъде внимателно тествано [80, 81]. Най -забележителното предимство на кортикалните органоиди в сравнение с мишките е вярна рекапитулация на човешки астроцити, които изглежда моделират човешки астроцити подобно на NHP in vivo. Например, ARHGEF6, член на астроцитния модул WB.M6, е свързан с X-свързана умствена изостаналост и е значително по-запазен в органоидите от мишката, което прави органоидите предпочитан модел за изследване на механизмите, които стоят в основата на ролята на този ген в болестта.

Интересно е, че астроцитните (и олигодендроцитните) маркери, получени от експерименти за сортиране [30], не показват силна дивергенция в ко-експресията от човек към мишка (Допълнителен файл 1: Фиг. S2D). Тези клетъчни типове са сортирани на базата на HepaCam и GalC маркери съответно и следователно може да не са уловили всички глиални подпопулации, някои от които може би представляват по-силно различни, специфични за човека аспекти на глиалната биология. Като алтернатива, имунопанингът и култивирането на човешки астроцити могат да ги отстранят от тяхното физиологично оптимално състояние в 3D среда и да ги накарат да загубят своите специфични за човека свойства, както транскрипционно, така и функционално. Интересното е, че мишките с присадени в мозъка човешки глиални предшественици и астроцити показват повишаване както на пластичността, така и на ученето, зависими от активността [82]. Така че, въпреки че физиологичната среда може да бъде важна за астроцитите да проявяват своите специфични за човека компоненти, тази среда може да бъде донякъде споделена между човешкия мозък, кортикалните органоиди и мозъка на мишки.

Ограничения и по -нататъшна работа

Това проучване подчертава редица транскриптомни разлики между видовете, особено за видовете глиални клетки. Повечето идентифицирани разлики вероятно се дължат на еволюционни различия между видовете, но не можем да изключим ефекта на външни объркващи фактори като среда, диета или агонално състояние. Например, като се имат предвид стерилните условия на отглеждане на мишки, ние предполагаме, че имунологичните различия при хората могат да се дължат на нестерилни условия. Не можем да изключим известен принос на различията в околната среда за разминаването на този активиран глиален подпис. Но е важно да се отбележи, че независимо от причината, това клетъчно състояние не се улавя в мишката. Омекотявайки срещу голям или повсеместен принос на въздействията върху околната среда към тези различия, ние откриваме, че ко-експресионната дивергенция е силно свързана с дивергенцията на последователността, което би предизвикало диференциалното регулиране на генната експресия [38, 83]. Освен това, ние наблюдавахме, че този активиран микроглиален подпис не е специфичен за хората, но също така се наблюдава в NHP, настанен в лабораторни условия.

Ние също така се фокусирахме върху ортологичните взаимоотношения един към един, които представляват над 90% от генно-човешките взаимоотношения човек-мишка. Този акцент върху ортолозите един към един значително опрости интерпретацията на запазването на съвместната експресия между видовете. Макар и относително малък брой, гените с различни ортолози в един или друг вид са по -склонни да се разминават, което показва, че нашият анализ може да подценява степента на транскриптомична дивергенция между видовете [84]. Бъдещата работа може да оцени доколко отделните ортолози се вписват в рамките на съвместно изразяване, дефинирана тук [85].

Освен това, за да се оцени запазването на модула, ние използваме комбинацията от много набори от данни за експресионни данни, които не са анализирани еднакво във всички области на мозъка в това проучване. Следователно, запазването на модула на всеки мозъчен регион може да използва различна комбинация от тестови набори от данни, които могат да се различават в зависимост от подготовката на пробата, времевата точка на развитие или състоянието на околната среда. За да оценим ефекта от подбора на изследване върху регионалната дивергенция, ние регресирахме всички „специфични за изследването“ ефекти върху дивергенцията на модула и наблюдаваме, че регионалната дивергенция след регресията на изследването е свързана с необработените резултати за регионална дивергенция (Допълнителен файл 1: Фиг. S1E). Това предполага, че неравномерното разпределение на наборите от данни за експресионни данни в регионите на мозъка не отклонява оценките за регионално запазване, въпреки че все още може да има малка разлика между мозъчната област и факторите, които са в основата на дизайна на изследването. Ние извършваме пермутации на ниво проучване, за да изчислим различията в различията в региона, за да отчетем допълнително променливостта в избора на изследване, за да смекчим този проблем.

Това проучване предоставя многорегионално, многовидово сравнение на еволюционното разминаване на транскриптомични мрежи, генерирани от мозъка на възрастен човек. Въпреки това, мозъкът съществува и при редица различни състояния на развитие или условия на околната среда, които ще трябва да бъдат допълнително изследвани, за да се постигне по-пълно разбиране на различията между видовете. Тези анализи обаче, базирани на десетки набори от данни и множество мозъчни области, осигуряват стабилна рамка за разбиране на основните видове различия.


Примерни наблюдавани мутации

номер (i)СправкаПробанесинонимен (nd)Синоним (sd)
1ATGATG00
2AAAAAA00
3CCCCGC10
4GGGGGC01
5TTTОДУ11
6TAATAA00
Обща сума 2 (Nd)2 (Sd)

В горното има три кодона, които имат мутации:

Кодон 3: CCC (pro) -> CGC (arg): Това има единична нуклеотидна мутация (разстояние = 1), което води до несинонимно заместване на АА и следователно нд = 1 и сд = 0 за този кодон.

Codon 4: GGG (gly) -> GGC (gly): This has a single nucleotide mutation (distance = 1) resulting in a synonymous AA substitution, and therefore нд = 0 and сд = 1 for this codon.

Codon 5: TTT (phe) -> TAC (tyr): This has two nucleotide mutations (distance = 2) and is a nonsynonymous AA substitution. However, due to the double mutation it is a more complex situation, as one must consider the two mutation pathways that could have led to this state (you can not assume that as the AA is nonsynonymous then both mutations are nonsynonymous):

  1. TTT (phe) –> TAT (tyr) -> TAC (tyr): 1 nonsynonymous and 1 synonymous mutation
  2. TTT (phe) –> TTC (phe) -> TAC (tyr): 1 synonymous and 1 nonsynonymous mutation
  • As we consider the two above pathways to occur with equal probability, for this codon нд = 1 and сд = 1 (sums to two as we have two mutations in the codon).

Hypothetically, let us expand the example above to a three mutation (distance = 3) situation from TTT (phe) to GAC (asp). A three mutation situation results in 6 possible mutation pathways:

  1. TTT (phe) -> TTC (phe) -> TAC (tyr) -> GAC (asp): 2н и 1с
  2. TTT (phe) -> TTC (phe) -> GTC (val) -> GAC (asp): 2н и 1с
  3. TTT (phe) -> TAT (tyr) -> TAC (val) -> GAC (asp): 3н
  4. TTT (phe) -> TAT (tyr) -> GAT (val) -> GAC (asp): 3н
  5. TTT (phe) -> GTT (val) -> GTC (val) -> GAC (asp): 2н и 1с
  6. TTT (phe) -> GTT (val) -> GAT (val) -> GAC (asp): 2н и 1с
  • As we consider the six above pathways to occur with equal probability, for this codon нд = 2.333 and сд = 0.666 (sums to three as we have three mutations in the codon).

So, for a protein encoding DNA sequence of length r codons, the total number of observed nonsynonymous (нд) and synonymous (Сд) mutations between two sequences can therefore be calculated by summing up the individual нд и сд values from all codons using the formulas:

One then calculates the proportion of nonsynonymous (стрн) and synonymous (стрс) differences with the following equations:

Then to estimate the number of nonsynonymous substitutions (дн) and synonymous substitutions (дС) per site, and the dN/dS ratio itself, we use the formulas:

So using our reference and sample sequence examples above we now have the following values:

  • н = 14.666
  • С = 3.333
  • нд = 2
  • Сд = 2
  • стрн = 0.1364
  • стрС = 0.6001
  • дн = 0.1505
  • дС = 1.2074
  • dN/dS = 0.1247

NGS Datasets

The expansion of all of the above to NGS datasets is relatively straightforward. The calculation of the number of nonsynonymous and synonymous sites in the reference sequences proceeds the same as above.

One must then calculate the number of observed nonsynonymous and synonymous mutations in the reads when compared to the reference (this will need information on where the open reading frame [ORF] starts and stops). There are two options when calculating the observed numbers:

  1. Consider all observed mutations in the reads covering any part of the codon.
  2. Consider only those mutations where the read fully covers the codon the mutation occurs in, i.e. ignore partially covered codons at the read ends, or partially covered codons due to indels.

To adapt to NGS datasets, one must consider read coverage. The approach taken by Morelli et al (2013) adjusts the formula for стрн (and likewise стрС) as follows to take into account the read coverage (° С) at each codon:

Essentially, for each read (c) that covers a particular codon, the observed number of nonsynonymous mutations in the read compared to the reference codon is calculated, and divided by the expected number. The values for all reads at the codon are then summed and averaged. Then the value for all codons is summed to give a single value for the whole ORF. This value of стрн и стрС can they be plugged in to the same dN и dS formulas to calculate the dN/dS ratio.


Заден план

Flies in the genus Glossina (tsetse flies) are vectors of African trypanosomes, which are of great medical and economic importance in Africa. Sleeping sickness (human African trypanosomiasis or HAT) is caused by two distinct subspecies of the African trypanosomes transmitted by tsetse. In East and Southern Africa, Trypanosoma brucei rhodesiense causes the acute Rhodesiense form of the disease, while in Central and West Africa T. б. gambiense causes the chronic Gambiense form of the disease, which comprises about 95% of all reported HAT cases. Devastating epidemics in the twentieth century resulted in hundreds of thousands of deaths in sub-Saharan Africa [1], but more effective diagnostics now indicate that data concerning sleeping sickness deaths are subject to gross errors due to underreporting [2]. With hindsight, it is thus reasonable to infer that in reality, millions may have died from sleeping sickness since the implementation of trypanosomiasis surveillance and record-keeping by African colonial powers at the beginning of the twentieth century. Loss of interest and funding for control programs within the endemic countries resulted in a steep rise in incidence after the post-independence period of the 1960s. In an ambitious campaign to control the transmission of trypanosomiasis in Africa, multiple groups came together in a public/private partnership. These include the WHO, multiple non-governmental organizations, Sanofi Aventis, and Bayer. The public sector groups developed and implemented multi-country control strategies, and the companies donated the drugs required for the treatment of the disease. The campaign reduced the global incidence of Gambiense HAT to < 3000 cases in 2015 [3]. Based on the success of the control campaign, there are now plans to eliminate Gambiense HAT as a public health problem by 2030 [4]. In contrast, control of Rhodesiense HAT has been more complex as disease transmission involves domestic animals, which serve as reservoirs for the parasite. Hence, the elimination of the Rhodesiense disease will require treatment or elimination of domestic reservoirs and/or reduction of tsetse vector populations. These strategies play a key part while medical interventions are used largely for humanitarian purposes. In addition to the public health impact of HAT, animal African trypanosomiasis (AAT or nagana) limits the availability of meat and milk products in large regions of Africa. It also excludes effective cattle rearing from ten million square kilometers of Africa [5] with wide implications for land use, i.e., constraints on mixed agriculture and lack of animal labor for plowing [6]. Economic losses in cattle production are estimated at 1–1.2 billion US dollars, and total agricultural losses caused by AAT are estimated at 4.75 billion US dollars per year [7, 8].

Achieving disease control in the mammalian host has been difficult given the lack of vaccines. This is due to the process of antigenic variation the parasite displays in its host. Hence, accurate diagnosis of the parasite and staging of the disease are important. This is of particular importance due to the high toxicity of current drugs available for the treatment of late-stage disease although the introduction of a simpler and shorter nifurtimox and eflornithine combination therapy (NECT) [9] and discovery of new oral drugs, such as fexinidazole [10] and acoziborole, are exciting developments. Although powerful molecular diagnostics have been developed in research settings, few have yet to reach the patients or national control programs [11]. Further complicating control efforts, trypanosomes are showing resistance to available drugs for treatment [12, 13]. While vector control is essential for zoonotic Rhodesiense HAT, it has not played a major role in Gambiense HAT as it was considered too expensive and difficult to deploy in the resource-poor settings of HAT foci. However, modeling, historical investigations, and practical interventions demonstrate the significant role that vector control can play in the control of Gambiense HAT [14,15,16], especially given the possibility of long-term carriage of trypanosomes in both human and animal reservoirs [17, 18]. The African Union has made removal of trypanosomiasis via tsetse fly control a key priority for the continent [19].

В рамките на Glossinidae, 33 extant taxa are described from 22 species in 4 subgenera. The first three sub-genera Austenina Townsend, Nemorhina Robineau-Desvoidy, and Glossina Wiedemann correspond to the Fusca, Palpalis, и Morsitans species groups, respectively [20]. The fourth subgenus Machadomia was established in 1987 to incorporate G. austeni. The relationship of G. austeni Newstead with respect to the Palpalis и Morsitans complex flies remains controversial [21]. While molecular taxonomy shows that Palpalis и Morsitans species groups are monophyletic, the Fusca species group emerges as a sister group to all remaining Glossinidae [22]. Morsitans group taxa are adapted to drier habitats relative to the other two subgenera [23]. Palpalis group flies tend to occur in riverine and lacustrine habitats. Fusca group flies largely inhabit moist forests of West Africa. The host specificity of the different species groups vary, with the Palpalis group flies displaying strong anthropophily while the others are more zoophilic in preference. The principal vectors of HAT include G. palpalis s.l., G. fuscipes, и G. m. morsitans s.l. The riverine habitats of Palpalis group flies and their adaptability to peridomestic environments along with human blood meal preferences make them excellent vectors for HAT. Other species belonging to the Morsitans group (such as G. pallidipes) can also transmit human disease, but principally play an important role in AAT transmission. В частност, G. pallidipes has a wide distribution and a devastating effect in East Africa. Also, of interest is G. brevipalpis, an ancestral tsetse species within the Fusca species complex. This species exhibits poor vectorial capacity with T. brucei свързано с G. m. morsitans in laboratory infection experiments using colonized fly lines [24]. Comparison of the susceptibility of G. brevipalpis да се Trypanosoma congolense (a species that acts as a major causative agent of AAT) also showed it has a much lower rate of infection relative to Glossina austeni [25].

To expand the genetic/genomic knowledge and develop new and/or improved vector control tools, a consortium in 2004, the International Glossina Genome Initiative (IGGI), was established to generate genetic and molecular resources for the tsetse research community [26]. The first tsetse fly genome from the Glossina m. morsitans species was published in 2014 [27]. However, questions regarding the genetics underlying tsetse species-specific traits, such as host preference and vector competence, required additional context. As such, we have assembled genomes from four species representing the three major Glossina sub-genera: Morsitans (G. m. morsitans, G. pallidipes), Palpalis (G. palpalis, G. fuscipes), и Fusca (G. brevipalpis) as well as one species with conflicted phylogenetic associations Morsitans/Machadomia (G. austeni). These species represent flies with differences in geographical localization, ecological preferences, host specificity, and vectorial capacity (Fig. 1). Here, we report on the evolution and genetics underlying this genus by comparison of their genomic architecture and predicted protein-coding sequences as well as highlighting some of the genetic differences that hold clues to the differing biology between these species.

Geographic distribution, ecology, and vectorial capacity of sequenced Glossina видове. Visual representation of the geographic distribution of the sequenced Glossina species across the African continent. Ecological preferences and vectorial capacities are described for each associated group


As a boy, Francis Crick had a keen interest in physics, chemistry, and mathematics. Before World War II, he studied physics at University College in London. For two years after the war he was admitted to the British Admiralty Research Laboratory. He was influenced by the works of Erwin Schrödinger to alter his professional career from physics to biology.

After working at a Cambridge University laboratory he joined Cavendish Laboratory at Cambridge in 1949. The scope of his learning included biology, organic chemistry, protein structure and x-ray diffraction technology. In 1951, he was joined by James Watson. Both of them worked closely and presented their visual model of DNA in 1953. They shared Nobel Prize in 1962. He continued his professional career in various institutions and authored couple of books in later years.


Who invented dN/dS? - Биология

OLGenie is a Perl program for estimating дн/дС to detect selection and function in overlapping genes (OLGs). It relies on no external dependencies, facilitating maximum portability. Just download and run.

To test the software with the example data, execute the program at the Unix command line or Mac Terminal as follows:

Find some real examples below. For more details, check out our Advance Access paper в Молекулярна биология и еволюция.

Given the codon triplet and antiparallel nature of the genetic code, a single segment of double-stranded nucleic acid has the potential to encode six reading frames: three in the forward (sense) direction and three in the reverse (antisense) direction. This allows for the possibility that two or more genes may overlap the same nucleotide positions in a genome. Indeed, a substantial fraction of genes in taxa ranging from viruses to humans may encode overlapping gene (OLG) pairs, running in either the same (ss sense-sense) or opposite (sas sense-antisense) directions (напр., see Pavesi et al. 2018 and Sabath 2009). We use the nomenclature of Wei and Zhang (2015), referring to these overlapping frames as ss12, ss13, sas11, sas12, or sas13, where the first number refers to the codon position in a reference gene, and the second number refers to the codon position in an alternate (overlapping) gene:

The choice of which gene to consider the reference gene is arbitrary. Обикновено, на reference gene (mother/ORF1 gene) is the gene whose functional status is known, while the functionality of the alternate gene (daughter/ORF2 gene) may be in question. Thus, in practice, the reference gene is usually larger than the alternate gene, and the alternate gene is either partially or fully embedded within the reference. For example, in sas12, genes overlap in a sense-antisense relationship such that position 1 of codons in the sense (reference) gene correspond to position 2 of codons in the reverse strand (alternate) gene. In other words, the sense gene's first codon position overlaps the antisense gene's second codon position:

It is common to detect natural selection in a DNA sequence alignment using дн/дС, т.е., the ratio of nonsynonymous (changes the amino acid) to synonymous (does not change the amino acid) differences per site. Докато дн/дС = 1 implies neutrality (т.е., the null hypothesis of no effect), negative (purifying) selection may lead to дн/дС < 1 and positive (Darwinian) selection may lay to дн/дС > 1. Thus, дн/дС can be used to detect functional protein-coding genes. Unfortunately, standard methods for estimating дн/дС do not apply to OLGs, because a mutation that is synonymous in one frame may be nonsynonymous in another, and обратно. Although some methods for detecting natural selection in OLGs have been developed, they are generally computationally intensive and limited in utility (напр., Wei and Zhang 2015 Sabath et al. 2008 г.). Thus, it is necessary to develop improved approaches for detecting selection in OLGs that can be implemented with genome-scale data.

OLGenie represents a simplification and extension of the method of Wei and Zhang (2015), utilizing the approach of SNPGenie (Nelson et al. 2015), and tailored for detecting selection in OLGs. The method considers the effects of mutations in the overlapping frame to determine the numerator (number of differences) and denominator (number of sites) of дн и дС. Например, дн is usually calculated as the mean number of nonsynonymous nucleotide differences per nonsynonymous nucleotide site, and дС is similarly calculated for synonymous differences and sites. In order to control for the possibility that synonymous sites in the frame of interest may be under selection in the alternate overlapping reading frame, Wei-Zhang further considers the expanded measures дNN, дSN, дNS, и дSS, where the first subscript refers to the reference gene, and the second to the alternate gene. Например, дSN refers to the mean number of differences per site that are synonymous in the reference frame but nonsynonymous in the alternate frame (т.е., SN). Using these measures, it is possible to estimate дн/дС for the reference gene using дNN/дSN или дNS/дSS, and to estimate дн/дС for the alternate gene as дNN/дNS или дSN/дSS, т.е., the subscript in the alternate OLG is held constant to control for OLG effects.

For more details, please refer to our manuscript.

OLGenie is written in Perl with no dependencies for maximum portability (just download and run). The program examines a user-provided FASTA alignment of one protein-coding gene region from the reference gene point of view. This means that the alignment begins at the first site of a reference gene codon, and ends at the last (third) site of a reference gene codon. In practice, depending on the goal of the user, the alignment may contain a reference gene in which a smaller OLG is embedded just that portion of a reference gene known to contain an OLG a portion of a reference gene thought not to contain an OLG (т.е., a negative control) or a region in which no OLG is known, but one is being sought.

After reading in the user-provided alignment, OLGenie calculates the number of NN, SN, NS, and SS sites and differences, reporting the mean of all pairwise comparisons. This is done separately for each focal reference codon by considering all unique nonamer (9nt) alleles of which the reference codon is the center, and of which 6nt constitute a minimum overlapping unit: one reference gene codon and its two overlapping alternate gene codons. (Note that sas13 is unique in that one reference codon overlaps exactly one alternate codon.) OLGenie is sufficiently fast that these tasks require no parallelism beyond the level of the single gene alignment. Thus, for datasets with many genes, the user can implement their own parallelization by running numerous alignments (genes) simultaneously.

After results are obtained for each focal codon in the alignment, significant deviations from the null expectation of neutrality (дн - дС = 0) may be tested using a Z-test, where the standard error is estimated using bootstrapping (focal codon unit). Don't worry — we provide scripts to do it all!

Повикване OLGenie using the following options:

  • --fasta_file (ЗАДЪЛЖИТЕЛНО): a FASTA file containing multiple aligned sequences of one coding sequence. The entire coding sequence will be analyzed as an OLG, even if only part (or none) of the alignment constitues a true OLG. The frame of the alignment must be the frame of the reference gene (see the --frame option). If the user wishes to align their own sequences, it is recommended to translate the gene sequences, align at the amino acid level, and then impose the amino acid alignment on the DNA alignment to preserve complete codons. (If you need a tool to help with this, see align_codon2aa.pl at Evolutionary Bioinformatics Toolkit.)
  • --frame (ЗАДЪЛЖИТЕЛНО): the frame relationship of the overlapping gene (OLG): ss12, ss13, sas11, sas12, or sas13 (see description above).
  • --output_file (OPTIONAL): name of the TAB-delimited output file to be placed in the working directory unless a full path name is given. If not specified, a file will be printed in the working directory by the name OLGenie_codon_results.txt (DEFAULT).
  • --verbose (OPTIONAL): tell OLGenie to report all unique nonamers (9nt) overlapping each reference codon, along with their counts, in the output file. May lead to large output files in cases with many and/or divergent sequences. If not specified, verbose output will not be reported (DEFAULT).

Example input and output files for OLGenie.pl are available in the EXAMPLE_INPUT and EXAMPLE_OUTPUT directories at this GitHub page, where reproducible examples are numbered (напр., example1.out). This script produces TAB-delimited output with one row for each (non-terminal) codon, with columns as described in the Codon Results Output File section.

Note that, if your input file(s) (напр., alignment.fasta) are not in the working directory (т.е., where your Terminal is currently operating), you will need to specify the full path of the file name (напр., /Users/ohta/Desktop/OLGenie_practice/alignment.fasta). Also note that, in the examples below, a is used simply to continue the previous command on the line.

Note that this is a 'real' example and may take up to 60 seconds!

EXAMPLE 2: VERBOSE OUTPUT TO A USER-SPECIFIED FILE

Remember to replace the --output_file path with a location that exists on your machine.

EXAMPLE 3: TESTING FOR SIGNIFICANCE WITH BOOTSTRAPPING

Use our script OLGenie_bootstrap.R . We provide this script separately so that users can take advantage of the accessible statistical resources offerred by R without having to install Perl modules. Just make sure the R packages readr and boot have been installed (напр., by calling install.packages("readr") and install.packages("boot") at the R console).

Call the script with the following 3-6 (unnamed) arguments (in this order):

  1. CODON RESULTS FILE. The name/path of the file containing the codon results file from the OLGenie analysis. This file must not have been modified, and should only contain the results for one analysis (i.e., one gene product and frame).
  2. MINIMUM NUMBER OF DEFINED CODONS PER CODON POSITION (≥2 ПРЕПОРЪЧВА=6). Alignment positions with very few defined (non-gap, non-ambiguous) codons may be prone to erroreous дн/дС estimates.
  3. NUMBER OF BOOTSTRAP REPLICATES (≥2 ПРЕПОРЪЧВА=10000). The number of bootstrap replicates to perform (typically 1,000 or 10,000).
  4. NUMBER OF CPUS (OPTIONAL ≥1 DEFAULT=1). The number of parallel processes (CPUs) to use when bootstrapping. A typical personal laptop computer can utilize 4-8 CPUs, while a high performance computing cluster might provide access to 10s or 100s.
  5. MULTIPLE HITS CORRECTION (OPTIONAL "NONE" or "JC" DEFAULT=NONE). When the raw стр-distance (mean number of pairwise differences per site) exceeds 0.1, the possibility that sites have undergone multiple hits (recurrent changes at the same hit which cannot be measured) increases. Although no known correction is technically applicable to overlapping genes, we offer Jukes-Cantor as an option.
  6. STRING TO PREPEND TO OUTPUT LINES (OPTIONAL DEFAULT="").

For example, try the following using the results from Example 2:

This produces TAB-delimited output, as described in the Bootstrap Output section.

EXAMPLE 4: SLIDING WINDOWS WITH BOOTSTRAPPING

Use our script OLGenie_sliding windows.R . Make sure the R packages dplyr , readr , stringr , and boot have been installed (напр., by calling install.packages("boot") at the R console).

Call the script with the following 5-10 (unnamed) arguments (in this order):

  1. CODON RESULTS FILE. The name/path of the file containing the codon results file from the OLGenie analysis (OLGenie_codon_results.txt). This file must not have been modified, and should only contain the results for one analysis (i.e., one gene product and frame).
  2. NUMERATOR SITE TYPE. NN, SN, or NS.
  3. DENOMINATOR SITE TYPE. SN, NS, or SS.
  4. SLIDING WINDOW SIZE. Measured in CODONS must be ≥2 ≥25 recommended.
  5. SLIDING WINDOW STEP SIZE. Measured in CODONS must be ≥1.
  6. NUMBER OF BOOTSTRAP REPLICATES PER WINDOW (OPTIONAL ≥2 DEFAULT=1000).
  7. MINIMUM NUMBER OF DEFINED CODONS PER CODON POSITION (OPTIONAL ≥2 DEFAULT=6).
  8. MULTIPLE HITS CORRECTION (OPTIONAL "NONE" or "JC", Jukes-Cantor DEFAULT=NONE). Keep in mind that no correction is truly applicable to OLGs.
  9. NUMBER OF CPUS (OPTIONAL ≥1 DEFAULT=1). A typical personal laptop computer can utilize 4-8 CPUs, while a high performance computing cluster might provide access to 10s or 100s.
  10. STRING TO PREPEND TO OUTPUT LINES (OPTIONAL DEFAULT="").

For example, a real command might look like the following:

This produces TAB-delimited изход, as described in the Sliding Window Output section. The output file is placed within the same directory using the name of the input file as a prefix, but adding the suffix *_WINDOWS_<RATIO>.tsv .

OLGenie outputs the following data:

At the command line (Terminal), OLGenie will first report the date and time, the file and frame relationship used in the analysis, and any warning messages. Following completion of the analysis, OLGenie will report the following summary statistics:

  • Mean numbers of sites and differences: the total numbers of NN, SN, NS, and SS sites and differences for the entire alignment, obtained by summing the results for all codons.
  • Mean substitution rates (between-species) or nucleotide diversities (within-species):: OLGenie's estimates of дNN, дSN, дNS, и дSS for the entire alignment, calculated as (*_diffs / *_sites) for each site type.
  • dN/dS estimates: OLGenie's estimates of дн/дС for the reference gene (дNN/дSN, дNS/дSS) and alternate gene (дNN/дNS и дSN/дSS) for the entire alignment.

Codon Results Output File

OLGenie will report codon-by-codon results in the file OLGenie_codon_results.txt (or any file specified with the --output_file option). The columns contain the following information:

  • codon_num : the codon position in the alignment, starting at codon 2 and ending at the penultimate codon. The first and last codons are excluded because their values cannot be estimated, as one of their overlapping (alternate gene) codons is unknown, occurring before or after the alignment begins or ends, respectively. (Note that sas13 is an exception.)
  • ref_codon_maj : the major (most common) allele for the reference gene codon at this position.
  • alt_codon1_maj : the major (most common) allele for the alternate gene codon overlapping the beginning (5' side) of the reference codon at this position.
  • alt_codon2_maj : the major (most common) allele for the alternate gene codon overlapping the end (3' side) of the reference codon at this position. Note that only alt_codon1_maj will be reported for the sas13 frame, since OLG codons form one-to-one overlaps in this frame.
  • nonamers : only included when using the --verbose option. This column contains all unique nonamer (9nt) alleles occuring at this position, with the reference focal codon at the center. Different alleles are separated using the colon ( : ) delimiter.
  • nonamer_counts : only included when using the --verbose option. This column contains the counts (number of sequences) having each unique nonamer (9nt) allele at this position, in the same order given in the nonamers column. Values for different alleles are separated using the colon ( : ) delimiter.
  • multiple_variants : whether the nonamer at this position contains more than one nucleotide variant. If so, the OLGenie method may underestimate дС at this position. В този случай, дн/дС ratio will constitute a conservative test of purifying (negative) selection, but positive (Darwinian) selection should be inferred with caution.
  • NN_sites : the number of sites (т.е., possible nucleotide changes) that are nonsynonymous in both the reference and alternate genes at this reference codon.
  • SN_sites : the number of sites (т.е., possible nucleotide changes) that are synonymous in the reference gene but nonsynonymous in the alternate gene at this reference codon.
  • NS_sites : the number of sites (т.е., possible nucleotide changes) that are nonsynonymous in the reference gene but synonymous in the alternate gene at this reference codon.
  • SS_sites : the number of sites (т.е., possible nucleotide changes) that are synonymous in both the reference and alternate genes at this reference codon.
  • NN_diffs : the number of differences (т.е., observed nucleotide changes) that are nonsynonymous in both the reference and alternate genes at this reference codon.
  • SN_diffs : the number of differences (т.е., observed nucleotide changes) that are synonymous in the reference gene but nonsynonymous in the alternate gene at this reference codon.
  • NS_diffs : the number of differences (т.е., observed nucleotide changes) that are nonsynonymous in the reference gene but synonymous in the alternate gene at this reference codon.
  • SS_diffs : the number of differences (т.е., observed nucleotide changes) that are synonymous in both the reference and alternate genes at this reference codon.

Note that any desired estimate of дн, дС, or their ratio can be obtained for any subregion of the alignment by summing the appropriate numbers of sites and differences and performing the appropriate calculations. For example, to calculate the alternate gene дн/дС = дSN/дSS ratio for a 25-codon window within an alignment:

  1. Изчисли дSN as sum( SN_diffs )/sum( SN_sites ) for those 25 codons
  2. Изчисли дSS as sum( SS_diffs )/sum( SS_sites ) for those 25 codons and
  3. Calculate the дSN/дSS стойност.

Significant deviations from neutrality (дн - дС = 0) can be detected using a Z-test, where the standard error of дн - дС is estimated using bootstrapping (reference codon unit) (Nei and Kumar 2000). Consider using our R script, OLGenie_bootstrap.R (see examples). This produces four lines of output, one for each of the four ratios: дNN/дSN, дNN/дNS, дNS/дSS, и дSN/дSS. Columns of values are given in the following order (numbered here for clarity, as these headers do not appear in the output):

  1. num_codons : the total number of codons examined.
  2. NN_sites : see the description of the codon output file.
  3. SN_sites : see the description of the codon output file.
  4. NS_sites : see the description of the codon output file.
  5. SS_sites : see the description of the codon output file.
  6. NN_diffs : see the description of the codon output file.
  7. SN_diffs : see the description of the codon output file.
  8. NS_diffs : see the description of the codon output file.
  9. SS_diffs : see the description of the codon output file.
  10. ratio : the ratio being estimated on this line: dNNdSN denotes дNN/дSN dNNdNS denotes дNN/дNS dNSdSS denotes дNS/дSS and dSNdSS denotes дSN/дSS.
  11. site_rich_ratio : whether this is the most site-rich ratio (ВЯРНО или НЕВЯРНО). Note that, for sas12, the more accurate ratios (дNS/дSS и дSN/дSS) are not the most site-rich.
  12. gene : whether this line is an estimate of дн/дС for the reference gene (ORF1) or the alternate gene (ORF2).
  13. num_replicates : number of bootstrap replicates performed.
  14. dN : the point estimate of дн (numerator of ratio ).
  15. dS : the point estimate of дС (denominator of ratio ).
  16. dNdS : the point estimate of дн/дС (value of ratio ).
  17. dN_m_dS : the point estimate of дн - дС.
  18. boot_dN_SE : the standard error of mean дн, estimated by bootstrapping.
  19. boot_dS_SE : the standard error of mean дС, estimated by bootstrapping.
  20. boot_dN_over_dS_SE : the standard error of mean дн/дС, estimated by bootstrapping.
  21. boot_dN_over_dS_P : the P value of a deviation from дн/дС = 1 (two-sided Z-тест).
  22. boot_dN_m_dS_SE : the standard error of mean дн - дС, estimated by bootstrapping.
  23. boot_dN_m_dS_P : the P value of a deviation from дн-дС=0, estimated from the bootstrap SE (two-sided Z-тест). (Recommended test.)
  24. boot_dN_gt_dS_count : number of bootstrap replicates in which дн& gtдС.
  25. boot_dN_eq_dS_count : number of bootstrap replicates in which дн=дС.
  26. boot_dN_lt_dS_count : number of bootstrap replicates in which дн& ltдС.
  27. ASL_dN_gt_dS_P : one-sided achieved significance level (ASL) P-value of the null hypothesis that дн& gtдС.
  28. ASL_dN_lt_dS_P : one-sided achieved significance level (ASL) P-value of the null hypothesis that дн& ltдС.
  29. ASL_dNdS_P : two-sided achieved significance level (ASL) P-value of the null hypothesis that дн=дС.

The R script OLGenie_sliding_windows.R can be used to compute any of the дн/дС ratio estimators and bootstrap them in one feel swoop (see examples). The output includes all the original columns present in the codon results output file, along with additional columns specific to the sliding windows. Това са:

  • sw_ratio : the overlapping gene дн/дС ratio estimator computed in the analysis, т.е., dNNdSN, dNNdNS, dNSdSS, or dSNdSS (denoting дNN/дSN, дNN/дNS, дNS/дSS, и дSN/дSS, respectively).
  • sw_start : first codon included in the window.
  • sw_center : middle codon included in the window.
  • sw_end : last codon included in the window.
  • sw_num_replicates : number of bootstrap replicates.
  • sw_N_diffs : sum of NUMERATOR-type (NN, SN, or NS) differences observed in the window.
  • sw_S_diffs : sum of DENOMINATOR-type (SN, NS, or SS) differences observed in the window.
  • sw_N_sites : sum of NUMERATOR-type (NN, SN, or NS) sites observed in the window.
  • sw_S_sites : sum of DENOMINATOR-type (SN, NS, or SS) sites observed in the window.
  • sw_dN : дн (NUMERATOR) estimate for the window.
  • sw_dS : дС (DENOMINATOR) estimate for the window.
  • sw_dNdS : дн/дС ratio estimate for the window (neutral null expectation: 1).
  • sw_dN_m_dS : дн-дС difference estimate for the window (neutral null expectation: 0).
  • sw_boot_dN_SE : standard error (SE) of mean дн, estimated as the standard deviation of the bootstrap replicates.
  • sw_boot_dS_SE : standard error (SE) of mean дС, estimated as the standard deviation of the bootstrap replicates.
  • sw_boot_dN_over_dS_SE : standard error (SE) of mean дн/дС, estimated as the standard deviation of the bootstrap replicates.
  • sw_boot_dN_over_dS_P : Z-test P-value of null hypothesis that дн/дС=1, estimated from the bootstrap SE.
  • sw_boot_dN_m_dS_SE : standard error (SE) of mean дн-дС, estimated as the standard deviation of the bootstrap replicates.
  • sw_boot_dN_m_dS_P : the P value of a deviation from дн-дС=0, estimated from the bootstrap SE (two-sided Z-тест). (Recommended test.)
  • sw_boot_dN_gt_dS_count : number of bootstrap replicates in which дн& gtдС.
  • sw_boot_dN_eq_dS_count : number of bootstrap replicates in which дн=дС.
  • sw_boot_dN_lt_dS_count : number of bootstrap replicates in which дн& ltдС.
  • sw_ASL_dN_gt_dS_P : one-sided achieved significance level (ASL) P-value of the null hypothesis that дн& gtдС.
  • sw_ASL_dN_lt_dS_P : one-sided achieved significance level (ASL) P-value of the null hypothesis that дн& ltдС.
  • sw_ASL_dNdS_P : two-sided achieved significance level (ASL) P-value of the null hypothesis that дн=дС.

Ако имате въпроси относно OLGenie, please click on the Issues tab at the top of this page and begin a new thread, so that others might benefit from the discussion. Common questions will be addressed in this section.

OLGenie was written with support from a Gerstner Scholars Fellowship from the Gerstner Family Foundation at the American Museum of Natural History to C.W.N. (2016-2019), and is maintained with support from a 中央研究院 Academia Sinica Postdoctoral Research Fellowship (2019-2021). The logo image was designed by Mitch Lin (2019) copyright-free DNA helix obtained from Pixabay. Thanks to Reed Cartwright, Dan Graur, Jim Hussey, Michael Lynch, Sergios Orestis-Kolokotronis, Wen-Hsiung Li, Apurva Narechania, Siegfried Scherer, Sally Warring, Jeff Witmer, Meredith Yeager, Jianzhi (George) Zhang, Martine Zilversmit, and the Sackler Institute for Comparative Genomics workgroup for discussion along the way.

When using this software, please refer to and cite:

Ако имате въпроси относно OLGenie, please click on the Issues tab at the top of this page and begin a new thread, so that others might benefit from the discussion.


Резултати и дискусия

Theoretical Model

This section contains a rederivation of results presented by Halpern and Bruno (1998), reproduced here to introduce notation and to place the remainder of our work into context. We model sequence evolution using the Halpern–Bruno MutSel modeling framework under the assumptions of a fixed effective population size нд and constant selection pressure over time ( Halpern and Bruno 1998 Yang and Nielsen 2008 Tamuri et al. 2012 Thorne et al. 2012). This continuous-time reversible Markov process is governed by the 61 × 61 transition matrix T ( t ) = e Q t ⁠ , where the matrix Q = q i j gives the instantaneous substitution probabilities between all 61 sense codons, and diagonal elements of В satisfy q i i = − ∑ i ≠ j q i j ⁠ . We assume that only single-nucleotide substitutions occur instantaneously.


Who invented dN/dS? - Биология

Strength of natural selection relative to genetic drift as measured particularly in terms of in populations.

The dN/dS ratio is of nonsynonymous to synonymous substitutions. Since this is post fixation, mutations must survive within populations to be counted.

Synonymous substitions are assumed to be silent and therefore neutral alleles. If so, then genetic drift must have been operating for their fixation to have occurred. Nonsynonymous substitutions by contrast are assumed to impact phenotype. These therefore are less likely to be neutral and as a consequence are more likely than for synonymous substitutions to have become fixed within populations due to the action of directional selection.

This ratio serves as an approximation of the impact of selection on the sequence of protein-encoding genes relative to . The greater the ratio, that is, the more nonsynonymous substitutions relative to synonymous substitutions, the greater the impact of natural selection, particularly in terms of directional selection on .


Гледай видеото: ПОТРЯСАЮЩЕ СИЛЬНЫЙ ТРИЛЛЕР О ПРАВОСУДИИ! Арестант no name. Лучшие фильмы. Filmegator (Февруари 2023).