Информация

Филогенетичен метод за откриване на промяна в средната стойност на непрекъсната променлива

Филогенетичен метод за откриване на промяна в средната стойност на непрекъсната променлива


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

В момента работя по проект, в който изучавам промяната на непрекъсната морфологична променлива с телесния размер (измерен като телесно тегло) в различни таксони (насекоми, паяци, гущери, жаби). За да се отчете независимостта на данните, изградих приблизително дърво въз основа на публикувани филогении. Имам разумен модел на разклоняване до ниво семейство или род за повечето таксони, но нямам статистически подкрепена дължина на клона.

Откривам силна промяна на коефициента на мащабиране, когато използвам филогенетични най-малки квадрати (с ковариационна матрица, базирана на моето дърво) спрямо некоригиран подход на най-малките квадрати, което предполага, че по-голямата част от промяната, наблюдавана в моята непрекъсната променлива, се обяснява с еволюционната история , а не по телесна маса като такава. Сега бих искал да проуча колко рано в дървото настъпват тези смени.

Интуитивно бих могъл да започна да свивам дървото си в политомии до произволни таксономични нива, напр. род, семейство, ред и т.н., и да направя отново моите филогенетични най-малки квадрати. Бих очаквал поетапно приближаване на pgl до некоригирания резултат (в краен случай бих завършил със звездна филогенеза, която би трябвало да даде идентичен резултат за моята некоригирана регресия). Такъв подход може да позволи да се каже нещо за това дали по-голямата част от промяната се случва между родове, семейства и т.н., но изисква използването на донякъде произволни (и противоречиви) таксономични нива. Ще бъда благодарен, ако някой има алтернативни предложения как да се извърши такъв анализ, с произволна дължина на клона и не-ултраметрични дървета.

Благодаря Thriceguy


Филогенетичната скорост се променя във времето на хранене по време на еволюцията на Хомо

Уникално сред животните, хората ядат диета, богата на готвена и нетермично обработена храна. Предците на съвременните хора, които са измислили преработката на храна (включително готвенето), са придобили критични предимства в оцеляването и фитнеса чрез увеличен прием на калории. Въпреки това времето и начинът, по който преработката на храната е станала биологично значима, са несигурни. Тук ние оценяваме изведените еволюционни последици от преработката на храна в човешкия род чрез прилагане на тест за филогенетичен отклонение на Байеса към сравнителен набор от данни за времето за хранене при хора и нечовешки примати. Откриваме, че съвременните хора прекарват порядък по-малко време за хранене, отколкото е предвидено от филогенезата и телесната маса (4,7% срещу прогнозираните 48% от дневната активност). Този резултат предполага, че съществена еволюционна промяна в времето за хранене е настъпила по човешкия клон след разцепването човек -шимпанзе. По същия този клон, Хомо еректус показва значително намаляване на моларния размер, което е последвано от постепенно, макар и непостоянно намаляване на H. sapiens. Ние показваме, че намаляването на размера на молара в началото Хомо (H. habilis и H. rudolfensis) е обяснимо само с филогенезата и размера на тялото. Обратно, промяната в моларния размер до H. erectus, H. neanderthalensis, и H. sapiens не може да се обясни със скоростта на еволюция на черепа и размера на тялото. Заедно нашите резултати показват, че поведенческите адаптации на преработката на храна (намалено време за хранене и моларен размер) са възникнали след еволюцията на Хомо но преди или едновременно с еволюцията на H. erectus, което беше около 1.9 Mya.

Промените в поведението могат да поставят животното под нов набор от селективни сили, които отварят нови еволюционни пътища. Такива адаптации са изиграли решаваща роля по време на еволюцията на животинския живот. Последните данни показват, че съществуващите хора са биологично адаптирани за ядене на варена и преработена храна (хипотезата за готвене) - адаптация, която е поведенчески задвижвана от контролирана употреба на огън (1). Преработката на храни би осигурила по -висок калориен прием при предците на съвременните хора, което вероятно би дало значителни предимства за репродуктивния успех и оцеляването (2-4). Недохранването в резултат на постоянна диета със сурова храна (5) категорично предполага, че яденето на варена и преработена храна е необходимо за дългосрочно оцеляване с диви храни в Хомо сапиенс (6, 7). Тази хипотеза обяснява малките зъби, челюсти и черва на съвременните хора и универсалното значение, което готвенето е играело в културите през цялата записана история (1).

Липсват количествени, филогенетично базирани тестове на тази хипотеза, както и преки доказателства дали готвенето е започнало в предH. sapiens род в Африка (8). Освен това съществуват значителни разногласия по отношение на еволюционните взаимоотношения на видовете в нашата линия (9). Тази филогенетична несигурност ограничава способността ни да разпознаваме еволюционната история на много поведенчески черти при хората, включително задължителната обработка на храната. Например, времето, което един примат прекарва за хранене като процент от ежедневната си активност, може да бъде важно ограничение за друго поведение (10) и се очаква да бъде свързано с метаболитните изисквания, размера на тялото, моларния размер и начина, по който се социализира с конспецифични и взаимодейства с околната среда. Въпреки това, връзката между времето, прекарано хората за хранене, в сравнение с времето, прекарано от други примати, никога не е проучвана.

Времето за хранене зависи от метаболитните нужди на организма, както и от времето за поглъщане, времето за дъвчене и образуването на болус. Оклузалната повърхност, с която се дъвче храната, също играе важна роля в преработката на храни и отдавна се използва за извод за промени в поведението при хранене при изчезнали хоминини (11-14). Смята се, че намаляването на моларния размер по време на еволюцията на хоминина е свързано с появата на усъвършенствана обработка на храни, тъй като готвенето омекотява храната (15), а меката храна поставя по -малко биомеханично търсене на дъвчещите зъби (16). По-меките храни също се придържат по-бързо, докато се дъвчат и следователно се поглъщат след по-малко цикъла на дъвчене (17).

Тук ние изследваме времето, прекарано в хранене от хората в сравнение с други примати, и използваме филогенетичен анализ, за ​​да разграничим видовете хоминини според това дали промените в размера на моларите са обясними с общата скорост на краниоденталната еволюция. Този анализ ни позволява да тестваме хипотезата, че голяма промяна в натиска на селекцията, включваща преработката на храни, е настъпила в миналото на хората. По този начин ние използваме сравнителни филогенетични методи, за да тестваме изрична филогенетична прогноза на хипотезата за готвене, а именно, че е настъпила значителна филогенетична промяна в скоростта на моларния размер и времето за хранене по линията на човека.


Материали и методи

Проучихме литературата за набори от данни за началото на цъфтежа и съставихме списък от проучвания, обхващащи най-малко 20 години, с минимум четири точки данни във времето за вид (след компилацията всички използваеми набори от данни имаха най-малко седем точки от данни във времето за всеки вид). вид). Търсихме систематично, използвайки Web of Science (използвайки термините „цъфтеж“ и „фенолог“), а също така проследихме препратки към други проучвания в документи, които открихме. Няколко набора от данни не бяха включени, тъй като или не отговаряха на тези критерии, или не бяха налични необходимите данни за определяне на промените във времето на цъфтеж. Събрахме 15 набора от данни от цялото Северно полукълбо, вариращи с продължителност от 29 до 172 години от 1837 до 2012 г. (Таблица 1). Данните идват от разнообразие от местообитания и включват вили, треви, храсти и дървета. От всичките 15 набора от данни извлечехме информация за това дали видовете са се изместили в началото на цъфтежа. Когато тази обобщена информация не беше налична, ние използвахме необработените данни, за да тестваме за смени, използвайки прости линейни регресии на годината спрямо деня от годината на първия цъфтеж. Видовите промени в началото на цъфтежа бяха кодирани като: 1 за значително забавяне 0 за липса на смяна -1 за значително напредване. Във втори анализ използвахме непрекъсната мярка за изместване, наклона на връзката между първия цъфтеж и годината, която можем да извлечем или изчислим само за осем от набора от данни, които или отчитат наклони, или предоставят необработени данни, от които те могат да бъдат изчислено.

Справка Местоположение Период от време (продължителност) Среда на живот № вид Цъфтящ отговор
Абу-Асаб и др. ( 2001 ) Вашингтон, САЩ 1970–1999 (29) Столична зона 100 Преместване, наклон
Болмгрен, Ванхоенакер и Милър-Ръшинг (2013) Швеция 1934–2006 (72) Умерена ферма 25 Shift
Брадли и др. ( 1999 ) Уисконсин, САЩ 1936–1945, 1977–1998, 1999–2007 добавени за настоящото изследване (38) Прерия с висока трева 33 Преместване, наклон
Калинджър, Куинбъро и Къртис (2013) Охайо, САЩ 1895–2009 (115) Умерени гори и пасища 141 Shift
CaraDonna, Iler & Inouye (2014) Колорадо, САЩ 1974–2012 (38) Субалпийски ливади 60 Преместване, наклон
Crimmins, Crimmins & Bertelsen (2010, 2011) Аризона, САЩ 1984–2003 (29) 1984–2009 (35) Полусух монтан 428 240 Преместване
Дънъл и Травърс ( 2011 ) Северна Дакота и Минесота, САЩ 1910–1961, 2007–2010 (54) Умерени гори и пасища 23 Преместване, наклон
Елууд и др. ( 2013 ) Масачузетс Уисконсин, САЩ 1852–1858, 1878, 1888–1902, 2004–2006, 2008–2012 1935–1945, 1977–2012 (66) Умерена гора, прерия с висока трева 32 23 Преместване, наклон
Монтьор и монтьор ( 2002 ) Оксфордшир, Англия 1954–2000 (56) Умерени гори и пасища 372 Преместване, наклон
Менцел, Естрела и Фабиан (2001) Германия 1951–1996 (45) Различни 5 Преместване, наклон
Милър-Ръшинг и Примак (2008) Масачузетс, САЩ 1852–1858, 1878, 1888–1902, 2004–2006 (123) Умерени гори и влажни зони 43 Преместване, наклон
Molnár и др. ( 2012 ) Унгария 1837–2009, 1980–2011 (172, 31) Различни 39 Преместване, наклон
Ovaskainen и др. ( 2013 ) Карелия, Русия 1960–2010 (50) Бореална гора 66 Преместване, наклон
Панчен и др. ( 2012 ) Пенсилвания, САЩ 1840–2010 (150) По -голям столичен район 28 Преместване, наклон

Три от наборите от данни (Брадли и др. 1999 Miller-Rushing & Primack 2008 Ellwood и др. 2013) имат общи видове от същите места, но за различен период от време. Затова комбинирахме данните от тези три проучвания, за да дадем възможно най -дългите времеви редове за видове, за които има данни в множество набори от данни. Например данните за Sisyrinchium campestre както се съобщава в Брадли и др. (1999) обаче показват, че не е имало промяна в началото на цъфтежа за този вид, като актуализират тези данни, за да включват по-нови фенологични наблюдения, както се съобщава в Ellwood и др. (2013) доведоха до значителна промяна към по-ранен цъфтеж. Затова кодирахме S. campestre като изместване по -рано в нашия съвкупен набор от данни.

За анализи на обединените набори от данни осредняхме данните за изместване или наклон за видове, за които имахме множество записи от различни общности, тъй като всеки вид е представен само веднъж във филогенезите и може да има само една стойност за черта. Средните отговори (усреднени за 2–7 записа на вид) бяха използвани за 133 (10,7%) от 1245 вида, използвани за филогенетични анализи с изместване, тъй като средните отговори на признака (усреднени за 2–4 записа на вид) бяха използвани за 70 (11,6%) от 606 вида използвани за филогенетични анализи с наклон като признак.

За да тестваме за филогенетичен сигнал, използвахме две филогенетични дървета, които бяха конструирани, за да отговорят на подобни въпроси от Дейвис и др. ( 2013 ). Първият от Дейвиси и др. (2013) дървета се състоят от 4494 таксони, конструирани са с помощта на дървото Angiosperm Phylogeny Group 3 като гръбнак в Phylomatic (Webb & Donoghue 2005) и са разрешени 25% (по -нататък „филоматичното дърво“). След Дейвис и др. (2013), ние също използвахме молекулярна филогения, която се различава по топология за сравнение, това дърво е калибрирано с наказателна вероятност и е напълно разрешено за 1246 рода (по -нататък „молекулярното дърво“). И двете дървета се предлагат в Дейвис и др. ( 2013 ). Нашият съвкупен набор от данни за смяна обхваща 1245 (27,7%) от видовете във филоматичното дърво и 582 (46,7%) от родовете в молекулярното дърво. Нашият обобщен набор от данни за наклон обхваща 610 (13,6%) от видовете във филоматичното дърво и 328 (26,3%) от родовете в молекулярното дърво. Добавихме видове към молекулярното дърво като политомии (Davies и др. 2013), което води до дървета с 1172 и 585 вида съответно за изместване и наклон. Няколко вида от нашия набор от данни не бяха включени във филоматичното дърво, а някои родове не бяха в молекулярното дърво, което премахнахме тези видове/родове (н = 14/55) от нашия компилиран набор от данни.

Тествахме за филогенетичен сигнал в (i) дали и в каква посока са настъпили измествания („изместване“) и (ii) величината на изместванията („наклон“) въз основа на дисперсията на филогенетично независимите контрасти (PIC) за нашите емпирични данни набор спрямо дисперсията на PIC за произволно преместени идентичности на видовете в набора от данни за черти (повторено 20 000 пъти). P-стойностите оценяват частта от пренаредените набори от данни, които имат по -ниски оценки на дисперсията на PIC от нашия емпиричен набор от данни, както е внедрено в R библиотеката „picante“ (Kembel и др. 2010 R Core Team 2016).

Ние също използвахме Blomberg's K (Blomberg, Garland & Ives 2003) и Pagel's λ (Pagel 1999) за измерване на силата на сигнала спрямо BM модела на еволюция на чертите. K варира от почти 0 до повече от 1, докато λ варира от 0 до 1 и за двете мерки, стойности от 1 показват еволюцията на BM. Стойностите на К по -малко от 1 показват, че сродните видове си приличат по -малко, отколкото би се очаквало при BM, което предполага селекция върху дрейф, докато стойностите на K, по -големи от 1, показват, че сродните видове си приличат повече, отколкото би се очаквало при BM (Blomberg, Garland & Ives 2003), което също предполага селекция. Тъй като K може да зависи от разделителната способност на дървото, а филоматичното дърво беше само 25% разрешено, ние изтънихме дървото, за да премахнем терминалните политомии, както е препоръчано от Дейвис и др. (2012 г.). След произволно премахване на видове, за да оставим само по един на възел, след това итеративно изчислихме K на изтънените дървета, като извършихме 30 повторения всяка за филогениите, използвани за тестване на сигнал в смяна и наклон. Следвахме същата процедура за изтъняване на молекулярното дърво (което е напълно разрешено до родово ниво, но към което видове са добавени като политомии). За нашите анализи, използващи отделни набори от данни, ние представяме K стойности за неразредени дървета, тъй като нито едно дървета не е било разрешено по-малко от 60% (Davies и др. 2012 г.). Въпреки това, ние отбелязваме, че стойностите на K за изтънените дървета са сходни. K и λ бяха изчислени с помощта на R библиотеката 'phytools' (Revell 2012), която предоставя P-стойности за самата K статистика, получени чрез преместване на идентичностите на видовете в набора от данни за черти, изчисляване на K за всяка итерация и сравняване на наблюдаваното K към това нулево K разпределение. Библиотеката „phytools“ също предоставя P-стойности за λ чрез извършване на тест за съотношението на вероятността срещу нулевата хипотеза, че λ = 0. Извършихме всеки един от тези тестове за обединените набори от данни и всеки отделен набор от данни, използвайки както филоматичните, така и молекулярните дървета. Изключихме два набора от данни (Menzel, Estrella & Fabian 2001 и Molnár и др. 2012 ) от анализите на отделните общности, тъй като след резитбата са останали съответно 3 и 10 вида.

Ние също така тествахме пригодността на OU модел на еволюция на черти, за да определим дали промените във фенологията на цъфтежа могат да бъдат ограничени чрез стабилизиране на селекцията. Ние поставяме един-оптимален модел на OU за обединените данни и всеки набор от данни, като използваме и двете дървета. Тестовете за съответствие и значимост на OU модела бяха извършени с R библиотеки „geiger“ (Harmon и др. 2008), „phylolm“ (Ho & Ane 2014) и „OUwie“ (Beaulieu & O'Meara 2015), като се използват тестове за коефициент на вероятност за сравняване на пригодността на моделите OU спрямо BM.


Методи

Терминология

Признаваме, че историята на хетерохронната терминология е била бурна [1,2,27]. За сравнителни цели тук следваме терминологията на Ryan и Bruce [26], която е била единственото предишно цялостно лечение на хетерохронията в спелепиновите плетодонтиди. Използваме термините ускорение и забавяне, съответно, за да се отнасяме до относителното напредване и забавяне на времето на събитията в развитието в сравнение с предците (Фигура  1). Тези термини се прилагат за процеси, засягащи соматичните и репродуктивните тъкани, които могат или не могат да доведат до промяна между категориите на историята на живота (пряко развитие, двуфазно, педоморфно). Например, ако метаморфозата на двуфазен вид настъпи значително по -рано от метаморфозата на неговия двуфазен предшественик, това би било ускорение във възрастта (времето) на метаморфозата.

Следвайки Райън и Брус [26] и други проучвания [8], ние използваме термините неотения и прогенеза, за да се отнасяме предимно до соматично забавяне и репродуктивно ускорение, съответно, които са процеси, които могат да доведат до ладомична форма на педоморфоза. Има множество онтогенетични траектории, които могат да доведат до напредване или забавяне на събитие в развитието. Тъй като изместванията в съзряването и метаморфозата могат да се считат за промени в ‘началото’ или ‘offset’ на траекторията на развитие, тогава термините, предполагащи ‘скорост’ (неотения, може да се ускори, прогенеза, не се прилагат). Вместо това термини като предразместване и следразместване са използвани за описание на такива промени във времето на възпроизвеждане и метаморфоза [2,7].

Данните за времето на метаморфоза (възраст при метаморфоза) и съзряване (възраст на зреене на половите жлези) в месеци за 63 плетодонтиди са извлечени предимно от литературата и някои лични и непубликувани наблюдения от колеги (Допълнителен файл 1). Тази извадка включва представители на повечето от основните линии на плетодонтидите: 26 вида спелепини от четири от петте рода (21 Еврицея, 2 Gyrinophilus, 2 Псевдотритон, и 1 Стереохил), 14 вида десмогнатини (Десмогнат) и 23 други плетодонтиди (2 Анеиди, 1 Батрахосепс, 2 Болитоглоса, 1 Ensatina, 1 Хемидактилий, 1 Hydromantes, 14 Плетодон, и 1 Псевдоеврицея). Нашите анализи се основават на минимални оценки на възрастта при метаморфоза. Директно развиващите се видове метаморфират преди излюпването, така че ние считахме тяхната възраст на метаморфоза за времето преди излюпването, което за повечето видове е приблизително 2  месеца [21]. Повечето педоморфни плетодонтиди не метаморфират (задължително педоморфни) и това е независимо получено състояние в множество линии на спелепини [25]. Тъй като най -много се интересувахме от реконструкцията на предшественото време на метаморфозата, ние кодирахме педоморфните таксони като липсващи метаморфни данни в нашите анализи на метаморфното време.Ние се занимавахме с еволюцията на педоморфозата на ларвната форма (в сравнение с директното развитие или двуфазната) в отделен анализ (описан по-долу).

Използвахме и минимални възрастови оценки за зреене за всички 63 вида и анализирахме отделно времето на зреене на мъжете и жените. Използвахме минимална възраст (за разлика от средната или максималната възраст), защото това е най-последователният и достъпен показател за различните видове. Повечето референтни проучвания се основават на оценка на развитието на половите жлези във възрастови/размерни класове. Затова използвахме минимална възраст при узряване на половите жлези (което се наблюдава морфологично), за разлика от възрастта при първото възпроизвеждане (отлагане на яйца или падане на сперматофора), които са по-рядко документирани. Например минималната възраст на репродуктивно съзряване както за мъже, така и за жени Desmognathus ocoee е документирано на 3 и#x000a0 години [36,37]. Въпреки че повечето жени D. ocoee може да не отложи яйцеклетка до 4-та година, ние използвахме 3 years, за да бъдем в съответствие с други проучвания, които се основават само на узряването на половите жлези.

Налице са филогенетично базирани реконструкции на плетодонтидната история на живота: двуфазни срещу. директно развитие [28] и двуфазно (метаморфно) срещу. педомофичен [25]. Тези три състояния обаче не са реконструирани в същия анализ. Следователно, ние също реконструирахме историята на живота на предците (директно развитие, двуфазно, педоморфно) за 100 плетодонтиди, включително всички северноамерикански и евразийски родове, както и наскоро описан педоморфен вид (E. subfluvicola[38]). Информацията за живота на тези видове е добре установена и е взета от литературата (Допълнителен файл 1). Включихме само три представителни рода от тропическата радиация (болитоглосини), поради ограничения брой продължителни Парцал 1 налични последователности за тази група (вижте по-долу), но е ясно, че тази радиация е монофилетична и всички видове се смятат за директни разработчици. С други думи, включването на допълнителни болитоглосини в нашите анализи не би променило съществено представените тук резултати. Целта на този анализ беше преди всичко да се реконструира произхода на педоморфозата в спелепините, което беше необходимо за последващи тестове на прогенезата срещу. неотения (виж по -долу). Въпреки това, ние също извършихме допълнителни реконструкции на историята на живота и включихме семействата от външни групи Amphiumidae и Rhyacotritonidae, за да тестваме допълнително режима на предшествената история на живота на плетодонтидите (вж. Резултатите).

Филогения

Ние реконструирахме две хронограми на плетодонтиди, които включват представители на: (1) всичките 100 таксона за анализ на историята на живота на предците и (2) 63 таксона, за които имаме данни за времето на метаморфоза и съзряване. Всяка от хронограмите е базирана на пълни набори от данни от 1,033਋p от рекомбинационно активиращия ген 1 (Парцал 1 Допълнителен файл 1). Парцал1 беше избран, защото това е запазен ядрен локус, който вече беше наличен за повечето таксони, включени в това изследване, и осигурява близко приближение до топологиите и дължините на клоните на по-рано реконструирани филогении на саламандър [25,28,34,39-43]. Последователностите са получени главно от предишни филогенетични набори от данни за плетодонтиди [28], спелерпини [25], Плетодон[44], и допълнителни последователности за девет вида от рода Десмогнат които събрахме за това проучване (Допълнителен файл 2).

Последователностите бяха подравнени с помощта на Sequencher v. 4.8 (Gene Codes, Ann Arbor, MI, USA) и подравняването беше недвусмислено без липсващи данни. MrModeltest v. 2.2 [45] беше използван за определяне на най-подходящия модел на нуклеотидно заместване за всяка позиция на кодон (Допълнителен файл 3). Хронограмите бяха оценени с помощта на BEAST v. 1.6 [46]. Ние приложихме най-подходящите модели, определени по-горе, и анализът се основава на некорелиран логнормален молекулен часовник и спецификация на Деня преди дървото. Вкаменелостите на плетодонтидите са много ограничени [47,48], затова използвахме основата на короната на съществуващите плетодонтиди като точка за калибриране. Оценките за най-дълбоката дивергенция за тази клада са в диапазона от 41 Mya до 99 Mya, със средни оценки приблизително 73 Mya [40,41,49-51]. Приложихме нормално разпределено калибриране преди за корона групата на плетодонтидите, със средна стойност 73 Mya и стандартно отклонение 6 Mya. Тази комбинация от параметри дава 95% предварително разпределение между 85 Mya и 65 Mya, което представлява разумен диапазон от потенциални дати за тази клада въз основа на предишни проучвания. Анализите се основават на относителни дължини на клоновете на хронограмите и биха били еднакви независимо от общата времева скала. И двата анализа бяха проведени два пъти независимо за 20 милиона поколения с дървета, спасени на всеки 1000 поколения (общо 40 000 дървета). Стойностите на вероятността между поколенията бяха оценени в Tracer v. 1.5 [52] и първите 25% от поколенията от двете писти (10 000 дървета) бяха консервативно изхвърлени като изгаряне, което далеч надхвърляше стационарността. И двата хронограма (100 таксони и 63 таксона) са сходни по дължини на клони и топология. Използвахме 30 000 дървета след изгаряне, от филогенетичния анализ на всеки набор от данни, за съответните им реконструкции (вижте по-долу).

Възстановяване на родовата държава

Историята на живота на предците, възрастта на минимална метаморфоза и възрастта на минимално съзряване (мъжки и женски) на плетодонтидните саламандри бяха реконструирани с помощта на байесови методи. Категорични и непрекъснати реконструкции на предците бяха извършени в BayesTraits v. 2.0 [53] с помощта на �yesMulitState ’ [54] и модел на Марков верига Монте Карло (MCMC). Реконструкциите се основават на всички 30 000 байесови хронограми след изгаряне от филогенетичния анализ в BEAST. За всеки анализ бяха приложени еднакви приоритети от 0 до 100, а процентът на приемане беше между 20% и 40%. Всеки анализ е провеждан за 5 милиона поколения с проби, взети на всеки 1000 поколения, като първите 1 милион поколения от всеки цикъл се изхвърлят като изгаряне (тоест резултатите от състоянието на предците се базират на 4 милиона поколения след изгаряне =𠂔, 000 проби).

Историята на живота беше реконструирана като подредена, категорична черта с три състояния (директно развитие, двуфазно, педоморфно). Възрастовите черти (метаморфоза и съзряване) бяха анализирани с помощта на ‘непрекъснато’ (брой месеци) и категорично кодиране (брой години). Категоричните анализи позволяват тестване сред алтернативни състояния за някои ключови възли на предците (например възрастта на метаморфоза и съзряване за класата Spelerpini, описана по -долу). Разделихме непрекъснатите възрасти на четири метаморфни възрастови категории: 1 =� месеци или по-малко 2 =� до 23 месеца 3 =02009 до 3 =020202020202009 #x000a0months или повече. Подобна стратегия беше приложена както за минимално мъжко, така и за женско съзряване, но включваше две допълнителни възрастови категории: 1 =� месеци или по-малко 2 =� до 23 months#2002 до 3 35   месеца 4   = � до 47  месеца 5   = � до 59  месеца 6   = �   месеца или повече.

За реконструкциите на историята на живота преходите бяха разрешени само между двуфазно и директно развитие или двуфазно и педоморфно, но не и между пряко развитие и педоморфно (преходи, зададени на нулева вероятност). По същия начин преходите между категорични възрастови състояния също бяха подредени числено чрез задаване на нечислово съседни категории на нулева вероятност. Например за четирите метаморфни възрастови категории бяха разрешени преходи в двете посоки между категории 1 и 2, 2 и 3, и 3 и 4, но не и между 1 и 3, 1 и 4 или 2 и 4. Същата стратегия беше приложен към шестте възрастови категории за мъже и жени. Прилагането на подредени категории принуждава предците да се развиват последователно през възрастови категории (без пропускане), а също така намалява броя на възможните преходи за нашите реконструкции. Нашите анализи с подредени възрастови категории винаги са били по -подходящи от анализите с неограничени преходи между категории.

Всички подредени преходи между състояния (в рамките на черти) бяха настроени на еднакви скорости (тоест модели с една скорост). За всяка черта сравнихме пригодността на едноскоростен модел с модел, при който се позволяваше да се променят процентите на преход (за подредени състояния) (многоскоростни модели). Най-ниският AIC резултат показва най-подходящия модел. Стойностите 𢁪IC σ се считат за незначителни разлики между моделите, стойностите 𢙓 се считат за умерено силни, а стойностите � се считат за много силна подкрепа за отхвърляне на алтернативния модел с по -висок резултат на AIC [55]. За всяка черта моделът с една скорост е значително по-подходящ от модела с много проценти (история на живота 㥊IC =�.62 Метаморфна епоха 㥊IC =𠂘.59 Malge AIC.5. 㥊IC   = 𠂙.12 Възраст на зреене на жените 㥊IC   = �.08).

Използвахме BayesTraits, за да тестваме за разлики между условията на предците за ключови възли във филогенезата на спелепините. Тези анализи бяха извършени чрез фиксиране (𠆏ossilizing’) възли към алтернативни състояния и сравняване на хармоничните средни (hm) за всеки цикъл чрез изчисляване на разликите в Log Bayes факторите (LBf). Най -ниският LBf показва най -подходящия модел [53,54]. Стойностите на LBf σ се считат за незначителни разлики между моделите, стойностите 𢙓 показват се считат за умерено силни, а стойностите � се считат за много силна подкрепа за отхвърляне на алтернативния модел с по-висок LBf.

Непрекъснати анализи на чертите на времето на метаморфозата и съзряването на мъжете и жените бяха извършени в BayesTraits [53,54], използвайки MCMC по модел на Brownian Motion (𠆌ontinuous Random Walk ’). Реконструкциите се основават на всички 30 000 байесови хронограми след изгаряне от филогенетичния анализ в BEAST. Параметрите за генериране на цикъл бяха същите, както е описано по-горе за анализи с множество състояния, а резултатите се базираха на 4000 проби след изгаряне.

Използвахме байесовия интервал на достоверност с 95% най-висока предшестваща плътност (HPD) на състоянието на предците на спелепините, за да определим кои таксони имат метаморфна възраст, възникнала от ускорение (по-малко от 95% HPD интервал), забавяне (по-голямо от 95% HPD интервала ), или стазис (в рамките на интервала от 95% HPD с други думи, показващ по-ниска вероятност да бъде различен от нашата оценка на състоянието на предците). Освен това, за да проверим дали педоморфозата на ларвната форма е възникнала от неотения или прогенеза, ние изследвахме времето на съзряване през еволюционната промяна от метаморфоза към педоморфоза в голяма група педоморфни Еврицея от платото Едуардс в Централен Тексас (Фигура   2 възел D). Ако педоморфозата възникне чрез прогенеза (ранно съзряване [1,26]), бихме очаквали значително намаляване на времето за съзряване, съпътстващо еволюцията на педоморфозата. Обратно, ако педоморфозата е възникнала от неотения (забавено соматично развитие [1,26]), тогава не бихме очаквали значителни разлики в моделите на съзряване на предците по време на прехода от метаморфоза към педоморфоза. Ние определихме количествено значителни промени в съзряването на предците (за мъже и жени отделно, използвайки както категорични, така и непрекъснати анализи). За категоричните анализи ние фиксирахме състоянието на предците в четири възела, обхващащи еволюцията на педоморфозата в платото Едуардс Еврицея (Фигури  2 възела от B до E) към шестте алтернативни категории на зреене (години). За даден възел използвахме Log Bayes фактори, за да сравним коя от категорията на зреене е най-подходяща и кои категории са значително по-лоши (методи, описани по-горе). Отново, за прогенезата, бихме очаквали, че най -подходящите възрасти за зреене ще се изместят към по -младите възрастови категории в тези възли, докато неотенията не трябва да показва промяна (или увеличение) във възрастовите категории на зреене. Освен това сравнихме 95% HPD интервала на реконструкции на възрастта на непрекъснато съзряване от BayesTraits (по -горе) за тези възли (В до Е), за да оценим потенциалното намаляване на времето на зреене (прогенеза). Съзряването на мъжете и жените се анализира отделно както за категорични, така и за непрекъснати методи.

Байесова реконструкция на режимите на история на живота на предците на племодонтидните саламандри. Разглеждат се три подредени алтернативни състояния на историята на живота: директно развитие (жълто), двуфазно (тъмно сиво) и педоморфно (синьо). Байесовите реконструкции на предшественото състояние са извършени в BayesTraits (вж. Методи). Кръговите диаграми на всеки възел показват пропорционалната вероятност (вероятност) за всяко състояние, а най -високата вероятност задържа всеки възел. Филогенезата се основава на байесовия анализ на Парцал1 последователности в BEAST. Вижте също Допълнителен файл 4.


Дискусия

Обратните връзки растение-почва могат да повлияят на производителността на растителните видове и конкурентоспособността, с последици за сглобяването на общността (Bever, 2003 Bonanomi и др., 2005 г.). Следователно са положени значителни усилия за разбиране как растителните видове реагират на собствената си почвена биота и на почвената биота, култивирана от други видове, включително дали отговорите на обратната връзка могат да бъдат предвидени от сродството на растителните видове. Въпреки доказателствата, че както идентичността на биотичните партньори, така и отговорът на растителните видове към тези партньори са свързани с филогенетична свързаност (Барет и др., 2016 Hoeksema и др., 2018 г. Giauque и др., 2019), опитите за идентифициране на филогенетичен сигнал в отговорите на обратната връзка са довели до смесени резултати. Използвайки обширен набор от данни, съставен от проучвания за обратна връзка между растенията и почвата (Crawford и др., 2019), ние показваме, че: има силен филогенетичен сигнал във връзките между растенията и почвата, филогенетичният сигнал възниква предимно чрез ненасочено разминаване на отговорите на обратната връзка с течение на времето с лека тенденция отговорите да станат по -отрицателни с по -голямо филогенетично разстояние (вж. Също Крофорд и др., 2019) и моделът на дивергенция е в съответствие с случайни големи ко-еволюционни промени между растенията и почвените микроби, а не с непрекъснато постепенно разминаване.

Много изследвания са изследвали дали има насочена тенденция в отговорите на обратна връзка, свързани с филогенетичната свързаност. Това се дължи до голяма степен на предполагаемата важност на отрицателните обратни връзки за насърчаване на съвместното съществуване и инвазия, и положителните обратни връзки за насърчаване на господството на отделни видове (Mehrabi & Tuck, 2015 Fitzpatrick и др., 2016 Кемпел и др., 2018 г. Kuťáková и др., 2018 г.). Нашите констатации повтарят тези на Крофорд и др. (2019), показвайки някои доказателства за лека отрицателна тенденция в отговора на обратната връзка с увеличаване на филогенетичното разстояние. Такъв резултат трябва да благоприятства съжителството между по -отдалечени видове и по този начин да насърчава общности с по -голямо филогенетично разнообразие (Bonanomi и др., 2005 ).

Въпреки това, нашият анализ подчертава, че всяка отрицателна тенденция в резултатите от обратната връзка е лека в сравнение с общото увеличение на дисперсията поради разминаване в двете посоки с течение на времето. Увеличаването на дисперсията на отговорите на обратната връзка през еволюционното време въз основа на данни от множество проучвания е в съответствие с нашето разбиране за обратната връзка между растенията и почвата, където нетният ефект на патогени, муталисти и други компоненти на почвената биота не променя последователно производителността на растенията при определена посока (Дзян и др., 2020). Силните насочени тенденции трябва да възникнат само в специфични ситуации, при които има убедителни причини да се очаква непропорционално влияние или на патогени, или на мутационисти върху фокалните видове (например Liu и др., 2012 г.). Леката отрицателна тенденция, която наблюдаваме, може да отразява по-висока специфичност на почвените патогени в сравнение с почвените мутуалисти, което би могло да доведе до това, че растенията ще се възползват повече чрез загубата на патогени в почви на по-далечно свързани видове, в сравнение с цената на загубата на мутуалисти. Разликата между това, което теорията може да предвиди за филогенетичните сигнали в конкретни ситуации или казуси, и това, което теорията предвижда при интегриране на данни от множество проучвания, може да е една от причините, поради които се е оказало трудно да се идентифицира ясен филогенетичен сигнал в резултатите от обратната връзка на растенията и почвата.

Увеличаването на дисперсията на отговорите на обратната връзка поради дивергенцията в двете посоки през еволюционното време предполага, че близките роднини са склонни да реагират на почвената микробиота един на друг по сходни начини, но че величината и посоката на отговорите на обратната връзка стават по-променливи с по-голямо филогенетично разстояние. Следователно може да е възможно само да се предскажат резултатите от обратната връзка с каквато и да е точност сред тясно свързани видове: филогенетичното разстояние е от по -малка помощ за прогнозиране на отговора сред отдалечено свързани видове.

Голяма част от увеличаването на променливостта в отговорите на обратната връзка през еволюционното време се дължи на по-екстремни стойности от очакваните при модел на постепенно отклонение. Това е в съответствие с големи промени, свързани с някои растителни линии, които са ограничени от съвместна еволюция със специализирана микробиота. Такива родове трябва да се възползват непропорционално от избягването на естествени врагове на специалисти или непропорционално да страдат от загуба на специалисти -взаимници, резултат, за който е известно, че се среща в някои семейства растения. Например, Orchidaceae (орхидеи) и Ericaceae (храсти) образуват специализирани асоциации с орхидеи и ерикоидни микоризни гъби, Fabaceae (бобови растения) разчитат на почвени бактерии (ризобии) за фиксиране на азот, а Poaceae (треви) са по-добре култивирани и култивират микроби. реагиращ на тези общности, отколкото други форми на живот (Hoeksema и др., 2010 Дейвисън и др., 2020). В данните, които анализирахме, седем семейни двойки имат по-екстремни отговори на обратна връзка от средните, което включва семействата Fabaceae и Poaceae (фиг. 5 няма Orchidaceae в данните). Въпреки че е важно да не се тълкуват прекомерно тези резултати, тъй като повечето сравнения между семейства включват сравнително малко видове и отговори на обратна връзка, моделирането на вариацията, свързана със средните отговори на ниво семейство (фиг. 5), обяснява голяма част от увеличаването на вариацията в обратната връзка отговори с нарастващо филогенетично разстояние, оставяйки по-слаб остатъчен филогенетичен сигнал (параметър к е много по-близо до нула в модел 7, фиг. 3).Следователно, нарастващата дивергенция в отговора на обратната връзка с по-голямо филогенетично разстояние може до голяма степен да се обясни с различния отговор на видовете в определени семейства към микробиота, свързана с видове в други семейства. Разбирането на различията в отговорите на обратната връзка в рамките на и сред семействата може да бъде един от начините за увеличаване на предвидимостта на резултатите от обратната връзка сред по -отдалечени видове.

Заключения

Докато родствеността може да помогне за прогнозиране на резултата от някои биотични взаимодействия (Паркър и др., 2015 Бъфорд и др., 2016 г.), опитите да се предскаже как растителните видове ще реагират взаимно на почвената микробиота на базата на родственост дават смесени резултати. Ние изяснихме как могат да възникнат филогенетични сигнали в резултатите от обратна връзка между растенията и почвата и използвахме неотдавнашна компилация от данни за количествено определяне на естеството на филогенетичния сигнал. Нашите резултати потвърждават други проучвания, които предоставят в най-добрия случай слаба насочена тенденция и подчертават, че познанията за родствеността на растителните видове най-вероятно са слаб предсказател за резултатите на ниво общност за обратна връзка между растения и почви. Нашите резултати показват, че е трудно да се предскаже как видовете ще реагират на почвената микробиота един на друг от познаването на филогенетичното разстояние само между растителните видове, освен да се каже, че по -близкородните видове са склонни да имат по -сходни реакции. Независимо от това, тази очевидна загуба на предсказуемост може да бъде компенсирана от модел на дивергенция, който предполага, че обратната връзка става ограничена в някои линии от съвместна еволюция със специалисти-муталисти или врагове. Ако е така, резултатите от обратната връзка между далечно свързани видове могат да бъдат предвидими от познаването на участващите линии и как видовете в тези линии реагират на почвената биота на другия (напр. Фиг. 5). Идентифицирането на семейства, за които отговорите на обратната връзка са били ограничени от съвместната еволюция със специализирана почвена микробиота и изследването на резултатите от обратната връзка за видове в рамките на и сред тези семейства, би могло да подобри способността ни да прогнозираме резултатите.


Методи и резултати

МАТЕМАТИЧНИ И КОМПЮТЪРНИ ПОДРОБНОСТИ

Програмирахме всички анализи, представени тук, на гъвкавия научен компютърен език R (R Development Core Team 2010). Кодът, който използвахме за анализите на тази статия, е достъпен като Приложение S1 и актуализираните версии ще бъдат разпространявани като част от пакета R phylogenetics „phytools“ (Revell 2011). Симулационният, MCMC и диагностичният код на MCMC, всички предоставени в Приложение S1, извикват функции от филогенетичните пакети „маймуна“ и „гейгер“ (Paradis et al. 2004 Harmon et al. 2008) и от диагностичния пакет MCMC „coda ” (Plummer et al. 2010).

Представеният тук модел е за еволюцията на единичен, непрекъснато оценяван знак върху вкоренено филогенетично дърво с дължини на разклонения в единици, пропорционални на времето. Съгласно този модел еволюцията протича чрез процес на брауновско движение върху дървото (Кавали-Сфорца и Едуардс 1967 Фелзенщайн 1985). Моменталната вариация на еволюционния процес в този модел (еволюционната скорост) се променя от ниско към високо или от високо към ниско, веднъж и само веднъж в дървото. Съответно моделът има четири параметъра: двете еволюционни скорости (σ 2 1 и σ 2 2 ), които преобладават от двете страни на изменението на лихвения процент θ , 2 × 1 вектор, съдържащ идентичността на клона и позицията по протежение на клона, при която еволюционната скорост преминава от σ 2 1 до σ 2 2 (или обратно) и накрая, стойността на предшествената черта в кореновия възел на дървото (α). Данните се състоят от стойности за непрекъснато разпределен характер за всички видове върхове и раздвоена или многофункционална вкоренена филогения с дължини на клоните. Ние се фокусираме върху оценката на σ 2 1 , σ 2 2 , и θ от данните за дървото и знаците.

(А) Стохастично дърво от пет таксона. Дължини на разклонения (v) са показани над всеки ръб, обозначени с възела, който предхождат. Числото под всеки ръб е частта от общата дължина на клона в дървото, представена от горния ръб. (Б) Изчисляване на ° С1 и ° С2 за клони, боядисани съответно със синьо или червено. Обърнете внимание, че хипотетичното изместване от синьо към червено се случва фракция к по протежение на клона, водещ до потомствени видове Б, ° С, и д, и е обозначен с θ.

Ние проектирахме нашата MCMC писта, както следва. Първо инициализирахме веригата с начални стойности за параметрите в модела. Тези стойности на параметрите могат по избор да бъдат предоставени от потребителя, но за подобряване на изчислителната производителност, по подразбиране нашата реализация е програмирана да избира разумни начални стойности за параметрите (описани по-долу). За всяко поколение на веригата, ние пристъпихме към циклично обновяване на всеки параметър в модела (т.е. да речем, че актуализирането на четирите параметъра отне четири поколения) със случайна стъпка от разпределението на предложението за този параметър. Използвахме разпределения на Гаусово предложение, центрирано на нула, за промени в процентите (σ 2 1 и σ 2 2 ) и предшестващата стойност ( α ) и използвахме симетрично експоненциално разпределение (т.е. експоненциално разпределение, чиято плътност е намалена наполовина и отразена през ординатата) за промени в точката на изместване ( θ ). Отрицателните стойности в този случай означават промяна към корена на дървото. Опитахме и разпределение на Гаусово предложение за θ , въпреки че това направи малка разлика в тестовите набори от данни, които анализирахме. Оставихме симетричния експоненциал по подразбиране, защото вярваме, че ще позволи по-задълбочено изследване на дървото от MCMC веригата. При нашата реализация на този MCMC алгоритъм, вариациите на всяко разпределение на предложение могат да бъдат определени от потребителя.

Промени в θ които са по-големи от оставащата дължина на текущия ръб (т.е. клон), също изискват едно или множество решения, съгласно следния алгоритъм: (1) ако се върви надолу по дървото, а не в корена, ние продължаваме към родителя edge или другите дъщери (позволяващи мултифуркация) всички с еднаква вероятност (2) ако вървим нагоре по дървото, а не на върха, пристъпваме към двата дъщерни ръба с еднаква вероятност (3) ако в корена, пристъпваме към всеки други дъщерни ръбове с еднаква вероятност и накрая, (4) ако на върха, ние отразихме промяната обратно по ръба на върха точно на разстоянието, което иначе би надвишило крайния възел.

Ако му бъде позволено да продължи безпрепятствено произволно ходене по дървото, този алгоритъм в крайна сметка ще изпробва всички ръбове на дървото с вероятност, пропорционална на дължините им (не е показано). За да се гарантира правилното смесване, ние също разрешихме малка част от стъпките (да речем, 5%, но това също може да бъде променено от потребителя), за да доведе до преминаване към произволно избран клон с вероятност, пропорционална на дължината му. Половината от времето, през което се извършва такова движение, също сменихме стойностите на σ 2 1 и σ 2 2 .

Разпределения на нашите предложения за σ 2 1 , σ 2 2 , и α са симетрични. Доказателство за симетрия на разпределението на предложението за θ е даден в Приложение S2. Симетрията на разпределенията на предложението е важно свойство, тъй като ни позволява да зададем съотношението на Хейстингс на 1,0 (Hastings 1970 Yang 2006, виж по -долу).

В настоящото изследване използвахме логарно нормално предварително разпределение на вероятността, центрирано на 0.0 за съотношението, и равномерно преди на логаритмичната скала за средната геометрия на σ 2 1 и σ 2 2 . Използвахме също неограничена униформа преди за α и униформена преди за θ . За θ , това означава, че предходната вероятност точката на изместване да е на който и да е ръб на дървото е точно пропорционална на дължината на този ръб. Изследвахме различни разпределения за приоритета на σ 2 1 и σ 2 2 и нашите анализи не изглеждаха особено чувствителни към предходните, с изключение на един специфичен набор от условия, които ще обсъдим по -подробно по -долу (вж. Дискусия).

При нашата реализация на този метод, потребителят може да предостави произволно или неслучайно избрани стойности на началните параметри за σ 2 1 , σ 2 2 , и α за инициализиране на изпълнението на MCMC. Въпреки това, по подразбиране, ние използвахме предварително извлечено аналитично решение за оценка на максималната вероятност (MLE) на еволюционната скорост при режим на единична скорост (т.е., σ 2 1=σ 2 2= MLE (σ 2 ) например, O’Meara et al. 2006) и използвахме MLE на стойността на предците на кореновия възел под единна ставка за α (Rohlf 2001 O’Meara et al. 2006). Това беше направено главно за подобряване на изчислителната производителност и намаляване на изгарянето, като се започне със стойности за σ 2 1 , σ 2 2 и α, които бихме могли да очакваме да бъдат приблизително с правилната величина. За инициализиране θ , случайно избрахме място за точката на изместване между режимите на скоростта на дървото. Вероятността за избор на точка на изместване по който и да е клон на дървото е зададена да бъде пропорционална на дължината на клона, което означава, например, че ще бъде точно два пъти по -вероятно да започне с произволна точка на изместване на клон с дължина 2v отколкото на такъв с дължина v. Това по същество е еквивалентно на избора на случайна стойност на θ от предишното ни разпределение на вероятностите за θ .

Всяка задна проба за този анализ се състои от стойности за σ2 1 , σ 2 2 , α и θ стойност за дневната вероятност и списък с етикетите на върха за набора от върхове в състояние σ 2 2 . Тъй като σ 2 1 и σ 2 2 зависят и от двете θ и множеството върхове в състояние σ 2 2 (т.е. дали σ 2 1 или σ 2 2 е получената скорост), ние предлагаме следния алгоритъм за предварителна обработка на задната проба от нашия MCMC цикъл. Първо, открихме средната точка на изместване в задната проба. Това беше направено чрез идентифициране на извадената точка с минималното сумирано разстояние до всички останали точки в извадката (въпреки че други опции за това със сигурност са възможни, вижте Дискусия). След това преминахме през всяка проба в задната част, разделяйки дървото в точката на изместване за тази конкретна проба и след това присвоявайки получените и предшествените проценти на ръбове или фракции от ръбове в предните и получените поддървета, съответно (това може да бъде σ 2 1 и σ 2 2 , или σ 2 2 и σ 2 1 , в зависимост от членството в нашия списък с етикети за тази извадка). Накрая прикрепихме отново двете поддървета и изчислихме средните скорости в корена и на върха от точката на средното изместване. Обърнете внимание, че колекцията от ръбове и фракции от ръбове от корена или на върха на средната точка на изместване може да включва една или и двете категории скорости в зависимост от това как прогнозната точка на изместване за тази извадка се различава от средната точка на изместване. За съгласуваност в пробите, сега зададохме σ 2 2 винаги като изведена скорост и σ 2 1 като ставка на предците.

СИМУЛИРАН ПРИМЕР

Ние генерирахме и анализирахме симулирано филогенетично дърво и фенотипен набор от данни, за да илюстрираме приложението и резултатите от нашия метод. Тази симулация също формира основата за нашия анализ на ефективността на метода по -долу (вижте раздел Анализ на ефективността).

Първо симулирахме стохастична филогенеза с чисто раждане със 100 терминални вида. След това избрахме на случаен принцип позиция на дървото като място на изместване на скоростта за нашия количествен характер. Този еволюционен сценарий е илюстриран от цветните клони на филогенетичното дърво на фигура 2. Промяната на скоростта се намира в произволна позиция на етикетирания клон „147“, където клоните са идентифицирани по броя на низходящия възел, а възлите са номерирани съгласно конвенциите на „фило“ обектите във филогенетичния пакет „маймуна“ за R (Paradis et al. 2004 Paradis 2006). След това разработихме непрекъснат характер на филогенезата при Брауново движение с начална стойност α= 0.0 в корена на дървото. Симулираният еволюционен процес имаше мигновени скорости σ 2 1= 1,0 по ръбовете в корена от точката на изместване (сини клони на фиг. 2) и σ 2 2= 10,0 по ръбовете на върха на тази точка (червени клони).

Стохастично дърво от 100 таксона, използвано за симулирания пример. Фенотипни данни бяха генерирани за това дърво с 10 пъти по-висока еволюционна скорост по клоните, боядисани в червено. Указанието на възела на изместване на скоростта (номерирано с „147“, съгласно конвенцията „фило“ в „маймуна“) също е посочено. Числата, представени в скоби по -долу или в съседство с клоните, са последната вероятност, че промяната на скоростта е настъпила на всеки маркиран ръб от илюстративния пример. Докладват се само постериорни вероятности ≥ 0,001.

За изпълнението на MCMC ние задаваме следните контролни параметри. Зададохме стандартните отклонения на разпределението на Гаусовото предложение за σ 2 1 и α до 0,5 и стандартното отклонение на разпределението на предложението за σ 2 2 до 1.0. Задаваме параметъра на скоростта (λ) за експоненциалното разпределение на предложението за преместване на точката на изместване на λ= 5.0. Тъй като случайното отклонение от експоненциалното разпределение на предложението за ходове на дърво също е присвоено на случаен знак с еднаква вероятност, разпределението на реализираното предложение за движения на дърво има следната плътност: за х ≥ 0 и в противен случай. Ние също така задаваме вероятността да се предложи преместване на произволна точка в дървото на 0,05. Зададохме дисперсията на логаритмичната норма преди за съотношението на скоростта на 2.0 накрая, използвахме униформен априор за α и θ .

Изпълнихме алгоритъма на Metropolis-Hastings MCMC за 100 000 поколения, вземайки проби на всеки 10 поколения. Фигура 3А показва следата от дневната вероятност, взета на всеки 100 поколения (т.е. на всеки 10 проби) от целия цикъл на MCMC. В този пример можем да видим, че веригата се сближава бързо. След това предварително обработихме задната проба, както беше обсъдено по-горе. Фигури 3В и 3С показват честотните хистограми на задните проби, получени след предварителна обработка на задните проби за σ 2 1 и σ 2 2 , като първите 10 000 поколения са изключени като изгаряне. Изчислихме ефективни размери на извадката (ESS) и 95% достоверни интервали (CI) за средната стойност на задното разпределение за σ 2 1 , σ 2 2 , и α (Таблица 1). Това може да стане доста лесно с помощта на пакета R „coda“ (Plummer et al. 2010) или, алтернативно, в Java програмата „Tracer“ (Rambaut и Drummond 2009), която има предимството на много удобен за потребителя графичен интерфейс. Препоръчваме ESS за еволюционни нива от най-малко 100. Ако се получи ESS по-малко от 100, тогава MCMC може да бъде повторен и пробите след изгаряне да се комбинират (напр. Ho et al. 2007). Изчислихме приблизителните стойности на σ2 1 , σ 2 2 и α като средната стойност на предварително обработената задна проба (с изключение на изгарянето). Всички бяха много близки до условията за генериране тук (Таблица 1). Изборът на апостериорната средна аритметична стойност като оценител е произволен. Вместо това можем да изчислим задната средна или геометрична средна стойност (въпреки че в този пример средните аритметични стойности на задната извадка са доста близки до генериращите стойности на параметъра). ESS за σ 2 1 и α бяха доста високи, което показва относително ниска автокорелация в задните проби за тези параметри, но ESS беше значително по -ниска за σ 2 2 , което предполага, че може да се справим по-добре, като коригираме дисперсията на разпределението на предложението за този параметър.

Резултати от симулирания пример. (А) Следа от дневник (Л) по номер на поколение за 100 000 поколение MCMC анализ. Дневникът (Л) се взема проби на всеки 100 поколения. (Б) Честотна хистограма на задната проба след изгаряне за σ 2 1 . Генериращата стойност на σ 2 1= 1.0 се обозначава с вертикалната пунктирана линия. Средната стойност от задната проба е дадена чрез вертикалната плътна линия, докато 95% достоверният интервал (CI) се дава от защрихованата област. (C) Същото като (B), но за σ 2 2 . Генериращото условие в този случай е σ 2 2= 10.0 .

Параметър Генериране на стойност Оценка (средно от задната проба) Ефективен размер на пробата 95% достоверен интервал
σ 2 1 1.0 1.074 2172 (0.7373,1.4440)
σ 2 2 10.0 11.43 247.0 (5.0812,19.8603)
α 0.0 0.042 3520 (−0.7087,0.7484)
[147,0.0084] [147,0.0536]

Ние също изчислихме приблизителна точка на изместване на средната скорост, като изчислихме всички двойки разстояния между точките на изместване в задната проба след изгаряне и след това избрахме точката на изместване с минималното сумирано разстояние до всички останали точки в пробата, както е описано по-горе. Тази стойност, която съответства много близо до генериращата точка на изместване в този пример, също е отчетена в Таблица 1. Тази процедура няма да бъде изчислително осъществима за много дълги цикли на MCMC, но в този случай вместо това може да се използва по -рядка извадка от точки на изместване от задното (взето, да речем, на всеки 100 или 1000 поколения, вместо на всеки 10 поколения, както в този пример). И накрая, изчислихме задната вероятност точката на изместване да е на всеки ръб на дървото. За всички ръбове със задна вероятност ≥ 0,001, ние начертахме тези вероятности по -долу или в непосредствена близост до съответните клони на фигура 2. Почти всички (96%) от задната плътност за местоположението на изместване на скоростта са на генериращия ръб в този случай (фиг. 2).

АНАЛИЗ НА ИЗПЪЛНЕНИЕТО

За да оценим ефективността на метода по-общо, проведохме два комплекта симулационни тестове на метода. Първо, ние проведохме следната симулация общо 80 пъти (20 пъти за всеки от четирите набора от скорости на генериране, описани по-долу): (1) Симулирахме стохастично, чисто раждане, н = 100 вида филогенетично дърво с дължини на клоните. (2) Избрахме произволно точка на изместване на дървото. Въпреки че на теория нашият метод би трябвало да е подходящ за откриване на еволюционни промени в скоростта в субклади от всякакъв размер, ние очакваме, че методът ще страда от ниска мощност, когато броят на видовете към корена спрямо върха на изместването на скоростта е изключително небалансиран. По този начин, за да избегнем този проблем в нашия ранен анализ на ефективността на метода, решихме да изключим произволно избрани точки на изместване с по-малко от 20 или повече от 80 вида потомци (с други думи, изключихме разделянето за симулация, при което повече от 80% от таксоните във филогенията бяха от едната страна на разцеплението). (3) След това симулирахме данните за дървото с генериращи условия, както следва: клоните, предшествени на точката на изместване, се развиха със скорост σ 2 1= 1,0, докато получените клонове се развиват с темпове σ 2 2= 0,1, 1,0, 5,0 или 10,0 (по 20 симулации всяка). (4) Инициирахме веригата MCMC, както в илюстративния пример по -горе, и стартирахме веригата за 100 000 поколения. Обикновено потребителите вероятно ще изпълняват множество MCMC вериги, като регулират контролните параметри, за да осигурят правилното смесване и сближаване.Тук просто коригирахме контролните параметри (главно вариациите на разпределенията на предложението или броя на поколенията във веригата) и пренаредихме всички MCMC, за които ESS за σ 2 1 или σ 2 2 беше по-малко от 100. Правихме това, докато не получихме ESS, по-големи от 100 за всички тестове. (5) Изчислихме обобщена статистика за последната извадка, с изключение на първите 20 000 поколения от извадката. В допълнение към обобщените мерки, докладвани в Таблица 1, ние също изчислихме патристичното разстояние между изведената точка на изместване () и генериращата стойност на θ за всяко повторение (т.е. минималното разстояние на ръба, свързващо двете точки в дървото).

Обобщение на резултатите от тези анализи е дадено в Таблица 2. Резултатите за всичките 80 симулации са в Приложение S3. За всеки набор от условия на симулация, Таблица 2 дава средните аритметични стойности на σ 2 1 , σ 2 2 , и α (геометричните средни стойности и медианите за σ 2 1 и σ 2 2 са докладвани в Приложение S3), делът на симулациите, при които е изведен правилния възел, и частта от симулациите, при които 95% ДИ за σ 2 1 не се припокриват (нашата оценка за σ 2 2 ) и обратно. Последната честота е аналогична на статистическата „мощност“ на метода (или неговата грешка тип I, за условията на генериране σ 2 1=σ 2 2= 1,0 алтернативно, 1,0 минус тази част е процентът на грешки тип II на метода, ако σ 2 1≠ σ 2 2 ). Тази процедура е донякъде ad hoc, тъй като самият модел изрично приема, че σ 2 1≠σ 2 2 обаче резултатите от Таблица 2 и Приложение S1 предполагат, че само рядко ще бъдем подведени да вярваме, че σ 2 1≠ σ 2 2 ако всъщност са равни. Ние също така съобщаваме средното разстояние между и θ за всяко симулационно условие. Като цяло оценките на параметрите са доста добри и 95% CI почти винаги включват стойността на генериращия параметър. Методът също има отличен успех при идентифицирането на позицията на изместване на скоростта към определен ръб в дървото, особено когато пропорционалната разлика между σ 2 1 и σ 2 2 е висока (Таблица 2).

Симулация 1: σ 2 1= 1,0, σ 2 2= 0.1 Симулация 2: σ 2 1= 1,0, σ 2 2= 1.0 Симулация 3: σ 2 1= 1,0, σ 2 2= 5.0 Симулация 4: σ 2 1= 1,0, σ 2 2= 10.0
(SD) 1.05 (0.175) 1.06 (0.172) 1.241 (0.389) 1.16 (0.158)
(SD) 0.129 (0.0618) 1.08 (0.173) 4.326 (1.463) 10.66 (3.522)
(SD) −0.137 (0.132) 0.013 (0.409) 0.0400 (0.0331) −0.083 (0.057)
ESS(σ 2 1) 679.6 691.0 324.0 746.4
ESS (σ 2 2 ) 618.1 633.8 368.8 419.4
ESS(α) 773.8 780.2 806.5 780.8
На CI( σ 2 1 ) 1.00 0.95 0.80 1.0
На CI (σ 2 2) 0.85 0.95 0.80 0.9
Няма припокриване на CI 1.00 0.00 0.75 1.0
Правилен ръб 0.95 0.15* 0.70 0.85
Разстояние (SD) 0.0531 (0.0473) 0.195* (0.146) 0.0821 (0.0533) 0.0533 (0.0587)

Второ, ние също изследвахме ефективността на метода върху по -малки и по -големи филогении от стохастичните н = 100 дървета, описани по-горе. За да направим това, използвахме следната процедура: (1) Симулирахме 20 филогении с чисто раждане с всеки от следните размери н = 30, 50, 70 и 200. (2) На всяко дърво избрахме място на произволно изместване на скоростта, така че не по-малко от 20% и не повече от 80% от видовете в дървото да бъдат открити на върха от тази точка. (3) След това симулирахме еволюцията на непрекъснато ценен знак с σ 2 1= 1,0 и σ 2 2= 10,0 като проценти на предците и производните, съответно. (4) Пуснахме нашата MCMC верига за всеки симулиран набор от данни и дърво, използвайки описаните по -горе условия, и след това изчислихме обобщени мерки от задната проба. Отново пренареждаме MCMC, за които ESS или от σ 2 1 или σ 2 2 беше по-малко от 100.

Резултатите от тези анализи са обобщени в Таблица 3, а конкретни резултати от всички анализи са дадени в Приложение S3. Като цяло открихме, че методът има забележителен успех при идентифицирането на местоположението на изместването на скоростта в дървото. Еволюционните темпове са били отклонени върху малки дървета (по -специално такива, че са и по -сходни), но това отклонение почти изчезва за по -големите симулирани филогении в изследването.

н=30 н=50 н=70 н=200
(SD) 1.93 (0.909) 1.33 (0.414) 1.17 (0.353) 1.066 (0.146)
(SD) 8.80 (5.20) 10.17 (5.09) 10.02 (3.20) 9.54 (1.34)
(SD) 0.0955 (0.401) −0.156 (0.404) −0.029 (0.466) 0.020 (0.493)
ESS (σ 2 1) 483.6 526.7 683.8 763.0
ESS (σ 2 2 ) 393.1 277.4 314.6 558.2
ESS (α) 815.0 858.1 859.1 828.3
На CI( σ 2 1 ) 0.90 1.00 0.95 0.95
На CI (σ 2 2) 0.85 0.85 0.90 1.00
Няма припокриване на CI 0.55 0.85 0.95 1.00
Правилен ръб 0.80 0.85 0.95 0.90
Разстояние (SD) 0.173 (0.232) 0.133 (0.144) 0.062 (0.060) 0.057 (0.048)

ЕМПИРИЧЕН ТЕСТ

И накрая, ние също изследвахме ефективността на метода, използвайки емпиричен набор от данни и дърво. Анализирахме еволюцията на размера на тялото (измерена като log-SVL: „дължина от муцуната до вентилацията“) в поддърво от 32 вида, извлечено от 100 таксона Анолис филогенезата на Mahler et al. (2010) . Избрахме да анализираме това поддърво, а не цялото Карибско море Анолис филогения, защото резултатите от предишни проучвания (например Butler and King 2004) предполагат, че повече от два различни еволюционни процеса могат да управляват еволюцията на тази група гущери в Карибите. Фокусирахме се върху поддървото, дадено на фигура 4, което съдържа Anolis sagrei група на Куба A. distichus група на Хипаниола A. cristatellus и свързаните с тях пуерторикански гущери и накрая, ендемичната радиация от шест Анолис вид на Ямайка.

Филогенеза на поддърво от радиацията на Карибите Анолис. Коефициентите и задните плътности са от анализ на еволюцията на размера на тялото на това дърво. Задните вероятности за изместване на скоростта, намиращи се на всеки ръб на дървото (ако>> 0,01), се представят от запълнената част на всяка кръгова графика. По -голямата част от задната плътност за промяна на скоростта предполага увеличаване на еволюционната скорост в основата на или в рамките на ямайската диверсификация на Анолис. Тази констатация е в съответствие с предишни проучвания, показващи, че скоростта на еволюция се увеличава на ново колонизираните острови, тъй като Ямайка е единственият остров, колонизиран de novo в това поддърво (всички други предполагаеми колонизации са вторични или обратно колонизации, виж Mahler et al. 2010). Общата дължина на дървото е мащабирана до 1.0 в този пример.

Оптимизирахме MCMC, както следва. Използвахме разпределения на Гаусово предложение за σ 2 1 , σ 2 2 , и α, с отклонения 0,015, 0,050 и 0,90. Използвахме приоритет за съотношението на log-трансформираните скорости с вариация 4.0. Обобщение на резултатите от този анализ е дадено на Фигура 4. Открихме, че по -голямата част от задната плътност за промяна на скоростта в нашия модел е открита или в основата, или в рамките на ямайското излъчване. Прогнозната скорост на промяна е около 8,5 пъти по -висока от прогнозната скорост от началото на смяната. Обърнете внимание, че Ямайка е единственият остров в тази филогения, за който се предполага, че е колонизиран de novo в това поддърво (вж. Mahler et al. 2010). Следователно този резултат е в съответствие с нашето впечатление, основано на предишни проучвания, че еволюционният процент е по -висок на ново колонизираните острови, когато екологичните възможности са високи (Mahler et al. 2010).


Резултати и дискусия

Симулация

Промяна на големината на изместването на избора

Симулирам набори от данни, като приемам една точка на дивергенция в топология, свързана с осем хипотетични таксона (Фигура ​ (Фигура 1). 1). Използвам дискретно гама разпределение с четири категории скорости и същия параметър на формата α за да се приближи вариацията както в пространствените, така и във времевите скорости [25]. За да изследвам чувствителността на метода към силата на промяната във времевата селекция, променям степента на вариация на скоростта (по -малка) α предполага по -голямо изменение на скоростта) и фракцията от сайтове θ преживяване на промяна в селекцията през точката на разминаване. Когато даден сайт е избран за промяна на скоростта, той на случаен принцип избира нов клас на скорост от дискретното гама разпределение. Всички други параметри не се променят в този първи набор от симулации. По -специално, симулираната точка на дивергенция се намира на относително положение л = 0,9 на клон б = 8 в топологията τ на Фигура ​ Фигура1 1 с Tj= 0,1 очаквани мутации (съотношение преход/трансверсия) κ = 2) на сайт по всеки клон j = 1. 13. C код, прилагащ веригата на Марков Монте Карло, вземане на проби от задното разпределение анализира всяко симулирано подравняване. Задната статистика на параметрите на модела се изчислява заедно с коефициента на Байес БDPв полза на точка на разминаване някъде в дървото. Когато се регистрира10БDP> 1, има силна подкрепа за точка на дивергенция, която след това позволява условна оценка на θ, л, и фактора на Байес Бjв полза на точка на дивергенция, разположена специално на клон j. Всички тези последни статистически данни се основават на подмножество от MCMC проби, които имат точка на разминаване.

Симулационно дърво. Филогенетичното дърво, използвано за симулация. Има осем таксони, обозначени от 0 до 7, свързани според изобразената топология с равни дължини на клоните. Всяка симулация предполага една точка на дивергенция (DP), разположена на разстояние л = 0,9 разстояние от десния край на средния клон, известен като клон 8. Вертикалната линия, разделя пълната филогения на две поддървета. Поддърво 2 има наклонен клон, където се свързва с поддърво 1 с дължина lt8. Поддърво 1 има клонче с дължина (1 – л)T8.

Фигура ​ Фигура2 2 показва степента на грешка и мощност на метода тип I за различните условия на симулация (сини ленти), когато нулевата хипотеза е хомотахична. Тук грешки от тип I възникват, когато няма точка на разминаване, но потребителят сключва такава, защото log10 БDP> 1. Грешки тип I не се появяват за нито една от 500-те симулации без точка на отклонение. Мощността е вероятността методът силно да поддържа точка на дивергенция, когато се симулира. За честотните методи процентът на грешки от тип II е едно минус мощността, т.е. вероятността да се приеме нулевата хипотеза, когато алтернативната хипотеза за хетеротахия е действително вярна. Байесовите анализи са изгодни, когато става въпрос за оценка на силата на нулевата хипотеза. В този случай не бива да се ангажираме с нулевата хипотеза за хомотахията, освен ако тя получи силна подкрепа, напр. дневник10БDP< -1, което тук се случва само за девет от 2500 набора от данни, симулирани с точка на разминаване, и само когато θ = 0,1. По-важна грижа за байесовия метод е намаляващата мощност за откриване на точката на дивергенция, тъй като вариацията на скоростта и частта от местата, подложени на изместване на скоростта, намаляват. Кога θ = 0,1, точката на разминаване става ефективно неоткриваема. За всички други симулирани стойности на θ, точката на дивергенция е открита при достатъчна вариация на скоростта. Кога α = 2, методът никога не работи добре и процентите за четирите дискретни категории са 0,3, 0,7, 1,1 и 2,0, което дава по-малко от седемкратни разлики в процента. Susko et al. [11] използвайте регресионна техника за оценка на размера на разликите в скоростта между еукариотни и архебактериални аминокиселинни последователности на фактор на удължаване 1α и намерете вариация на скоростта приблизително между 3 и 15-кратно, просто пресичайки нивото на вариация на скоростта, откриваемо в тази симулация.

Сравнение на методи. Степента на грешки от тип I и мощността на новия метод се сравняват с два други метода, този на Ané et al. [33] и Lopez et al. [13]. Нулевата хипотеза не е промяна във времевата скорост или хомотахия. Грешка от тип I означава, че методът отхвърля нулата, когато тя всъщност е вярна. Мощността е вероятността методът правилно да отхвърли нулата, когато действително има точка на отклонение. За байесовия метод нулевата хипотеза се отхвърля, ако log10 БDP> 1. Лентите за грешки показват 95% доверителни интервали, отчитащи грешка в симулацията.

Когато симулираната точка на дивергенция е силно подкрепена, идентифицирането на клона с точката на дивергенция е изключително успешно чрез коефициента на Байес Бjза клон j. От 1195 симулации с висока подкрепа за точката на дивергенция, само 4 не успяха да идентифицират истинския клон 8 като много вероятен (log10 Б8 > 1) да пренесе тази точка на разминаване. Само два пъти неправилно се открива друг клон, който силно благоприятства точка на разминаване някъде по дължината си. Тези резултати показват, че методът може не само да открие наличието на точка на дивергенция във филогенетичното дърво, но и да определи засегнатия клон с висока степен на увереност.

Таблица ​ Таблица 1 1 записва задната средна стойност (указваща точност) и ширината на 95% байесовите достоверни интервали (указващи прецизност) за параметрите α, θ и л осреднено за симулирани набори от данни. Фигура ​ Фигура3 3 изобразява разпределението на задни средства за тези параметри, както и κ и две дължини на клона: T8 е дължината на клона, носещ точката на отклонение и T12 е този на произволно избран терминален клон. Всеки запис в Таблица ​ Таблица 1 1 и рамка на фигура ​ Фигура3 3 се основава на 100 прогнозни стойности, с изключение на тези за θ и л, което може да бъде оценено в много по-малко симулации. Оценки на α, които се регистрират преди начертаването на фигура 3(а), са склонни да надценяват истинската стойност, особено когато е вярно α = 0,01 и с увеличаване на фракцията на хетеротахични сайтове. Параметър на еволюционната скорост κ, съотношението преход/трансверсия, е сравнително добре оценено, но с леко възходящо отклонение, когато вариацията на процента от място на място е висока (α < 0.5). Обратно, оценката на θ е беден. Въпреки че има относително ниска задна несигурност в θ (в сравнение с л), оценките са драматично и все по-ниско предубедени като верни θ се изкачва над 0,1. Ефектът не е просто следствие от предишното, което би имало тенденция да привлече оценките към предишната средна стойност от 0,5, тъй като дори и за вярно θ ≤ 0,5, отклонението е надолу. Отклонението е най -забележимо за тези набори от данни, които откриват точката на разминаване. При симулация θ = 0,9 и α = 0,01, точката на дивергенция винаги се открива с висока увереност, но 95% байесовите достоверни интервали за θ никога не съдържат истинската стойност. За оценка на местоположението на точката на дивергенция л, фактът, че оценките се доближават до истинската стойност 0.9 с увеличаване на хетеротахията, предполага, че в данните има някаква информация за този параметър, но информацията е слаба, както се вижда от много широките байесовски достоверни интервали в Таблица ​ Таблица1. 1 . Като се има предвид този резултат, модел, който просто поставя точки на дивергенция във вътрешните възли на дървото, може да има също толкова мощност за откриване на събития на дивергенция, като същевременно опростява алгоритъма и конвергенцията на MCMC. И накрая, оценките за всички дължини на клона са по-малко точни с нарастващите вариации на процента от място на място. В допълнение, клон 12 все повече се надценява с увеличаване на количеството на забележимата хетеротахия. Тъй като временните и пространствените вариации на скоростта могат да бъдат донякъде или напълно объркани [29], не е изненадващо да се намери оценка на α и θ донякъде оплетени. Освен това, липсата на адекватно отчитане на разликата в процентите от сайта до сайта, в този случай, защото α е надценена, известно е, че произвежда пристрастни оценки за дължината на клона [46].

Оценка на параметрите. Схеми на последни средни оценки на (а) α, (б) κ (° С) θ, (д) л, д) дължина на клона на осмия клон T8 (този с точката на дивергенция) и (f) дължина на клона на 12-ия клон T12. Всяка кутия се базира на 100 симулации, с изключение на (c) и (d), където задните средни на θ и л се оценяват само за онези симулации, които силно подкрепят точката на дивергенция. Резултатите са групирани по симулирани θ стойност, отбелязана на оста x. Има пет симулации на група, с симулирани α намаляващ 2,0, 1,0, 0,5, 0,1, 0,01. Подредбата е такава, че промените в темповете обикновено се увеличават отляво надясно. Оценките на α се записват преди начертаването, за да се покажат по-добре вариацията в по-малките стойности. Местоположението на истинската (ите) стойност (и) на всеки параметър е маркирано с + вдясно от неговия график.

Маса 1

Оценка на αОценка на θОценка на л
θ α2.01.00.50.10.012.01.00.50.10.012.01.00.50.10.01
0.02.050.990.490.100.04NAНеНеНеНеНеНеNAНеНе
1.900.610.230.050.07НеНеНеНеНеNANAНеNAНе
0.12.181.070.540.110.050.760.68Не0.170.150.550.58Не0.510.51
2.140.690.280.080.080.990.96Не0.210.170.970.99Не0.970.97
0.32.771.230.590.110.05Не0.490.380.260.26Не0.530.570.580.57
3.420.910.360.080.08Не0.550.480.220.19NA0.970.970.960.97
0.53.271.410.600.110.060.790.560.430.400.400.370.560.570.630.61
4.591.210.400.090.100.850.730.470.230.210.880.990.960.960.95
0.74.871.450.620.120.080.800.620.520.550.540.500.530.580.660.65
7.851.490.400.080.100.890.740.500.240.220.950.960.950.940.94
0.96.741.620.650.130.100.860.740.660.690.690.470.560.610.670.66
11.441.830.400.080.100.860.720.480.240.230.920.970.940.940.93

Всяка двойка записи обобщава последната оценка на параметрите на модела α, θ, и л от 100 произволни набора от данни, симулирани, като се приемат различни възможности за избор θ (редове) и α (колони). Първият ред, където θ = 0 е за симулирани данни без точка на разминаване. Първо във всяка двойка е средната задна средна стойност, обобщаваща точност, втора е средната ширина на 95% байесов достоверен интервал, обобщаващ прецизността. Статистика за θ и л се основават само на тези симулации, които силно поддържат точка на отклонение, която може да бъде значително по -малко от 100 симулации. NA означава, че точка на разминаване никога не е била силно поддържана за това условие на симулация.

Все още е под въпрос дали изпълнението в симулацията се превежда в реални биологични последователности. Предишни анализи показват, че биологичните вариации между отделните сайтове попадат в диапазона α ∈ (0.1, 10), с несинонимни (и по -вероятно избрани) промяната на курса има тенденция да пада под α = 1 [24,46,47]. Въпреки че има по-малко информация за биологично релевантни диапазони за θ, Gu [36] оценки θ = 0,46 за изследване на фамилията гени на циклооксигеназа на аминокиселинно ниво. Сравнението на скоростите между предварително дефинирани монофилетични групи показва много високи пропорции на местата, които в крайна сметка изпитват хетеротахия по време на еволюцията, дори във функционално запазени последователности, например, 66% от местата на рРНК [48] или до 47% от цитохрома б аминокиселини [49]. Ян и Нилсен [42] установяват, че делът на кодоните, подложени на положителна селекция по време на епизодичната еволюция по определени линии, е между 0,03 и 0,2, в зависимост от анализирания ген. По този начин изглежда, че силата на този метод за откриване на точките на дивергенция може да се колебае близо до границата на биологичното значение. В следващия раздел допълнителни симулации изследват количеството информация, измерено чрез разминаване на последователността, дължина на подравняване и брой таксони, необходимо за откриване на точки на дивергенция.

Промяна на количеството данни и еволюция

За да изследвам силата на метода за откриване на точката на разминаване за различни количества и разнообразие от входни данни, генерирам симулирани набори от данни при различни условия. Започвам отново с симулиране на подравняване на данни, използвайки дървото на Фигура ​ Фигура1. 1 . За тези симулации зададох α = 0,7 и θ = 0,5 и варира както дължината на клона (всички клонове на топологията са равни), така и дължината на подравняването.Фигура ​ Фигура 4 4 показва резултатите, показващи, че нарастващото разнообразие, измерено чрез дължината на клона, и данните, измерени чрез дължината на подравняване, и двете подобряват силата на метода за откриване на точката на разминаване. По-специално, точката на дивергенция е открита за тях α и θ когато дължината на клона е над 0,07 и дължината на подравняване е над 5000. Подобни модели се наблюдават за различни α и θ комбинации. Докато θ ≥ 0.3, методът постига добра мощност поне за симулацията с Tj= 0,9 и 7500 базови двойки (данните не са показани).

Размер на пробата и мощност. Делът на симулациите, които силно подкрепят симулираната точка на дивергенция, когато α = 0,7 и θ = 0,5. Всяка група ленти съответства на различна дължина на подравняване, варираща от 1000, 2500, 5000 и 7500. В рамките на групата има четири различни дължини на клона, присвоени на всеки клон в симулационната топология на Фигура 1, или 0,03, 0,05, 0,07, или 0,09. Лентите за грешки показват 95% доверителни интервали, отчитащи грешка в симулацията.

За да тествам въздействието от включването на повече последователности, симулирам данни с нарастващ брой таксони във всяко поддърво. Този път, α = 0.5, θ = 0,5 и всички дължини на клона Tj= 0,1 са избрани, за да демонстрират диапазон от резултати в резултатната мощност. Оригиналното дърво на симулация на Фигура ​ Фигура1 1 има 8 таксони. Също така симулирам последователности с 4, 12 или 16 таксона, като поддържам точката на дивергенция в средния клон и добавям таксони по балансиран начин към двете поддървета. Тъй като всички дължини на клоните се поддържат постоянни, всеки ефект от добавянето на още таксони може да бъде следствие от допълнителните таксони или увеличаването на общото симулирано еволюционно време. Силата на метода за откриване на точката на дивергенция се увеличава значително с броя на таксоните във всяко поддърво (Фигура ​ (Фигура 5). 5). За съжаление, изчислителните разходи също се увеличават значително. Приблизително, въз основа само на неофициални наблюдения, 8 таксони отнемат десет пъти по -дълго от 4 таксона, а изчислителните времена се удвояват за всеки 4 допълнителни таксони след това. И накрая, аз също изследвам вероятността за откриване на хетеротахия, когато точката на дивергенция е поставена на крайния клон, а не на вътрешния клон на фигура ​ Фигура 1. 1 . Този път α = θ = Tj= 0,1. Не е изненадващо, че силата на метода за откриване на крайната точка на разминаване на клона е значително компрометирана (Фигура ​ (Фигура 5), 5), което показва, че балансираните поддървета, включително много таксони, осигуряват идеалните условия за откриване на точка на разминаване.

Захранването като функция от размера на групата. Силата на метода за откриване на точката на дивергенция със силна подкрепа, тъй като местоположението на разклонението на точката на дивергенция или размерът на топологията се променя. За първия набор точката на дивергенция се намира на средния клон или крайния клон на дървото с 8 таксона от фигура 1 и α = 0.5, θ = 0.5, Tj= 0,1 и L = 1000. За втория набор точката на дивергенция се намира на средния клон на 4-, 8-, 12- или 16-таксоново дърво, и α = 0.1, θ = 0.1, Tj= 0,1 и Л = 1000. Лентите за грешки показват 95% доверителни интервали, отчитащи грешката на симулацията.

Сравнение със съществуващите методи за откриване на хетеротахия

Фигура ​ Фигура2 2 сравнява мощността на метода на байесова точка на дивергенция с два други статистически теста за хетеротахия, дадени предварително определени подгрупи. An é и др. [33] наскоро описват параметричен тест за стартиране на коварионния модел, който тества степента на независимост в пропорцията на инвариантните места в двете подгрупи. Когато се прилага към първия набор от симулирани данни, този метод демонстрира нисък процент на грешки от тип I при отсъствие на хетеротахия и сравнима мощност с байесовия метод в присъствието на хетеротахия, освен когато θ = 0,1 и α е малък. Методът обаче не е идеално съчетан със симулациите, тъй като той специално тества модела на ковариона с инвариантни места, но симулационният модел не позволява истински инвариантни сайтове. По-подходящ тест е предложен от Lopez et al. [49], които описват метод за сравняване на броя на заместванията във всяка подгрупа на всяко място. При хомотахозния модел броят на заместванията в даден обект трябва да е пропорционален на количеството еволюция или дължината на дървото на всяко поддърво. Значителни отклонения от това очакване, измерено чрез хи-квадратна статистика, показват промяна в еволюционната скорост между двете поддървета. Както се очакваше, този метод има по -голяма мощност от An é и др. и също побеждава байесовия метод. По -специално, по -добре е да се открие хетеротахия, когато α > 0,5 и има ниска промяна в процентите от сайт до сайт. Тези условия обаче са и тези, при които процентът на грешки от тип I на метода започва да надвишава очакванията (вижте Фигура ​ Фигура 2, 2, Без точка на дивергенция и θ = 0,1). По този начин може да се окаже, че консервативното поведение на An é и др. и байесовите методи в присъствието на ниски вариации са желателни.

С разпространението на ХИВ в човешката популация през миналия век възникват генетично различни линии [50]. Тези така наречени подтипове имат различно географско разпределение [51]. По-специално, подтип В доминира в голяма част от неафриканския и неазиатския свят, докато подтип С доминира в Южна и Източна Африка, части от Близкия изток и Индия [51]. Голяма част от географското ограничение на подтиповете може да се обясни с пътуванията на няколко заразени индивида [52], но има и доказателства за селекция на ниво популация на вируса, особено във връзка с имунната селекция [53]. Предполагам, че ако вирусът срещне значителен специфичен за популацията селекционен натиск при навлизане в нова популация, подписът на промяна на селекцията може да бъде открит по клоните на филогенетичните дървета, които отделят подтипове.

За да проверя хипотезата, подравнявам 10 HIV последователности, пет от подтип В и пет от подтип В. Обобщения на маргиналните задни разпределения за всеки непрекъснат параметър на модела са показани в Таблица ​ Таблица 2. 2. Отчетените потенциални коефициенти за намаляване на мащаба [54] демонстрират здравословно съгласие между шестте независими MCMC цикъла и всичките шест цикъла се комбинират за статистическа оценка. Факторът на Байес в полза на точка на дивергенция не може да бъде изчислен, тъй като подкрепата за точка на дивергенция е единодушна в задната проба. Моделът ясно идентифицира силно поддържана точка на дивергенция на клона, разделящ подтипове B и C, с log10 Бпр.н.е= 4.08, където индексирането е предназначено да посочи клона, разделящ B и C. Фигура ​ Фигура 6 6 показва местоположението на изчислената точка на дивергенция заедно с нейния 95% байесов достоверен интервал върху филогенезата, начертана с дължини на клоните в техните средни стойности. Точното местоположение на точката на разминаване по клона е слабо оценено, но избраният клон е силно подкрепен. Като се имат предвид прогнозните стойности на α = 0,23 и θ = 0,28, дължината на подравняване Л = 6610 и средната дължина на клона (= 0,04) от този набор от данни, резултатите от симулацията (не са показани) предполагат, че методът просто има достатъчно мощност, за да открие наличието на точка на отклонение. Може да не е възможно да се открие хетеротахия за по-къси области на ХИВ.

Филогенетично дърво на HIV подтипове B и C. Филогенетично дърво, направено от данни за ХИВ. Топологията не се изчислява, но дължините на клоните са показани при техните задни стойности. Задното средно местоположение на точката на дивергенция е показано заедно с успоредна черта, разграничаваща 95% байесовия достоверен интервал. Числата показват условната последна вероятност посоченият клон да носи точката на дивергенция, като се има предвид, че в дървото има точка на разминаване. За справка дължината на средния клон е 0,12.

Таблица 2

ПараметърЗадна средна стойностLBCIUBCIPSRF
θ0.270.180.381.01
л0.560.210.891.03
α0.230.190.261.00
κ5.324.895.771.01
T30.010.000.011.02
дневник10 БDP≈ inf (решаваща подкрепа за)
дневник10 Бпр.н.е= 4,08 (решаваща подкрепа за)

Задната средна, горната и долната 95% байесова граница на достоверен интервал (UBCI и LBCI) и потенциалният коефициент на намаляване на скалата (PSRF) [54] за всички непрекъснати параметри на модела. Отчитат се данни за дължината на клона с най-голям PSRF. Последните два реда отчитат фактора на Байес в подкрепа на точка на отклонение и фактора на Bayes в подкрепа на точка на отклонение по средния клон.

Подобно на ХИВ, HBV се е отклонил в генетично различни линии с неравномерно географско разпространение по света [55]. В случая на HBV тези родове се наричат ​​генотипове. Въпреки че произходът на HBV е неясен, най -вероятно е HBV да се е развил с хората след емиграцията ни от Африка [56]. Следователно генотиповете и тяхното географско разпределение могат да бъдат свързани с големи миграционни събития, но остава неясно дали генотиповете изразяват различни фенотипове на заболяването [57-59]. HBV генотиповете F и H са ограничени до Северна и Южна Америка, вероятно пристигайки на тези континенти с първите човешки имигранти [57]. Генотип Н се среща много по -рядко от F и неговият произход е несигурен [60]. Всъщност класификацията му като отделен генотип е спорна [61]. Като се има предвид най-добрата оценка за произхода на HBV, не е вероятно разпространението на HBV в нови човешки популации да е оказало скорошен селективен натиск върху вируса, но съвместната еволюция на вируса заедно с човешкия гостоприемник може да създаде точки на разминаване по клоните, където хората и вируси, съвместно адаптирани към нови екологични ниши.

За да търся точки на дивергенция, свързани с появата на HBV генотипове F и H, подравнявам седем генотип F последователности и три генотип H последователности. Задните обобщения са в Таблица ​ Таблица 3. 3 . Фигура ​ Фигура7 7 показва прогнозната филогения, свързваща тези 10 последователности с дължини на клоните, начертани пропорционално на техните задни стойности. Числото, придружаващо всеки клон, е условната задна вероятност точката на дивергенция да лежи някъде по този клон, като се има предвид, че такъв съществува някъде в дървото. За разлика от резултатите от ХИВ, данните за отклонение не се поддържат от данните с log10 БDP= -0,64. Като се има предвид само задната проба, поддържаща точка на дивергенция (1123 проби), нито един клон не показва доказателство за силна хетеротахия, въпреки че задното разпределение в клоните е значително различно от еднородното преди (p-стойност < 0,001). Алтернативната хипотеза за хомотахия е съществено, но не силно подкрепена и методът може просто да има недостатъчна мощност за откриване на хетеротахия в този набор от данни. По-специално, тъй като Н е лошо избран генотип, трите представители, включени тук, са много сходни, като по този начин принуждават всяка потенциална точка на дивергенция, свързана с генотип, върху това, което всъщност е терминален клон. Таблица ​ Таблица 4 4 предполага, че мощността е ниска при това условие, но не извършвах симулации с параметри, съответстващи на HBV данните, така че не е ясно дали методът трябва да има достатъчна мощност, за да оцени наличието на точка на дивергенция. Доказателствата за вариации в процентите от място на място са високи, със задната средна стойност α = 0,04, но ниското разнообразие (средна дължина на клона 0,015) и късото подравняване (3 215 двойки основи) рязко намаляват силата на метода.

Филогенетично дърво на HBV подтипове F и H. Филогенетично дърво, изведено от HBV данни. Топологията не се изчислява, но дължините на клоните са показани при техните задни стойности. Числата за всеки клон показват условната последна вероятност посоченият клон да носи точката на дивергенция, като в дървото присъства точка на дивергенция. Всъщност има значителна подкрепа срещу точка на разминаване в този набор от данни. За справка, дължината на средния клон е 0,07

Таблица 3

ПараметърЗадна средна стойностLBCIUBCIPSRF
θ0.370.010.941.01
л0.420.020.961.01
α0.040.000.081.03
κ4.003.384.701.00
T110.010.000.011.02
дневник10 БDP= -0,64 (значителна подкрепа срещу)
дневник10 БFH= -0,71 (значителна подкрепа срещу)

Вижте надписа на Таблица 2. Вторият фактор на Байес е подкрепата за точка на дивергенция по средния клон, разделящ двата генотипа.

Таблица 4

За всеки посочен параметър се добавя нова стойност (със звезда, напр. κ*) се предлага според изброеното разпределение. Дължини на клоните Ti се актуализират един по един за i = 1. 2н - 3. Параметрите за настройка се записват от T. Актуализации на двете л или (b, l) се смесват с вероятността мT. Актуализация на д е транс-измерен ход. Коефициентите на приемане на Метрополис-Хейстингс са дадени в последната колона. Зависимостта от параметрите, които не са включени в актуализацията, не се показва.

В допълнение, силното изменение на пространствената скорост може да не доведе до силно изменение на скоростта във времето в случай на HBV. Обикновено се очаква величината на временната промяна на скоростта да съответства приблизително на величината на вариацията на пространствената скорост, тъй като изборът на нова функция за сайт е приблизително еквивалентен на избора на нов сайт на случаен принцип от същия протеин [29,62]. Моделът прави това предположение, като използва същото разпределение на скоростен клас за пространствено и времево изменение на скоростта. Очаква се силната пречистваща селекция, комбинирана със склонна към грешки обратна транскриптаза, да доведе до силно хетерогенни нива на HBV, с широко разпространена консервация поради припокриващи се рамки за четене, прекъснати от ограничен брой места, толерантни към мутации [63]. Но за двойно кодиращ нуклеотид към времево изместващ клас на скорост, той трябва да придобие нова функция и в двата рамки за четене. Това двойно ограничение може да елиминира възможността за точки на дивергенция в HBV и със сигурност намалява както големината на временните промени в скоростта, така и броя на засегнатите места. Накратко, биологията на HBV може да ограничи както присъствието, така и способността за откриване на точките на дивергенция. Увеличаването на броя на извадените последователности за генотип може да възстанови мощността, но тази опция не се разглежда допълнително тук.


Дискусия

В данните се наблюдават три основни модела. Първо, при най-простия сценарий за еволюционния процес, генетичен дрейф с постоянна скорост, няма връзка между скоростта на еволюция и филогенетичния сигнал (фиг. 2). Това предполага, че ниският филогенетичен сигнал като цяло не трябва да се тълкува като доказателство за висока еволюционна скорост. Второ, много различни еволюционни процеси произвеждат подобни филогенетични сигнали (фиг. 2, фиг. 3, фиг. 4, фиг. 5). Това предполага, че способността ни да извеждаме еволюционен процес от измерването на филогенетичния сигнал вероятно е ограничена. Това важи особено за наблюденията на нисък филогенетичен сигнал - тъй като всички, с изключение на един еволюционен процес, симулиран в това изследване, произвеждат потиснат филогенетичен сигнал при някои обстоятелства (фиг. 3, фиг. 4, фиг. 5). И накрая, някои процеси увеличават филогенетичния сигнал спрямо неутралното очакване. По -специално, сценарият с висок процент на ранните пикови смени (заемане на ниша) увеличава филогенетичния сигнал (фиг. 5б) бρ < 0,0). Въпреки че по-малко от процесите, симулирани в това проучване, произвеждат висок филогенетичен сигнал, перспективата за еволюционно заключение от висок филогенетичен сигнал е ограничена от факта, че неадаптивните процеси, като хетерогенен скоростен генетичен дрейф, също могат да произведат подобно повишен сигнал (Фиг. 5а бμ & lt 0.0).

Филогенетичен сигнал и еволюционна скорост

Когато еволюцията беше неограничена — с други думи, при чист генетичен дрейф — нямаше връзка между скоростта на еволюция и филогенетичния сигнал (фиг. 2). Това не е изненадващ резултат, тъй като филогенетичният сигнал за непрекъснати знаци трябва да се разглежда преди всичко като следствие от еволюционния процес, а не от еволюционната скорост (Blomberg and Garland, 2002 Blomberg et al., 2003). Въпреки това, еволюционната скорост може да повлияе на филогенетичния сигнал, когато еволюцията е ограничена (фиг. 3b). Добре е оценено, че еволюционната скорост влияе върху филогенетичния сигнал за дискретни знаци, като например данни за генетична последователност, когато броят на състоянията за характера е ограничен (Hillis and Huelsenbeck, 1992). Този ефект е по -силен, тъй като броят на възможните състояния за характера намалява или скоростта се увеличава (Donoghue и Ree, 2000 Ackerly и Nyffeler, 2004). Границите на морфопространството имат аналогичен ефект (напр. Whitehead and Crawford, 2006).

При флуктуираща селекция, когато позицията на оптимума се премества чрез броуновско движение, филогенетичният сигнал е нисък, когато скоростта на движение на оптимума е ниска (фиг. 4а). Това е така, защото когато скоростта на еволюция е много ниска, оптималната се движи пренебрежимо по време на симулацията и вследствие на това всички видове на върховете ефективно изпитват стабилизираща селекция до същия оптимал (както в сценарий 2А, фиг. 3а). Различията между видовете означават тогава само следствие от невъзможността да се проследи перфектно селективния оптимум (дезадаптация), който няма да има филогенетичен компонент. Тази констатация е в съответствие с предсказанията на Хансен и Мартинс (1996) относно филогенетичните ковариации при стабилизираща селекция до статичен оптимум (което е ограничаващият случай за процес 3А, тъй като скоростта на движение на оптималния се приближава до 0,0), както и с нашите открития за постоянна стабилизираща селекция (сценарий 2A ω 2 = 10).

Като цяло обаче скоростта на еволюция не е повлияла на филогенетичния сигнал за непрекъснати знаци при допускането на повечето сравнителни методи - т.е., когато еволюционният процес се доближава до Брауновското движение (както при генетичния дрейф и някои условия на ограничена еволюция и флуктуираща селекция). Въпреки това, при други обстоятелства, като променлив естествен подбор, когато скоростта на флуктуация е ниска и функционални ограничения, когато границите спрямо скоростта са малки, еволюционната скорост ще повлияе на филогенетичния сигнал.

Филогенетичен сигнал и еволюционен процес

Въпреки че скоростта може да повлияе на сигнала, много по -голям източник на променливост във филогенетичния сигнал сред нашите симулации възникна от еволюционния процес. Филогенетичният сигнал е повече или по-малко инвариантен само при два процеса. Филогенетичният сигнал е постоянно висок и не се различава значително от К = 1,0 за всички условия на генетичен дрейф с постоянна скорост (фиг. 2), докато филогенетичният сигнал е постоянно нисък за всички условия на различна селекция (фиг. 4в). При всички други сценарии филогенетичният сигнал е нисък или висок в зависимост от условията на симулация.Никой независим от времето процес изглежда не увеличава филогенетичния сигнал над този, който се очаква при неутрални условия (К = 1,0). Обратно, хетерогенността на еволюционните параметри с течение на времето намалява и значително повишава филогенетичния сигнал при различни условия (фиг. 5).

За постоянна стабилизираща селекция филогенетичният сигнал е нисък (и всъщност много близо до 0.0) за всички условия на силна стабилизираща селекция (Фиг. 3а, ниско ω 2). Тази констатация е в съответствие с констатацията на Hansen and Martins (1996), че филогенетичните ковариации между видовете ще бъдат ниски за стабилизиране на селекцията до един -единствен оптимум. Филогенетичният сигнал се увеличава при прогресивно по-слаба стабилизираща селекция около постоянен оптимум (по-голям ω 2 ). Тъй като ω 2 се стреми към ∞, симулацията се стреми към генетичен дрейф (сценарий 1), при който филогенетичният сигнал е неизменно висок (фиг. 2, фиг. 3). За еволюция с фиксирани граници, филогенетичният сигнал беше нисък или висок в зависимост от скоростта, както беше обсъдено по-горе, обаче, процесът на еволюция с граници обикновено имаше тенденция към намаляване на сигнала, особено когато скоростта на еволюция спрямо границите беше увеличена.

За флуктуиращ естествен подбор, при който позицията на оптималния се движеше според броуновски процес на движение, филогенетичният сигнал беше висок, стига скоростта на флуктуация да беше достатъчно висока (фиг. 4а). Когато скоростта на флуктуация беше ниска, филогенетичният сигнал беше намален: тези симулации отразяват нашите открития за сценарий 2А, обсъден по -горе.

Открихме нисък филогенетичен сигнал за симулации на редки стохастични пикови смени, когато размерът на редки нишови смени беше малък (фиг. 4б). Това е паралел на ситуацията за колебания на естествения подбор с ниска скорост (обсъдено по-горе) и стазис на оптимума на годност (сценарий 2А, фиг. 3а). С увеличаването на размера на редките измествания на ниши се увеличава и филогенетичният сигнал (Фиг. 4b). Прекъснатата дивергентна селекция (дивергентна селекция при събития на видообразуване) доведе до нисък филогенетичен сигнал при всички условия (фиг. 4в). Въпреки че симулирахме дивергентна селекция при събития на видообразуване, филогенетичният сигнал също би бил нисък за всяко състояние, при което изместванията на пика са достатъчно често срещани и произволни по отношение на предходното състояние на пика, както са в нашите симулации на прекъснат дивергентен подбор (сценарий 3C) .

Филогенетичният сигнал обикновено е бил намален, когато скоростта на еволюция чрез генетичен дрейф е била първоначално ниска, но се е увеличила с течение на времето (бμ & gt 0.0 Фиг. 5а). Това е така, защото нарастващата еволюционна скорост има тенденция да концентрира еволюционната промяна по клоните към върховете на дървото. Това ще доведе до увеличаване на вариациите на знак в върховете без съгласувано увеличение на ковариациите между таксоните. Обратно, високият начален процент намалява с течение на времето (бμ & lt 0.0) ще увеличи ковариантите между върховете спрямо очакваното при Брауново движение с постоянна скорост и следователно ще увеличи филогенетичния сигнал (фиг. 5а).

По същия начин, филогенетичният сигнал е бил намален, когато скоростта на изместване на пиковите стойности на фитнеса или на нишовите промени първоначално е била ниска, но се е увеличила с течение на времето (бρ & gt 0.0 Фиг. 5б). В този случай изместването на нишите също се концентрира към върховете на дървото. Оскъдността на нишовите смени по вътрешните клони ще намали ковариантите между върховете спрямо неутралното очакване и ще потисне филогенетичния сигнал. Обратно, първоначално висок процент на нишова диференциация (заетост), който намалява към настоящия момент (бρ < 0.0), ще има тенденция да увеличи филогенетичния сигнал спрямо неутралното очакване. Това е така, защото повечето нишови смени и по този начин повечето еволюционни промени са концентрирани към корена на дървото. Това ще доведе до увеличаване на ковариациите между върховете спрямо неутралното очакване и по този начин ще засили филогенетичната зависимост (Фиг. 5b). Този последен модел за заемане на ниша съответства доста близо до модела на диференциация на нишата, описан в Price (1997) и може би се очаква по време на адаптивно излъчване (Schluter, 2000).

Относно еволюционните параметри

Специфичните стойности на еволюционните параметри, симулирани в това изследване, не са оправдани. Повечето обаче са слабо известни емпирично (вж. Jones et al., 2003 Revell, 2007a). Дори за ситуации, в които са налични оценки за еволюционните параметри (като например за степента на мутация Kimura, 1968), не можем на практика да използваме наличните скорости, тъй като други параметри са посочени нереално, обикновено поради изчислителни причини. Например, поради малките симулирани ефективни размери на популацията в това проучване, реалистично малките нива на мутации биха довели до нереалистично незначителни постоянни генетични вариации (също обсъдени в Jones et al., 2003) и подобно незначително отклонение между видовете. Имплицитно предположение за увеличаване на един параметър при намаляване на друг е, че това ще има компенсаторен ефект по отношение на еволюционния процес и резултата. Това предположение е направено в предишни подобни симулационни проучвания (Jones et al., 2003, 2004 Revell, 2007a), а компенсаторният ефект е демонстриран изрично в едно проучване (Revell, 2007a). Бъдещите проучвания обаче могат да обмислят използването на биологично реалистични стойности на параметрите в подобни анализи.

Артефакти на оценката на молекулярната филогения и филогенетичния сигнал

Blomberg et al. (2003) и Ives et al. (2007) посочват два източника на пристрастие в емпиричната оценка на К. Грешка във филогенетичната топология и грешка в оценката на видовете означават, че средно ще отклонят надолу изчисляването на филогенетичния сигнал (Blomberg et al., 2003 Ives et al., 2007).

Разглеждане на симулациите, зависими от времето в това изследване, и по-специално на наблюдението, че факторите, влияещи върху ковариансите сред видовете, са склонни да повлияят К, предлага два други типа филогенетична грешка, които също ще създадат пристрастие в К поради склонността им да предизвикват погрешна оценка на времето на споделена история между таксоните. Това са подпараметризация на модела и сливане на гени и те работят в обратна посока на отклонение, причинено от топологична грешка и грешка в оценката на видовите средства.

Подпараметризацията на модела на последователността води до непропорционално съкращаване на ранните разклонения в молекулярната филогенеза спрямо по-късните разклонения (Revell et al., 2005). Това ще доведе до прогнозно К да бъдат отклонени нагоре чрез намаляване на очакваните ковариации между видовете спрямо техните очаквани стойности, бяха истинското дърво, известно без грешка. Дори ако видовете проявяват само очакваното количество ковариация при еволюцията на броуновското движение на истинското дърво, тези данни ще имат ковариация над тази, предвидена въз основа на (подценените) дължини на вътрешните клони, и по този начин ще показват завишен филогенетичен сигнал.

В допълнение, сливането на генната линия има тенденция да предхожда видообразуването средно с 2 · нд поколения, в които нд е ефективният размер на популацията (Pamilo and Nei, 1988 Hein et al., 2005). Това няма да доведе до удължаване на вътрешните клонове на генеалогията в сравнение с клоновете на истинската филогенеза, тъй като всички клонове са средно удължени с 2 · нд към корена и съкратен с 2 · нд към върховете. Върховите клони обаче само се удължават от това явление. Това ще доведе до увеличаване на очакваните вариации на видовете (оценени от генеалогията на гените) над техните истински стойности, когато филогенезата (а не генеалогията на гена) е известна без грешка и това се случва без свързано увеличение на очакваните ковариации на видовете. Това също ще доведе до увеличаване на прогнозната стойност на К, тъй като очакваните ковариации на видовете са подценени спрямо техните истински стойности по отношение на очакваните вариации на видовете.

По този начин, въпреки че топологичната грешка и грешката в оценката на видовете средства ще имат тенденция да намалят изчисления филогенетичен сигнал, ние идентифицирахме два източника на отклонение нагоре в К които се очаква да доведат като артефакти на оценката на молекулярната филогенеза. В бъдещо проучване трябва да се установи до каква степен тези четири източника на грешка - топологическа грешка (Blomberg et al., 2003), грешка в оценката на видовите средства (Ives et al., 2007), подпараметризация на модела и сближаване на гени - вероятно ще повлияят на оценката на филогенетичния сигнал в емпирични изследвания.


Препратки

Alfaro, M. E. 2013. Ключови еволюционни иновации. в J. B. Losos, D. A. Baum, D. J. Futuyma, H. E. Hoekstra, R. E. Lenski, A. J. Moore, C. L. Peichel, D. Schluter и M. C. Whitlock, изд. Принстънският пътеводител за еволюцията. Princeton University Press, Принстън.

Blomberg, S. P., T. Garland Jr и A. R. Ives. 2003. Тестване за филогенетичен сигнал в сравнителни данни: Поведенческите черти са по-лабилни. Еволюция 57:717–745.

Boettiger, C., G. Coop и P. Ralph. 2012. Информативна ли е вашата филогенеза? Измерване на силата на сравнителните методи. Еволюция 66: 2240–2251.

Бокма, Ф. 2008. Откриване на „прекъснато равновесие“ чрез Байесова оценка на скоростта на видообразуване и изчезване, състояния на предшественици и скорости на анагенетична и кладогенетична еволюция върху молекулярната филогенеза. Еволюция 62: 2718–2726. Blackwell Publishing Inc.

Eastman, J. M., M. E. Alfaro, P. Joyce, A. L. Hipp и L. J. Harmon. 2011. Нов сравнителен метод за идентифициране на промени в скоростта на развитие на характера по дърветата. Еволюция 65: 3578–3589.

Garland, T., Jr. 1992. Оценете тестовете за фенотипна еволюция, използвайки филогенетично независими контрасти. Am. Nat. 140:509–519.

Голдбърг, Е. Е., и Б. Игич. 2012. Темпо и режим в развитието на системата за селекция на растения. Еволюция 66: 3701–3709. Онлайн библиотека Wiley.

Грант, П. Р. и Б. Р. Грант. 2002. Непредсказуема еволюция в 30-годишно изследване на чинките на Дарвин. Наука 296: 707–711.

Грант, П. Р. и Р. Б. Грант. 2011. Как и защо видовете се размножават: Радиацията на Дарвиновите чинки. Princeton University Press.

Хансен, Т. Ф. и Е. П. Мартинс. 1996. Превод между микроеволюционния процес и макроеволюционните модели: корелационната структура на междувидовите данни. Еволюция 50:1404–1417.

Harmon, L. J., J. B. Losos, T. Jonathan Davies, R. G. Gillespie, J. L. Gittleman, W. Bryan Jennings, K. H. Kozak, M. A. McPeek, F. Moreno-Roark, T. J. Near и др. 2010. Ранните изблици на еволюция на размера и формата на тялото са рядкост в сравнителните данни. Еволюция 64: 2385-2396.

Hunter, J. P. 1998. Ключови иновации и екологията на макроеволюцията. Тенденции Ecol. Evol. 13: 31–36.

Lande, R. 1976. Естествен подбор и случаен генетичен дрейф във фенотипната еволюция. Еволюция 30:314–334.

O’Meara, B. C., C. Ané, M. J. Sanderson и P. C. Wainwright. 2006. Тестване за различни темпове на непрекъсната еволюция на черти, използвайки вероятност. Еволюция 60:922–933.

Pagel, М. 1999а. Извеждайки историческите модели на биологичната еволюция. Nature 401:877–884.

Pagel, М. 1999b. Подход с максимална вероятност за реконструиране на състояния на предците на отделни знаци във филогенезите. Syst. Biol. 48: 612–622.

Pennell, M. W., и L. J. Harmon. 2013. Интегративен поглед върху филогенетичните сравнителни методи: Връзки с популационната генетика, екологията на общността и палеобиологията. Ан. Н. Й. Акад. Sci. 1289: 90–105.

Revell, L. J. 2013. Два нови графични метода за картографиране на еволюцията на черти върху филогении. Методи Ecol. Evol. 4: 754–759.

Revell, L. J., L. J. Harmon и D. C. Collar. 2008. Филогенетичен сигнал, еволюционен процес и скорост. Syst. Biol. 57:591–601.

Симпсън, Г. Г. 1945. Темпо и режим в еволюцията. транс. Н. Ю. Акад. Sci. 8:45–60.

Томас, G. H., R. P. Freckleton и T. Székely. 2006. Сравнителен анализ на влиянието на начина на развитие върху степента на фенотипна диверсификация при крайбрежните птици. Proc. Biol. Sci. 273: 1619–1624.

Uyeda, J. C. и L. J. Harmon. 2014. Нов байесов метод за извеждане и интерпретиране на динамиката на адаптивните ландшафти от филогенетични сравнителни данни. Syst. Biol. 63: 902–918. sysbio.oxfordjournals.org.

Yoder, J. B., E. Clancey, S. Des Roches, J. M. Eastman, L. Gentry, W. Godsoe, T. J. Hagey, D. Jochimsen, B. P. Oswald, J. Robertson и др. 2010. Екологична възможност и произход на адаптивните лъчения. J. Evol. Biol. 23: 1581–1596. Blackwell Publishing Ltd.