Информация

Как мога да отделя изобилието от резултатите от честотата?

Как мога да отделя изобилието от резултатите от честотата?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Трябва да изчисля стойностите на разпространение на вируса на динна мозайка през различните сезони в рамките на фактора на местообитанията.

Тези данни за честотата идват от откриване на инфекция на някои растения, взети от различни проби в различни местообитания (дъбови дървета, пустош, ръбове, култури). Растението, взето в тези местообитания, е взето проби през различни сезони (лято, пролет, есен). Хабитатът на културите се взема само през лятото, а гостоприемникът, изваден в културите, е в повечето видове Cucumis melo.

Този вирус е предпочитан срещу местообитанията на културите, Cucumis melo домакини. Изчислих честотата и след това изчислих значителната разлика между тях. Тестът на Fisher показа, че заболеваемостта е по -висока през лятото и в Cucumis melo host.

Възможно ли е да се разделят ефектите от изобилието на културите и Cucumis (небалансираното вземане на проби от сезони в местообитанията) от моето заключение за значителни сезонни вариации?

Знам, че моите заключения всъщност не са сезонен ефект. Защото взех проби от 10 000 растения от пъпеш за кратък период от време през лятото и това е предпочитаният гостоприемник.

Как мога да отделя изобилието от резултатите от заболеваемостта? Какъв статистически анализ мога да направя?

Благодаря предварително


Студентски T&ndashtest за две проби

Използвайте студентски T&ndash тест за две проби, когато имате една измервателна променлива и една номинална променлива, а номиналната променлива има само две стойности. Той проверява дали средните стойности на променливата за измерване са различни в двете групи.

Въведение

Има няколко статистически теста, които използват t-разпределението и могат да бъдат наречени a T& ndashtest. Един от най -често срещаните е студентски T& ndashtest за две проби. Друго T&ndashtests включва една извадка T&ndashtest, който сравнява извадково средно с теоретично средно и сдвоените T& ndashtest.

Студентски T& ndashtest за две проби е математически идентичен с еднопосочна anova с две категории, защото сравняването на средствата на две проби е толкова често срещан експериментален дизайн и тъй като T& ndashtest е познат на много повече хора от anova, аз се отнасям към две проби T&ndashtest отделно.

Кога да го използвате

Използвайте две проби T&ndashtest, когато имате една номинална променлива и една измервателна променлива и искате да сравните средните стойности на измервателната променлива. Номиналната променлива трябва да има само две стойности, като „мъжки“ и „женски“ или „лекувани“ и „нелекувани“.

Нулева хипотеза

Статистическата нулева хипотеза е, че средните стойности на измервателната променлива са равни за двете категории.

Как работи тестът

Тестовата статистика, tс, се изчислява с помощта на формула, която има разликата между средните в числителя, това прави tс стават все по -големи, тъй като средствата се раздалечават. Знаменателят е стандартната грешка на разликата в средните стойности, която намалява с намаляването на вариациите на извадката или увеличаването на размера на извадката. Така tс става все по -голямо, тъй като средствата се отдалечават, отклоненията намаляват или размерите на извадката се увеличават.

Изчислявате вероятността да получите наблюдаваното tс стойност при нулевата хипотеза, използвайки t-разпределението. Формата на t-разпределението и следователно вероятността да се получи определен tс стойност, зависи от броя на степента на свобода. Степените на свобода за a T&ndashtest е общият брой наблюдения в групите минус 2, или n1+n2&минус2.

Предположения

The T& ndashtest приема, че наблюденията във всяка група са нормално разпределени. За щастие изобщо не е чувствително към отклонения от това предположение, ако разпределенията на двете групи са еднакви (ако и двете разпределения са изкривени вдясно, например). Правил съм симулации с различни ненормални разпределения, включително плоски, бимодални и силно изкривени, както и двуизмерните T&ndashtest винаги дава около 5% фалшиви положителни резултати, дори при много малки размери на извадката. Ако вашите данни са силно ненормални, все пак трябва да се опитате да намерите трансформация на данни, която ги прави по-нормални, но не се притеснявайте, ако не можете да намерите добра трансформация или нямате достатъчно данни, за да проверите нормалността.

Ако данните ви са силно ненормални, и имате различни разпределения в двете групи (единият набор от данни е изкривен надясно, а другият е изкривен наляво, например), и имате малки проби (по-малко от 50), след това две проби T& ndashtest може да даде неточни резултати, със значително повече от 5% фалшиви положителни резултати. Трансформацията на данни няма да ви помогне тук, нито U-тестът на Ман-Уитни. Би било доста необичайно в биологията да има две групи с различно разпределение, но равни средства, но ако смятате, че това е възможно, трябва да изисквате P стойност много по-малка от 0,05 за отхвърляне на нулевата хипотеза.

Две проби T&ndashtest също предполага хомоскедастичност (еднакви вариации в двете групи). Ако имате балансиран дизайн (равни размери на пробите в двете групи), тестът не е много чувствителен към хетероскедастичност, освен ако размерът на пробата не е много малък (по -малко от 10 или повече), стандартните отклонения в една група могат да бъдат няколко пъти по -големи както в другата група и ще получите P& lt0.05 около 5% от времето, ако нулевата хипотеза е вярна. При небалансиран дизайн хетероскедастичността е по-голям проблем, ако групата с по-малък размер на извадката има по-голямо стандартно отклонение, двуизвадката T& ndashtest може да ви даде фалшиви положителни резултати твърде често. Ако двете ви групи имат стандартни отклонения, които са значително различни (като например едно стандартно отклонение е два пъти по -голямо от другото), а размерите на извадката ви са малки (по -малко от 10) или неравни, трябва да използвате Welch's T& ndashtest вместо това.

Пример

През есента на 2004 г. учениците в 14:00 ч. част от моя клас по анализ на биологични данни имаше средна височина от 66,6 инча, докато средната височина в 17:00. секцията беше 64,6 инча. Значително ли се различават средните височини на двата участъка? Ето данните:

14:00 ч.17:00 ч.
6968
7062
6667
6368
6869
7067
6961
6759
6262
6361
7669
5966
6262
6262
7561
6270
72
63

Има една променлива за измерване, височина и една номинална променлива, раздел на класа. Нулевата хипотеза е, че средните височини в двете секции са еднакви. Резултатите от T&ndashtest (t=1,29, 32 d.f., P= 0,21) не отхвърляйте нулевата хипотеза.

Графиране на резултатите

Тъй като това е просто сравняване на две числа, рядко ще поставите резултатите от a T& ndashtest в графика за публикуване. За презентация можете да нарисувате лента като тази за еднопосочна анова.

Подобни тестове

Студентски T& ndashtest е математически идентичен с еднопосочна anova, направена върху данни с две категории, ще получите точно същото P стойност от две извадки T&ndashtest и от еднопосочна анова, въпреки че изчислявате тестовата статистика по различен начин. The T& ndashtest е по -лесно да се направи и е познат на повече хора, но е ограничен само до две категории данни. Можете да направите еднопосочна anova в две или повече категории. Препоръчвам ви, че ако вашето изследване винаги включва сравняване само на две средства, трябва да наречете теста си с две проби T&ndashtest, защото е по-познат на повече хора. Ако пишете доклад, който включва някои сравнения на две средни и някои сравнения на повече от две средни, може да искате да наречете всички тестове еднопосочни anovas, вместо да превключвате напред и назад между две различни имена (T&ndashtest и еднопосочна anova) за едно и също нещо.

U-тестът на Ман-Уитни е непараметрична алтернатива на двете проби T&ndashtest, който някои хора препоръчват за ненормални данни. Ако обаче двете проби имат едно и също разпределение, двете проби T&ndashtest не е чувствителен към отклонения от нормалността, така че можете да използвате по-мощния и по-познат T& ndashtest вместо U-теста на Ман-Уитни. Ако двете проби имат различно разпределение, U-тестът на Ман-Уитни не е по-добър от T& ndashtest. Така че наистина няма причина да използвате U-теста на Ман-Уитни, освен ако нямате вярно класирана променлива вместо променлива за измерване.

Ако отклоненията далеч не са равни (едно стандартно отклонение е два или повече пъти по -голямо от другото) и размерите на вашата извадка са малки (по -малко от 10) или неравни, трябва да използвате T& ndashtest (известен също като Aspin-Welch, Welch-Satterthwaite, Aspin-Welch-Satterthwaite или Satterthwaite T&ndashtest). Прилича на студентския T& ndashtest, освен че не приема, че стандартните отклонения са равни. Той е малко по-слаб от този на Student T&ndashtest, когато стандартните отклонения са равни, но може да бъде много по-точен, когато стандартните отклонения са много неравни. Моите две проби T&ndashtest електронна таблица ще изчисли стойностите на Welch T& ndashtest. Можете също да направите Welch's T&ndashтествайте, като използвате тази уеб страница, като щракнете върху бутона с надпис „Welch's unpaired T& ndashtest ".

Използвайте сдвоените T& ndashtest, когато измерванията идват по двойки, като например сравняване на силните страни на дясната ръка със силата на лявата ръка върху група хора.

Използвайте една проба T&ndashtest, когато имате само една група, а не две, и сравнявате средната стойност на измервателната променлива за тази група с теоретично очакване.

Как да направите теста

Електронни таблици

Настроих електронна таблица за две проби T& ndashtests. Той ще изпълнява или студентски T& ndashtest или Welch's T&ndashtest за до 2000 наблюдения във всяка група.

Уеб страници

Има уеб страници, за да направите това T&ndashtest тук и тук. И двете ще правят и двете на Студента T&ndashtest и Welch's T& ndashtest.

Можете да използвате PROC TTEST за студентски T&ndashtest параметърът CLASS е номиналната променлива, а параметърът VAR е измервателната променлива. Ето примерна програма за данните за височината по -горе.

Резултатът включва много информация P стойност за студента T& ndashtest е под "Pr & gt | t | в реда с надпис" Събрано ", а P стойност за Welch's T&ndashtest е на реда с надпис „Satterthwaite“. За тези данни, P стойността е 0.2067 за Студентска T&ndashtest и 0,1995 за Welch's.

Анализ на мощността

За да оцените размерите на извадката, необходими за откриване на значителна разлика между две средни стойности, имате нужда от следното:

  • размера на ефекта или разликата в средствата, които се надявате да откриете
  • стандартното отклонение. Обикновено ще използвате една и съща стойност за всяка група, но ако знаете предварително, че една група ще има по -голямо стандартно отклонение от другата, можете да използвате различни числа
  • алфа или нивото на значимост (обикновено 0,05)
  • бета, вероятността да се приеме нулевата хипотеза, когато е невярна (0,50, 0,80 и 0,90 са общи стойности)
  • съотношението на единия размер на извадката към другия. Най -мощният дизайн е да има еднакви числа във всяка група (N12= 1.0), но понякога е по -лесно да получите голям брой от една от групите. Например, ако сравнявате здравината на костите при мишки, които са били отглеждани при нулева гравитация на борда на Международната космическа станция, с контролните мишки, отгледани на земята, може да решите предварително да използвате три контролни мишки за всяка една скъпа космическа мишка (Н12=3.0)

Програмата G*Power ще изчисли необходимия размер на извадката за две проби T& ndashtest. Изберете „t тестове“ от менюто „Тестово семейство“ и „Средства: Разлика между две независими средни (две групи“ от менюто „Статистически тест“. Кликнете върху бутона „Определяне“ и въведете средните и стандартните отклонения, които очаквате за всяка група. Само разликата между групата означава, че това е вашият размер на ефекта. Кликнете върху „Изчислете и прехвърлете към главния прозорец“. Променете „опашки“ на две, задайте своя алфа (това почти винаги ще бъде 0,05) и вашата мощност (Обикновено се използват 0,5, 0,8 или 0,9). Ако планирате да имате повече наблюдения в една група, отколкото в другата, можете да направите „Коефициентът на разпределение“ различен от 1.

Като пример, да кажем, че искате да знаете дали хората, които бягат редовно, имат по-широки крака от хората, които не бягат. Търсите публикувани по -рано данни за ширината на стъпалото и намирате набора от данни ANSUR, който показва средна ширина на стъпалото за американски мъже от 100,6 мм и стандартно отклонение от 5,26 мм. Вие решавате, че искате да можете да откриете разлика от 3 mm в средната ширина на стъпалото между бегачи и небягащи. Използвайки G*Power, въвеждате 100 mm за средната стойност на група 1, 103 за средната стойност за група 2 и 5,26 за стандартното отклонение за всяка група. Решавате, че искате да откриете разлика от 3 mm, на ниво P<0,05, с вероятност да откриете толкова голяма разлика, ако съществува, от 90% (1&minusbeta=0,90). Въвеждането на всички тези числа в G*Power дава размер на извадката за всяка група от 66 души.

& lArr Предишна тема | Следваща тема & rArr Съдържание

Тази страница е последно преразгледана на 20 юли 2015 г. Адресът й е http://www.biostathandbook.com/twosamplettest.html. Може да се цитира като:
Макдоналд, Дж. Х. 2014. Наръчник по биологична статистика (3 -то изд.). Издателство Sparky House, Балтимор, Мериленд. Тази уеб страница съдържа съдържанието на страници 126-130 в печатната версия.

& copy2014 от Джон Х. Макдоналд. Вероятно можете да правите каквото искате с това съдържание, вижте страницата с разрешения за подробности.


Трансформации на данни

Ако променлива за измерване не отговаря на нормалното разпределение или има значително различни стандартни отклонения в различни групи, трябва да опитате трансформация на данни.

Въведение

Много биологични променливи не отговарят на предположенията на параметричните статистически тестове: те не са нормално разпределени, стандартните отклонения не са хомогенни или и двете. Използването на параметричен статистически тест (като anova или линейна регресия) върху такива данни може да даде подвеждащ резултат. В някои случаи преобразуването на данните ще ги направи да отговарят по-добре на предположенията.

Хистограми на броя на източните кални на 75 м участък от потока (изключени са проби с 0 кални следи). Нетрансформирани данни вляво, преобразувани в лог данни вдясно. Хистограми на броя на източните тиня на 75 m участък от потока (изключени проби с 0 кални минни). Нетрансформирани данни отляво, лог-трансформирани данни отдясно.

За да трансформирате данни, изпълнявате математическа операция върху всяко наблюдение, след което използвате тези трансформирани числа във вашия статистически тест. Например, както е показано на първата графика по-горе, изобилието на видовете риби Umbra pygmaea (Eastern mudminnow) в потоците на Мериленд е ненормално разпространено, има много потоци с малка плътност на калните щуки и няколко потока с много от тях. Прилагането на лог трансформацията прави данните по -нормални, както е показано на втората графика.

Източен кален минноу (Umbra pygmaea).

Ето 12 числа от набора от данни mudminnow първата колона е нетрансформираните данни, втората колона е квадратният корен от числото в първата колона, а третата колона е логаритъмът на база-10 на числото в първата колона.

Вие правите статистиката за трансформираните числа. Например, средната стойност на нетрансформираните данни е 18,9, средната стойност на трансформираните с квадратен корен данни е 3,89, средната стойност на логарифмическите трансформирани данни е 1,044. Ако сравнявате изобилието на риба в различни водосбори и решавате, че трансформацията на трупа е най-добрата, бихте направили еднопосочна анова върху трупите на изобилието на риба и бихте проверили нулевата хипотеза, че средствата на дневника- трансформираното изобилие са равни.

Обратна трансформация

Въпреки че сте направили статистически тест върху трансформирана променлива, като например дневника на изобилието на риба, не е добра идея да отчитате своите средни стойности, стандартни грешки и т.н. в трансформирани единици. Графика, която показва, че средната стойност на дневника на рибата на 75 метра поток е 1,044, не би била много информативна за някой, който не може да прави дробни показатели в главата си. Вместо това трябва да преобразувате резултатите си обратно. Това включва извършване на обратното на математическата функция, която сте използвали при трансформацията на данните. За трансформацията на дневника, вие бихте преобразували обратно, като увеличите 10 на степен на вашето число. Например данните, преобразувани по-горе, имат средна стойност от 1,044 и 95% доверителен интервал от & plusmn0,344 лог-трансформирана риба. Обратно трансформираната средна стойност би била 10 1,044 = 11,1 риби. Горната граница на доверие ще бъде 10 (1.044+0.344) = 24.4 риби, а долната граница на доверие ще бъде 10 (1.044-0.344) = 5.0 риби. Обърнете внимание, че доверителният интервал не е симетричен, горната граница е 13,3 риби над средната, докато долната граница е 6,1 риба под средната. Също така имайте предвид, че не можете просто да преобразувате доверителния интервал и да добавите или извадите това от обратно преобразуваното означава, че не можете да вземете 10 0,344 и да добавите или извадите това.

Изборът на правилната трансформация

Преобразуването на данни е важен инструмент за правилния статистически анализ на биологичните данни. За тези с ограничени познания за статистиката обаче те може да изглеждат малко неудобни, форма на игра с вашите данни, за да получите отговора, който искате. Ето защо е от съществено значение да можете да защитите използването на трансформации на данни.

Има безкраен брой трансформации, които бихте могли да използвате, но е по-добре да използвате трансформация, която други изследователи обикновено използват във вашата област, като трансформация с квадратни корени за данни за преброяване или регистрация за данни за размер. Дори ако една неясна трансформация, за която малко хора са чували, ви дава малко по-нормални или по-хомоскедастични данни, вероятно ще е по-добре да използвате по-често срещана трансформация, за да не се подозират хората. Не забравяйте, че вашите данни не трябва да са напълно нормални и хомоскедастичните параметрични тестове не са изключително чувствителни към отклонения от техните предположения.

Също така е важно да решите коя трансформация да използвате, преди да направите статистическия тест. Опитването на различни трансформации, докато не намерите такава, която ви дава значителен резултат, е измама. Ако имате голям брой наблюдения, сравнете ефектите на различните трансформации върху нормалността и хомоскедастичността на променливата. Ако имате малък брой наблюдения, може да не успеете да видите голям ефект от трансформациите върху нормалността и хомоскедастичността в този случай, трябва да използвате каквато и трансформация, която хората във вашата област да използват рутинно за вашата променлива.Например, ако изучавате разстоянието на разпръскване на цветен прашец и други хора рутинно го преобразуват в логарифмически режим, вие също трябва да преобразувате разстоянието на полени, дори ако имате само 10 наблюдения и следователно не можете наистина да гледате на нормалността с хистограма.

Общи трансформации

Има много трансформации, които се използват от време на време в биологията, тук са три от най-често срещаните:

Регистрационна трансформация. Това се състои от вземане на дневника на всяко наблюдение. Можете да използвате или дневници base-10 (LOG в електронна таблица, LOG10 в SAS) или base-д трупи, известни също като естествени трупи (LN в електронна таблица, LOG в SAS). Няма разлика за статистически тест дали използвате база-10 дневници или естествени дневници, тъй като те се различават с постоянен коефициент, база-10 log на числото е само 2,303&hellip&пъти естествения дневник на числото. Трябва да посочите кой регистрационен файл използвате, когато записвате резултатите, тъй като това ще повлияе на неща като наклона и прихващане в регресия. Предпочитам дневници base-10, защото е възможно да ги разгледате и да видите величината на първоначалното число: log (1) = 0, log (10) = 1, log (100) = 2 и т.н.

Обратната трансформация е да вдигнете 10 или д до степента на числото, ако средната стойност на вашите база-10 log-преобразувани данни е 1,43, обратно преобразуваната средна стойност е 10 1,43 = 26,9 (в електронна таблица, "= 10^1,43"). Ако средната стойност на вашите логарифмически трансформирани данни е 3,65, обратно трансформираната средна стойност е д 3.65 = 38.5 (в електронна таблица, "= EXP (3.65)". Ако имате нули или отрицателни числа, не можете да вземете регистрационния файл, трябва да добавите константа към всяко число, за да ги направите положителни и ненулеви. Ако имат данни за броене, а някои от броя са нула, конвенцията е да се добавят 0,5 към всяко число.

Много променливи в биологията имат логарно-нормални разпределения, което означава, че след лог-трансформацията стойностите са нормално разпределени. Това е така, защото ако вземете куп независими фактори и ги умножите заедно, полученият продукт е лог-нормален. Например, да предположим, че сте засадили куп кленови семена, след което 10 години по -късно виждате колко високи са дърветата. Височината на отделно дърво ще бъде повлияна от азота в почвата, количеството вода, количеството слънчева светлина, количеството увреждания от насекоми и т.н. Наличието на повече азот може да направи едно дърво с 10% по -голямо от едно с по -малко азот в точното количество вода може да го направи с 30% по -голям от този с твърде много или твърде малко вода, повече слънчева светлина може да го направи с 20% по -голям, по -малко увреждане от насекоми може да го направи с 15% по -голямо и т.н. и математически този вид функция се оказва логарифмически нормална.

Трансформация с квадратен корен. Това се състои в вземане на квадратния корен от всяко наблюдение. Обратната трансформация е квадратура на числото. Ако имате отрицателни числа, не можете да вземете квадратния корен, трябва да добавите константа към всяко число, за да станат всички положителни.

Хората често използват трансформацията с квадратни корени, когато променливата е броене на нещо, като например бактериални колонии на петриева чашка, кръвни клетки, преминаващи през капиляр на минута, мутации на поколение и т.н.

Арксинусна трансформация. Това се състои в вземане на аркусинуса на квадратния корен от число. (Резултатът се дава в радиани, а не в градуси и може да варира от &minus&pi/2 до &pi/2.) Числата, които трябва да бъдат преобразувани в арксинус, трябва да са в диапазона от 0 до 1. Това обикновено се използва за пропорции, които варират от 0 до 1, като например делът на женските източни калци, заразени от паразит. Обърнете внимание, че този вид пропорция наистина е номинална променлива, така че е неправилно да се третира като променлива за измерване, независимо дали ще я преобразувате или не. Например, би било неправилно да се брои броят на тините, които са или не са паразитирани във всеки от няколко потока в Мериленд, да се третира арксинусно трансформираният дял на паразитизираните женски във всеки поток като променлива за измерване, след което да се извърши линейна регресия върху тези данни спрямо дълбочина на потока. Това е така, защото пропорциите от потоци с по-малък размер на извадката от риба ще имат по-високо стандартно отклонение от пропорциите от потоци с по-големи проби от риба, информация, която се пренебрегва при третирането на трансформираните аркусини пропорции като променливи за измерване. Вместо това трябва да използвате тест, предназначен за номинални променливи в този пример, трябва да направите логистична регресия вместо линейна регресия. Ако настоявате да използвате арксинусната трансформация, въпреки това, което току-що ви казах, обратното преобразуване е квадратурата на синуса на числото.

Как да трансформирате данни

Електронна таблица

В празна колона въведете подходящата функция за трансформацията, която сте избрали. Например, ако искате да трансформирате числа, които започват в клетка A2, трябва да отидете в клетка B2 и да въведете =LOG(A2) или =LN(A2) за преобразуване на log, =SQRT(A2) към трансформация с квадратен корен, или = ASIN (SQRT (A2)) за преобразуване на арксинус. След това копирайте клетка B2 и я поставете във всички клетки в колона B, които са до клетките в колона A, които съдържат данни. За да копирате и поставите трансформираните стойности в друга електронна таблица, не забравяйте да използвате командата „Специално поставяне. “, след което изберете да поставите „Стойности“. Използването на командата "Специално поставяне. Стойности" кара Excel да копира числовия резултат от уравнение, а не самото уравнение. (Ако електронната ви таблица е Calc, изберете „Специално поставяне“ от менюто „Редактиране“, премахнете отметката от квадратчетата с надписи „Поставяне на всички“ и „Формули“ и поставете отметка в квадратчето с надпис „Номера“.)

За обратно преобразуване на данни, просто въведете обратната функция на функцията, която сте използвали за трансформиране на данните. За да преобразувате обратно трансформирани регистрационни данни в клетка B2, въведете =10^B2 за база-10 регистрационни файлове или =EXP(B2) за естествени регистрационни файлове за трансформирани данни с квадратен корен, въведете =B2^2 за арксинусно трансформирани данни, въведете =( SIN(B2))^2

Уеб страници

Не знам за уеб страници, които да извършват трансформации на данни.

За да преобразувате данни в SAS, прочетете оригиналните данни, след което създайте нова променлива със съответната функция. Този пример показва как да се създадат две нови променливи, преобразувани с квадратен корен и преобразувани в лог, на данните от mudminnow.

Наборът от данни "mudminnow" съдържа всички оригинални променливи ("местоположение", "тип на банката" и "брой") плюс новите променливи ("countlog" и "countsqrt"). След това стартирате какъвто искате PROC и анализирате тези променливи точно както бихте направили всички други. Разбира се, този пример прави две различни трансформации само като илюстрация в действителност, трябва да вземете решение за една трансформация, преди да анализирате данните си.

Функцията SAS за арксинусно трансформиращо X е ARSIN(SQRT(X)).

Вероятно ще ви бъде най -лесно да се върнете обратно с помощта на електронна таблица или калкулатор, но ако наистина искате да правите всичко в SAS, функцията за вземане на 10 на степен X е 10 ** X функцията за вземане д на степен е EXP(X) функцията за квадратура X е X**2 и функцията за обратно преобразуване на арксинусно трансформирано число е SIN(X)**2.

Справка

& lArr Предишна тема | Следваща тема & rArr Съдържание

Тази страница е последно преразгледана на 18 декември 2015 г. Адресът й е http://www.biostathandbook.com/transformation.html. Може да се цитира като:
Макдоналд, Дж. Х. 2014. Наръчник по биологична статистика (3 -то изд.). Издателство Sparky House, Балтимор, Мериленд. Тази уеб страница съдържа съдържанието на страници 140-144 в печатната версия.

& copy2014 от Джон Х. Макдоналд. Вероятно можете да правите каквото искате с това съдържание, вижте страницата с разрешения за подробности.


Изследването на динамиката на населението

Демографията или изследването на динамиката на населението се изучава с помощта на инструменти като таблици на живота и криви на оцеляване.

Цели на обучението

Разграничете таблиците на живота и кривите на оцеляване, използвани в демографията

Ключови вкъщи

Ключови точки

  • Основните статистически данни, използвани в демографията, са раждаемостта, смъртността и продължителността на живота, които могат да бъдат повлияни от характеристиките на населението и биологичните фактори.
  • Раждаемостта, смъртността и продължителността на живота са основните детерминанти за това как населението се променя с течение на времето.
  • Таблиците на живота са демографски инструменти, които показват продължителността на живота на населението и смъртността в рамките на възрастовите групи.
  • Кривата на оцеляване е графика на броя на хората, оцелели във всеки възрастов интервал, нанесен спрямо времето.
  • Характеристиките и поведението на даден вид, като броя на произведеното потомство, неговия процент оцеляло потомство и степента на родителска грижа, определят формата на неговата крива на оцеляване.

Ключови условия

  • таблица на живота: демографски инструмент, който показва продължителността на живота на населението и смъртността в рамките на възрастовите групи
  • крива на оцеляване: графика на броя на хората, оцелели във всеки възрастов интервал, нанесен спрямо времето
  • смъртност: броят на смъртните случаи на дадена единица население за даден период от време

Демография

Размерът на популацията, плътността и моделите на разпространение описват популация в определен момент от време. За да проучат как една популация се променя с течение на времето, учените трябва да използват инструментите на демографията: статистическото изследване на изменението на населението във времето. Основните статистически данни, които демографите използват, са раждаемостта, смъртността и продължителността на живота, въпреки че на практика учените също изучават нивата на имиграция и емиграция, които също засягат населението.

Тези мерки, особено раждаемостта, могат да бъдат свързани с характеристиките на популацията, описани в предишните раздели. Например, голяма популация би имала относително висока раждаемост, ако има повече репродуктивни индивиди. Като алтернатива, голяма популация може също да има висока смъртност поради конкуренция, болест или натрупване на отпадъци. Високата гъстота на населението може да доведе до по-репродуктивни срещи между индивидите, както и моделът на разпределение на струпвания. Такива условия биха увеличили раждаемостта.

Биологичните особености на популацията също влияят на промените в популацията във времето. Раждаемостта ще бъде по-висока в популация със съотношение мъже към жени, предубедени към жените, или в популация, съставена от относително повече индивиди в репродуктивна възраст.

Демографските характеристики на населението са основните определящи фактори за това как населението се променя с течение на времето. Ако раждаемостта и смъртността са равни, населението остава стабилно. Населението ще се увеличи, ако раждаемостта надвиши смъртността, но ще намалее, ако раждаемостта е по -ниска от смъртността. Продължителността на живота, друг важен фактор, е продължителността на престоя на индивидите в популацията. То се влияе от местните ресурси, възпроизводството и цялостното здраве на населението. Тези демографски характеристики често се показват под формата на таблица на живота.

Житейски маси

Таблиците на живота, които предоставят важна информация за историята на живота на даден организъм, разделят населението на възрастови групи и често полове показват колко дълго ще живее член на тази група. Таблиците са моделирани по актюерски таблици, използвани от застрахователната индустрия за оценка на продължителността на човешкия живот. Житейските таблици могат да включват:

  • вероятността хората да умрат преди следващия си рожден ден (т.е. смъртност)
  • процентът на оцелелите индивиди в определен възрастов интервал
  • продължителността на живота на всеки интервал

Показаната таблица на живота е от изследване на планински овце Дал, вид, произхождащ от северозападната част на Северна Америка. Населението е разделено на възрастови интервали, както се вижда в най -лявата колона. Коефициентът на смъртност на 1000 индивида се изчислява, като броят на индивидите, умиращи през даден възрастов интервал, се раздели на броя на индивидите, оцелели в началото на интервала, умножен по 1000.

Жизнената маса на планинските овце Dall: Тази житейска таблица на Овис Дали показва броя на смъртните случаи, броя на оцелелите, смъртността и продължителността на живота във всеки възрастов интервал за планинската овца Дал.

Например, на възраст между три и четири години, 12 индивида умират от 776, които са останали от първоначалните 1000 овце. След това това число се умножава по 1000, за да се получи коефициентът на смъртност на хиляда.

Както може да се види от данните за смъртността (колона D), висока смъртност е настъпила, когато овцете са били на възраст между 6 и 12 месеца, което след това се е увеличило още повече от 8 на 12 години, след което е имало малко оцелели. Данните показват, че ако една овца от тази популация оцелее до една година, може да се очаква да живее средно още 7,7 години, както е показано от продължителността на живота в колона Е.

Криви на оцеляване

Друг инструмент, използван от еколозите на населението, е кривата на оцеляването, която е графика на броя на индивидите, оцелели във всеки възрастов интервал, нанесена спрямо времето (обикновено с данни, съставени от таблица на живота). Тези криви позволяват сравняване на историята на живота на различните популации.

Кривите на оцеляване показват разпределението на индивидите в популацията според възрастта: Хората и повечето бозайници имат крива на оцеляване от тип I, тъй като смъртта настъпва предимно в по-възрастните години. Птиците имат крива на оцеляване от тип II, тъй като смъртта на всяка възраст е еднакво вероятна. Дърветата имат крива на оцеляване от тип III, защото много малко оцеляват по -младите години, но след определена възраст хората са много по -склонни да оцелеят.

Хората и повечето примати показват крива на оцеляване от тип I, тъй като висок процент от потомството оцелява в ранните и средните години, смъртта настъпва предимно при по-възрастни индивиди. Тези видове имат малко потомство, тъй като инвестират в родителски грижи, за да увеличат оцеляването.

Птиците показват кривата на оцеляване от тип II, тъй като еднакъв брой птици са склонни да умират на всеки възрастов интервал. Тези видове също могат да имат сравнително малко потомство и да осигуряват значителни родителски грижи.

Дърветата, морските безгръбначни и повечето риби показват крива на оцеляване от тип III. Много малко индивиди оцеляват в по-младите години, но тези, които живеят до старост, вероятно ще оцелеят за сравнително дълъг период. Организмите от тази категория обикновено имат голям брой потомство и осигуряват малко родителски грижи. Такива потомци са „свои“ и#8221 и страдат от висока смъртност поради хищничество или глад, но тяхното изобилие гарантира, че достатъчно индивиди оцеляват до следващото поколение, увековечавайки популацията.


Дублиране и изтриване

В допълнение към загубата или печалбата на цяла хромозома, хромозомен сегмент може да бъде дублиран или загубен. Дублирането и изтриването често произвеждат потомство, което оцелява, но показва физически и психически аномалии. Дублирани хромозомни сегменти могат да се слеят със съществуващи хромозоми или да са свободни в ядрото. Cri-du-chat (от френски за “ плач на котката ”) е синдром, свързан с аномалии на нервната система и идентифицируеми физически характеристики, които са резултат от заличаване на по-голямата част от 5p (малката ръка на хромозома 5) (Фигура 5). Бебетата с този генотип излъчват характерен висок вик, на който се основава името на разстройството.

Фигура 5. Този индивид със синдром на кри-дю-чат е показан на две, четири, девет и 12-годишна възраст. (кредит: Паола Черути Майнарди)


Полови хромозоми

Какво, ако има нещо, може да се обърка с половите хромозоми? Вместо увеличаване или загуба на автозоми, вариациите в броя на половите хромозоми са свързани с относително леки ефекти. Това се случва поради молекулен процес, наречен X инактивиране. В началото на развитието, когато женските ембриони от бозайници се състоят само от няколко хиляди клетки, една Х хромозома във всяка клетка се инактивира чрез плътно кондензиране в спяща структура, наречена тяло на Бар. Вероятността Х хромозома от който и да е от родителите да бъде инактивирана във всяка клетка е произволна, но след като инактивирането настъпи, всички клетки, получени от тази, ще имат същата неактивна Х хромозома или тяло на Barr. Чрез този процес женските компенсират двойната си генетична доза от X хромозома.

Фигура 5. При котките, генът за цвета на козината се намира на Х хромозомата. В ембрионалното развитие на женските котки, една от двете Х хромозоми е произволно инактивирана във всяка клетка, което води до модел на костенурка, ако котката има два различни алела за цвят на козината. Мъжките котки, които имат само една Х хромозома, никога не проявяват цвят на козината на костенурки. (кредит: Майкъл Бодега)

Това може да се види при така наречените котки с черупка на костенурки, където ембрионалната инактивация на X се наблюдава като цветна пъстрота (Фигура 5). Хетерозиготните женски за ген, свързан с Х-свързана козина, ще експресират един от двата различни цвята на козината в различни области на тялото си, съответстващи на това, която Х хромозома е инактивирана в ембрионалната клетка на тази област.

Индивид с анормален брой Х -хромозоми ще инактивира всички, освен една Х -хромозома във всяка от нейните клетки. Въпреки това, дори инактивираните Х хромозоми продължават да експресират няколко гена. В резултат на това Х-хромозомните аномалии са свързани с леки умствени и физически дефекти и стерилитет. Пълното отсъствие на Х -хромозомата пречи на индивида да се развива вътреутробно.

Отбелязани са няколко грешки в броя на половите хромозоми.

(1) Triplo-X женски – XXX женски изразяват забавяне в развитието, намалена плодовитост

(2) Синдром на Клайнфелтер – XXY мъжки малки тестиси уголемени гърди намалено окосмяване по тялото

(3) Синдром на Търнър – X0 женска (само с една полова хромозома) нисък ръст, ципеста кожа в областта на шията слухови и сърдечни увреждания и стерилитет


Методи

Нашият подход за оценка на специфичните за видовете глобални изобилие за 9700 вида може да бъде разделен на пет ключови стъпки, очертани на свой ред по-долу (фиг. 1):

• Стъпка 1 (Данни за обучение): Моделирайте връзката между известните (т.е. външно утвърдени най-добрите налични данни) оценки на плътността и относителното изобилие от eBird, за да изведете специфичен за вида модел на обучение, като същевременно включите известна грешка в оценките на относителното изобилие.

• Стъпка 2 (Импутационни данни): Изчислете мярка за относително изобилие за всички видове в 5° мрежови клетки по целия свят. За обучаващите видове изчислете плътността, като използвате резултатите от Стъпка 1 във всяка уникална мрежа, която заема даден вид.

• Стъпка 3 (Характеристики на живота): Съберете характеристиките на живота (цвят на птиците, размер на стадото, размер на тялото и статус на Международния съюз за опазване на природата [IUCN]), които е вероятно да повлияят на връзката между истинската популация на даден вид и относителното изобилие на вид, изчислено чрез eBird.

• Стъпка 4 (Множествено импутиране): Извършете многократно импутиране чрез верижни уравнения, за да предскажете плътността на даден вид и неговата несигурност за клетка на мрежата, въз основа на известната връзка между очакваната плътност и наблюдаваното относително изобилие за нашите тренировъчни видове и чертите, събрани в стъпка 3.

• Стъпка 5 (Изчисляване на изобилие): Използвайте прогнозираните плътности и несигурности, за да извлечете средна глобална оценка на плътността за всеки вид и умножете тази оценка на плътността по наблюдаваната площ на даден вид — с екстраполация, където е необходимо и възможно, за да изчислите симулирано глобално изобилие разпределение.

В следващите методи ние разширяваме всяка от тези ключови стъпки.

Данни за обучение.

Оценки за изобилието.

Нашата основна цел беше да определим количествено гъстотата на видовете птици по целия свят. Основно значение за плътността е мярката за абсолютното изобилие – известното или изчисленото количество индивиди в една популация. Оценяването на общия размер на популацията на дадена животинска популация е основен изследователски въпрос в екологията и опазването (58). Голяма част от изследванията са изследвали как най -добре да се оценят абсолютните изобилие, като са били приложени много техники за оценка на изобилието (59, 60). Когато изобилието е известно за даден регион, тогава плътността е просто: D e n s i t y = A b u n d a n c e A r e a .

По този начин, за нашия анализ беше от решаващо значение да се намерят външни оценки за населението, които имат прогнозно изобилие на населението за даден географски регион. Тъй като повечето схеми за отчитане произтичат от правителствена инициатива за разбиране кои видове са най-застрашени (61), повечето оценки на популацията се основават на геополитически граници, а общите специфични за видовете популации след това се увеличават въз основа на екстраполации с размер на ареала. По този начин нашият анализ до известна степен разчита на населението в геополитически граници. Използвахме публикувани оценки на изобилието от три източника: 1) Базата данни за оценки на популацията на партньорите в полета (62) 2) оценки на популацията от Британския тръст за орнитология (63) и 3) от BirdLife International Data Zone datazone.birdlife.org/home. Събрахме общо 724 вида, за които сме изчислили числеността на популацията. Изобилието на всеки обучаващ вид беше изчислено или в геополитически граници (т.е. за видове, извлечени от базата данни Partners in Flight и Британския тръст за орнитология) или в целия им географски обхват (т.е. за видове, извлечени от зоната за данни на BirdLife). Например, оценки от базата данни „Партньори в полет“ бяха на разположение стратифицирани за всяка държава и региона за опазване на птиците в Съединените щати, където този вид е бил открит. Всеки от тези източници на данни е разгледан по -подробно в Приложение SI, SI методи.

Оценки за относително изобилие.

Ние извлекохме приблизителни оценки на изобилието от данни за гражданите на eBird (36, 64). Тук ние дефинирахме относителното изобилие, което означава броя на наблюдаваните птици за определена единица усилие (например време и/или разстояние). eBird стартира през 2002 г. от Корнелската лаборатория по орнитология и в момента има около 800 милиона глобални наблюдения на птици. Доброволните наблюдатели на птици представят „контролни списъци“ с птици, които са видени и/или чути по време на наблюдение на птици. Видове или брой видове, които са неочаквани въз основа на пространствено -временните координати на наблюденията, се маркират и преглеждат от обширна мрежа от доброволци експерти, преди да бъдат приети в набора от данни (65). Всеки контролен списък е означен като „пълен“ или „непълен“ от доброволците, които предоставят данните. Това разграничение показва дали подават пълен списък на всички птици, видени и/или чути по време на периода на наблюдение. В нашия анализ използвахме само пълни контролни списъци, тъй като това позволява да се правят изводи за отсъствия (т.е. неоткриване). За нашия анализ използвахме основния набор от данни на eBird (версия ebd_relMay2019). Агрегирахме данни за eBird от януари 2010 г. до май 2019 г. Признаваме, че някои видове може да претърпят промени в размера на популацията си през това време, но отбелязваме, че 10 y е препоръчителната от IUCN продължителност за изчисляване на промяната на популацията, когато времето на генериране не е известно ( 66). За да гарантираме допълнително, че тези данни представляват „най -качествените“ данни, използвахме допълнителен набор от филтри, целящи да премахнем потенциалните „отклонения“, които биха могли да отклонят нашия набор от данни (67 ⇓ ⇓ –70). Включихме само пълни контролни списъци, контролни списъци & gt5 мин. И & lt240 мин. По продължителност и контролни списъци, които са изминали & lt5 км. Въпреки това, някои потенциални грешки все още са възможни в набора от данни на eBird (вижте пример по -долу).

Към днешна дата данните от eBird са били използвани за различни мерки, свързани с изобилието. Общият подход е да се измери „относителното изобилие“: броят на птиците, преброени при отчитане на времето, прекарано в наблюдение на птици, и изминатото разстояние по време на наблюдение на птици. Например, лабораторията по орнитология в Корнел понастоящем моделира относителното изобилие в пространството и времето за & gt800 от най-често срещаните видове в Северна Америка и другаде: https://ebird.org/science/status-and-trends/. Тъй като нашият общ подход се основаваше на геополитически граници и би имало много различен брой налични данни между различните геополитически граници (срв. САЩ и отдалечен индонезийски остров), ние се стремихме към прост и проследим подход за моделиране, който би обобщил навсякъде, където Събират се данни за eBird. Като такъв, след първоначално проучване (Приложение SI, Фиг. S7 и SI методи), използвахме средното изобилие във всички контролни списъци (включително контролни списъци, когато даден вид не е идентифициран с нули) като наша мярка за относително изобилие.

Моделиране на връзката между плътността и относителното изобилие.

Използвайки известните оценки на изобилието от външни източници, описани по-горе, ние изчислихме плътността за всеки геополитически регион или обхват на вида (Приложение SI, Фиг. S8), съответстващ на мярката за относително изобилие от eBird. И относителното изобилие, и плътността бяха log10 трансформирани и всички стойности, които първоначално бяха нула (т.е. не бяха открити в eBird, но присъстваха във външните източници на данни) бяха зададени на -4.5 (скала log10), като се има предвид, че минималната стойност е -4.499787 в набора от данни (Приложение SI, Фиг. S9). Проверихме количествено чувствителността на включване на тези нули върху цялостния ефект на нашия модел и открихме, че произволните пресичания и наклони за видовете, които са били запазени, са стабилни, когато някои наблюдения бяха премахнати и следователно избрахме да включим нулите в нашия модел процес на монтаж, както е описано по -горе. Останахме с общо 8735 точки от данни за 724 вида, в които повечето видове имаха само едно наблюдение в модела, но някои видове имаха сравнително много наблюдения, използвани в модела (Приложение SI, Фиг. S10 и S11). След това монтираме байесов модел със смесени ефекти с произволен наклон, използвайки пакета R brms (71, 72), който е обвивка, за да пасне на байесовите модели в stan (73) чрез rstan (74). Този модел е еквивалентен на регресионен модел тип II, в който изрично моделирахме грешката в нашите мерки за относително изобилие на eBird. Грешката на измерванията за относителното изобилие на eBird беше изчислена като SD на всички средни оценки (т.е. SE) за времето на даден вид (т.е. месец) умножено пространството (т.е. геополитически регион) мерки за средно изобилие, с малка извадка корекция на размера, последвана от метода делта, за да се преобразува в скала log10. Въпреки че оценките за грешки са налични за повечето от нашите точки за обучение (т.е. оценката на плътността, вижте по -горе), това не е налично за всички точки от данни. Затова решихме да не включваме тази грешка при измерване в нашата променлива за отговор. Този подход е 1) приобщаващ, като позволява повече видове да бъдат включени в процедурата за моделиране, като не се пропускат видовете без грешка за данните за обучение и 2) консервативен чрез разпространение на по-голямо количество SE около пресечната точка и наклон (т.е. несигурност) напред в нашата рамка за моделиране. Използвахме log10 плътност като променлива на отговора и log10 относително изобилие като фиксиран ефект, с видове като произволни прихващания и log10 относително изобилие като съответни произволни наклони. Използвахме 10 000 повторения и четири вериги, с подгряване от 2 000. Използвахме априорите по подразбиране от brms, които са слабо информативни, имат само минимално влияние върху оценките, като същевременно подобряват конвергенцията и ефективността на извадката. В случая на гаусово разпределение сигма има половин ученик T преди това се мащабира по същия начин като SD на ниво група (71, 72). От този модел на brms извадихме случайния наклон и прихващане за всеки вид (Приложение SI, Фиг. S12), което дава двупараметрично уравнение (y = mx + б), което означава връзката между наблюдаваната плътност на вида и относителното изобилие от eBird (Приложение SI, Фиг. S9 – S12). В допълнение, ние извличаме SE (т.е. SD на задните разпределения) на прихващането и наклона за всеки вид в учебния набор от данни (Приложение SI, Фиг. S12). От съществено значение е да се пренесат тези грешки за случайни прихващания и наклони, тъй като всеки вид би имал различно количество грешки, свързани с неговото прихващане и наклон (75).

Валидиране на Brms модел.

Използвахме приближение без едно изключване (76, 77) от пакета brms, за да проверим диагностиката на нашия brms модел и открихме, че 95% от наблюденията имат Pareto k < 0,7 — в диапазона „ок“ (71, 76 , 77), което предполага, че много малко точки от данни могат да се считат за „влиятелни“ в нашия процес на напасване на модела. Байесов приближен R 2 - изчислен като вариация на прогнозните стойности, разделена на вариацията на прогнозираните стойности плюс очакваната вариация на грешките (78) - за този модел е 0,78. За по-нататъшно валидиране на модела brms, използван за извличане на специфични за видовете прихващания и наклони, ние използвахме извлеченото прихващане и наклон за всеки вид с първоначалните наблюдавани данни (вж. Методи, по -горе), за да се провери дали brms моделът може точно да предвиди външните оценки за общото изобилие на населението. Открихме, че прихващанията и наклоните, извлечени от brms, силно прогнозират оценките на изобилието за нашите трениращи видове (Приложение SI, Фиг. S13 и S14) с R 2 от 0,88. В крайна сметка открихме, че нашият brms модел е стабилен за извличане на специфични за видовете оценки за пресичане, наклон и SE на пресичането и наклона - вижте по-долу за цялостно валидиране на работния процес, демонстриращо стабилността на този модел допълнително.

Данни за импутация.

След като моделирахме връзката между наблюдаваната плътност и относителното изобилие, останахме с двупараметричен модел (y = mx + б) описване на тази статистическа връзка, която помага да се отчете шумът в мерки за относително изобилие. След това изведохме 5 × 5 ° пространствена решетка, покриваща света (Приложение SI, Фиг. S15). Използвахме само мрежи с минимум 50 контролни списъка на eBird в рамките на поне един месец (Приложение SI, Фиг. S16). В рамките на всяка мрежа (N = 579) изчислихме относителното изобилие на всеки вид, както е дефинирано по-горе: средно изобилие във всички контролни списъци, включително нули за контролни списъци, в които не е открит вид. Това беше стратифицирано по месеци. Ако даден вид не е наблюдаван в мрежа (т.е. относително изобилие от 0), тогава приехме, че видът не съществува в тази мрежа. Използвайки нашия двупараметричен модел, който включваше SE за прихващане и наклон, приехме, че корелацията между наклона и прихващането ще бъде -1 (Приложение SI, Фиг. S13) това е така, защото надцененото прихващане (по -високи прихващания) почти винаги ще доведе до по -плитки наклони, създавайки корелация между прихващане и наклон от -1. Съгласно това предположение, ние изчислихме плътността – и нейната SE – за 684 от нашите тренировъчни вида (т.е. тези, които бяха открити, след като бяха използвани критерии за филтриране на решетки и ограничиха общия брой видове, които да бъдат включени в допълнителни анализи) във всеки решетка, че са наблюдавани трениращи видове (Приложение SI, Фиг. S17). След като смекчихме променливостта между месеците във всяка решетка до единична стойност чрез усредняване на относителното изобилие, останахме с общо 192 702 вида × решетки. Общо 41 652 от тях са имали оценки на плътността при общо 684 вида.

Въпреки че проектът eBird има силни и строги протоколи за преглед (36, 64) и обширна мрежа от регионални доброволци (65), някои грешки и грешки все още могат да бъдат направени. Ако видът беше наличен във версията на набора от данни на eBird, която използвахме, не направихме „почистване“ на известни (или предполагаеми) грешки. Например, ние прогнозирахме положително изобилие на широко признатия като изчезнал кълвач от слонова кост, защото имаше положителни наблюдения за този вид във версията eBird, която използвахме (вижте по-горе). Следователно, нашите резултати, представени в Dataset S1, трябва да бъдат тълкувани внимателно въз основа на известната биология на даден вид и предишните очаквания (основен текст). Въпреки това, eBird — и други набори от данни за гражданска наука — непрекъснато нарастват както в количество, така и в качество и тези грешки или грешки непрекъснато се коригират в актуализирани версии на набора от данни.

Характеристики на историята на живота.

Нашата основна цел чрез множество импутации беше да причислим липсващите оценки за плътност чрез моделиране на връзката между изчислената плътност, получена от данните за обучение, и относителното изобилие за нетрениращите видове. Въпреки това, връзката между наблюдаваната плътност и относителното изобилие от контролните списъци на eBird (напр. Фиг. 1А) вероятно ще бъде повлиян от набор от характеристики на живота на вида. Предишна работа показа, че чертите на видовете (напр. Размер на тялото, цвят и размер на групата) могат да повлияят на откриваемостта на даден вид (79 ⇓ ⇓ ⇓ ⇓ –84) и по този начин от своя страна вероятността даден вид се регистрира при гражданин набор от научни данни (85). Sólymos et al. (81) и Johnston et al. (82) установи, че размерът на тялото е важен предиктор за откриваемостта на видовете птици. Съществува също така подкрепа, че размерът на групата може да повлияе на откриваемостта на животните (83). Въпреки че е трудно да се определи количествено, се смята, че оцветяването на даден организъм влияе върху неговата откриваемост (84). И накрая, общият клас на изобилие (например обикновен срещу рядък) на даден вид също вероятно ще повлияе на откриваемостта на вида и вероятността да бъде записан в набора от научни данни за гражданите на eBird (85). Въз основа на горното биологично разбиране за откриваемостта, в нашето вместване включихме спомагателни данни за следното: цвета на вида, размера на стадото, размера на тялото и статуса на IUCN. За цвят използвахме набор от данни от> 5000 вида (86) и изчислихме две отделни показатели: яркост и разстояние от кафяво. За размера на стадото използвахме eBird за изчисляване на общия среден размер на стадото сред всички присъстващи в набора от данни за всеки вид. За размера на тялото използвахме телесна маса за възрастни (в грамове), извлечена от ref. 87. И накрая, използвахме статуса на IUCN за видовете в импутацията (88) като редна променлива, извлечена от работния списък на BirdLife International с птици версия 3, достъпен тук: datazone.birdlife.org/species/taxonomy.

Преди импутацията наистина открихме, че тези черти съответстват сравнително добре на различни компоненти (т.е. или прихващане или наклон или SE на прихващане или наклон) на откриваемостта на видовете между наблюдаваната плътност и относителното изобилие на eBird (Приложение SI, Фиг. S18 и S19). Прихващането на вид показва силна връзка с телесната маса (r = −0,467) и умерена корелация с цвета (r = 0,101 и r = 0,145 за разстояние от кафявото и съответно яркостта). Като има предвид, че размерът на стадото е слабо свързан с прихващането (r = −0.086) и умерено корелира с наклона (r = 0,146), тя е силно свързана със SE на прихващането (r = −0.626) и наклон (r = −0.524). Подобен модел като размера на стадото е показан за състоянието на IUCN като порядкова променлива. Всички корелации по двойки между отсечката, наклона, SE на пресечната точка, SE на наклона и характеристиките на вида могат да се видят в Приложение SI, Фиг. S18. След като изчислихме плътността за трениращите видове, използвайки прихващания и наклони, останаха умерени до силни връзки между относителното изобилие, очакваната плътност и различните белези от историята на живота (Приложение SI, Фиг. S19), което показва, че чертите от историята на живота вероятно ще смекчат връзката между относителното изобилие и плътността.

Множествена импутация.

Нашият набор от данни за „импутация“ включваше 192 702 реда (решетка × видове) с 11 променливи: 1) идентификатор на вида (липсва 0%), 2) логарифмически трансформираният брой на контролните списъци на eBird (липсва 0%), 3) броят на месеците a вид е наблюдаван в тази мрежа (0% липсва), 4) относително изобилие, както е описано подробно по -горе (0% липсва), 5) размер на стадото (0% липсва), 6) статус на IUCN (8% липсва), 7) тяло размер (16% липсва), 8) цветово разстояние от кафяво (40% липсва), 9) яркост на цвета (40% липсва), 10) прогнозна плътност (79% липсва) и 11) SE за плътността (79% липсва). Тези 11 променливи показват умерена до силна корелация (Приложение SI, Фиг. S18 и S19). Нашите цели за приписване бяха плътността (на специфичното ниво на мрежата) и нейната SE (10 и 11), основно информирани от относителното изобилие (0% липсващи стойности), но също така подпомогнати от петте помощни променливи (5 до 9). Тези спомагателни променливи имаха добро покритие, например 79% от редовете (153 095) имаха поне една от тези спомагателни променливи. Сред променливите с липсващи стойности, първите пет (5 до 9) са променливи на ниво вид, докато последните (10 и 11) са на ниво наблюдение (ред). Използвахме мишки R пакети (89) и мишеви добавки (90), за да проведем двустепенна множествена импутация, при която смесени модели с един клъстериращ (т.е. случаен) фактор бяха използвани за импутиране на липсващи данни, използвайки алгоритъм за предсказващо средно съвпадение (2lonly.pmm за променливите на ниво вид и 2l.pmm за променливите на ниво наблюдение). В нашия случай фактор за групиране (т.е. случаен) е видът. Създадохме 100 условни набора от данни.

Валидиране на модел на множествена импутация.

За да потвърдим нашия подход за моделиране на множество импутации, извършихме три различни проверки, препоръчани за оценка на надеждността и правдоподобността на многократното импутиране (91, 92). Първо, направихме качествена оценка на външната проверка и не открихме биологично необосновани вменени оценки (92). Второ, сравнихме плътността на наблюденията за данните за обучение и плътността на наблюденията за условните данни. Използвайки 10 произволно избрани импутации – от 100 общи импутации, които извършихме в нашия анализ – ние визуално проверихме изчислените оценки за условна плътност и плътност SE в сравнение с наблюдаваните оценки за плътност и плътност SE (Приложение SI, Фиг. S20). Открихме, че всичките 10 от нашите произволно избрани импутации съвпадат тясно с наблюдаваните плътности, използвани по време на импутацията, което предполага, че импутираните стойности са статистически правдоподобни.Трето, ние извършихме анализ на кръстосана валидация, при който не се допускаше еднократно, в който, тъй като нашата импутация беше вложена на ниво вид (т.е. видът беше третиран като случаен ефект), оставихме всеки от нашите трениращи видове, един при време (напр. Приложение SI, Фиг. S21). За този анализ всеки процес на моделиране на импутация се повтаря, както е описано по -горе, но само с 10 импутации, за разлика от 100 -те импутации, които използвахме в нашия пълен модел, поради изчислителни причини. Открихме, че на ниво на наблюдение диапазонът от 10 условни изчисления обхваща наблюдаваната оценка на плътността за 95% от изпуснатите условни наблюдения (напр. Приложение SI, Фиг. S21). По подобен начин диапазонът между 0,05 и 0,95 квантила на нашите 10 вменения обхваща наблюдаваната плътност за 92% от наблюденията. Когато оценявахме данните на ниво наблюдение, предсказуемата сила на нашия метод за импутиране за импутирана плътност беше много силна: линеен модел със смесени ефекти с променливата на отговора като условна плътност и променливата за прогнозиране като наблюдавана плътност със случаен ефект за видовете имаше пределно R 2 от 0,84. Когато се вземат оценки на средната плътност сред решетките за всеки вид, ние също имахме силна прогнозна сила и линейният модел имаше R 2 от 0,48 (Приложение SI, Фиг. S22). Като цяло, нашата множествена импутация даде надеждни оценки на плътността и ние също така отбелязваме, че сме отчитали SE на процедурата за импутиране по време на по -нататъшни анализи (виж по -долу).

Изчислете изобилието.

Тъй като някои видове могат да се срещат много рядко в мрежа (т.е. еднократно), представлявайки наблюдение извън обхвата, например, ние претеглихме плътността на мрежата по броя на контролните списъци, в които даден вид се среща в мрежа, разделено на броя от общите контролни списъци в тази мрежа. Това осигурява една единствена плътност за всеки вид, която представлява плътността, претеглена от решетките, където този вид се наблюдава най -често, и по този начин плътността е вероятно да бъде най -надеждна (Приложение SI, Фиг. S23). По-общо, сгъването на плътностите на видовете сред решетките до средна плътност помага да се отчетат известните разлики в плътността в целия диапазон на вида (93), като се вземе оценка на средната плътност, включваща регионите с ниска плътност и висока плътност на даден вид ' диапазон. В нашите 9700 вида средният брой мрежи, които един вид заема, е 19, със SD от 36 (Приложение SI, Фиг. S17). Отбелязваме, че много видове се срещат само в една решетъчна клетка и въпреки че тяхната плътност може да се различава в целия им диапазон, не успяхме да отчетем това потенциално отклонение, но разликите в плътностите вероятно ще бъдат най -големи при видове с по -голям обхват (93 ). Ние също така изчислихме приписаните SE за плътността като квадратен корен от сумата от: 1) дисперсия на вменеността на плътността и 2) квадратът на средната стойност на вменената SE, претеглена с броя на контролните списъци. Тъй като първоначално бяха наблюдавани някои големи и биологично необосновани SE, ние зададохме ръб за SE на плътност 1 за прогнозирана плътност, което се равнява на 91 пъти по-висока плътност от точковата оценка на плътността по отношение на горната степен на достоверност лимит. Считаме това преди за консервативно и вероятно пристрастяване на нашите оценки, което води до твърде големи доверителни интервали в някои случаи. Съответно всеки вид е получил оценка на средната плътност (Приложение SI, Фиг. S24) и SE с тази плътност (Приложение SI, Фиг. S25) в дадена решетъчна клетка.

За всеки вид в нашия набор от данни изчислихме оценка на средната плътност (по скалата log10) на всички клетки от мрежата, в които е бил открит вид, както е описано по -горе. След това изчислихме общата площ, заета от всеки вид в нашия анализ, като сумирахме площта на броя на решетъчните клетки, в които е открит всеки вид. Въпреки това, ние коригирахме тези области в две посоки, в зависимост от размера на обхвата на вида. Първо, за видове с относително малки обхвати, които могат да бъдат по-малки от средния размер на клетката на мрежата (24 000 квадратни мили), ние изрязахме площта на този вид до неговия известен размер на обхвата (Приложение SI, Фиг. S26 показва такъв пример). Второ, тъй като данните от eBird не са хомогенни по целия свят (напр. Фиг. 1Б), има много пропуски в нашите извадени клетки от мрежата (напр. Сибир и Африка -Приложение SI, Фиг. S15). Следователно, за вид, чийто прогнозен обхват не беше изваден изцяло от нашия анализ на eBird (т.е. използваните решетъчни клетки не покриват напълно обхвата на този вид), ние използвахме площта на общия размер на ареала - за разлика от общата площ на решетки, в които е открит вид - с наблюдаваната оценка на средната плътност от нашия анализ. Прогнозните ареали на видовете са предоставени от BirdLife International. Отбелязваме обаче, че не разполагахме с данни за обхвата на всеки вид в нашия анализ предвид таксономичните различия между таксономията Clements и BirdLife International и общата липса на данни за някои видове. Следователно, нашата корекция на обхвата не беше направена за 2731 вида, като в този случай предположихме, че общата площ на техните пробни клетки на мрежата се доближава до общия размер на обхвата на видовете. Дали оценката за изобилието на вида е коригирана въз основа на обхвата, е отбелязано в набор от данни S1.

Използвайки оценката на средната плътност (по скалата log10) и размера на обхвата на вида, след това получихме оценки за изобилието, като изтеглихме 10 000 произволни извличания от нормално разпределение със средната оценка на плътността и съответното SE. Определихме медианата на това разпределение (фиг. 1Е) като специфично за видовете глобално изобилие. Ние също така докладваме за долната и горната 95% CI в Dataset S1.

Този метод беше повторен за всеки вид в нашия анализ (N = 9 700). За да се определи общият брой на отделните птици в света, ние сумираме специфичните за вида разпределения, както е описано по-горе, като гарантираме, че разпределенията са подредени преди сумирането (т.е. най-малките или най-големите стойности се сумират, когато комбинираме разпределенията). Подреждайки разпределенията преди сумиране, ние гарантираме, че вероятността от стойности, специфични за всеки вид, съответстват помежду си, като по този начин гарантираме, че средните стойности съответстват на тези с най -голяма вероятност. Въпреки че този подход е направен за всеки вид, можем също така да обобщим специфичните за видовете разпределения въз основа на всяка класификация на вида (например род, семейство, ред, биогеографска област и хранителна гилдия), както направихме в нашия анализ.

Общо валидиране на работния процес.

За да потвърдим нашия цялостен работен процес за изчисляване на специфичните за видовете оценки на изобилието, ние изпълнихме подход за кръстосано валидиране без едно изключване за 684 обучаващи вида, които бяха включени както в модела brms, така и в стъпката на многократно импутиране на нашия анализ. За всеки вид премахнахме този вид от нашия тренировъчен пул и извършихме повторно анализа – включително модела brms, модела за множество импутации и симулираното разпределение на оценките за изобилието. За този процес, за да се избегнат изчислителните затруднения, моделът brms беше посочен по същия начин, но снабден само с две вериги, 3 000 повторения и затопляне от 1 000, докато множествената импутация беше монтирана над 10 импулции всеки път (качествени проверки за шепа видовете показват минимални разлики, когато са използвани повече итерации и/или импутации). След това успяхме да оценим специфичното за вида разпределение на изобилието за всеки вид, когато той беше 1) включен като обучаващ вид в пълния работен процес и 2) когато беше изцяло задържан като обучаващ вид (напр. Приложение SI, Фиг. S27). В повечето случаи разпределението на възможните оценки на изобилието е по -широко (т.е. по -широки доверителни интервали), когато даден вид не е включен в процеса, в сравнение с това, когато е включен в пълния модел, а в някои случаи разпределенията са много сходни (Приложение SI, Фиг. S27). Важно е, че открихме много силна корелация между средното изобилие на популацията за всеки вид, когато е изключено от анализа, и средното изобилие на популацията от пълния модел, когато всички видове бяха включени (Приложение SI, Фиг. S28) - с R 2 от 0,94.

Оценка на филогенетичния сигнал за оценки на изобилието на видове.

Използвайки функцията phylosig от пакета R, phytools (94), ние изчислихме K на Blomberg като наша мярка за филогенетичен сигнал. За да включим филогенетичната несигурност, използвахме 250 филогенетични дървета на базата на ref. 95 и обобщена получена статистика, като се използва правилото на Рубин, описано в реф. 96, като приемем P стойностите от тестове за рандомизация са сравними с тези от T разпределения (97).

Оценка на изкривеността на разпределението на изобилието.

В допълнение към сумирането на специфичните за видовете разпределения на изобилието и изчисляването на общата средна оценка (в оригиналната скала) за всяко семейство, ред, биогеографска област и хранителна гилдия, ние също изчислихме разпределение на изобилието за всяка от тези категории - с добавянето от рода - чрез сумиране на специфичните за видовете средни оценки за всяка категория. И двата подхода показват силно сходство (Приложение SI, Фиг. S2 и S3). Използвахме функцията на изкривяване от пакет e1071 (98), за да изчислим изкривяването на дадено разпределение на изобилието. За да се оцени стабилността на нашето откритие, че разпределението на видовете, рода, семейството и редът е оставено изкривено, ние използвахме подход за повторно вземане на проби. Първо, на случаен принцип извадихме квантил (от 0,1 до 0,99) и взехме оценката на изобилието в този квантил за всеки вид (за разлика от средната оценка, която е представена в основния текст) и след това изчислихме и изкривяването на ЕАД, както и като разпределения на изобилието на рода, семейството и реда (изчислени чрез сумиране на специфичните за видовете средни оценки на изобилието) за всяка произволна извадка. Извършихме това 1000 пъти, за да извлечем разпределение на мерките за изкривяване, демонстрирайки стабилността на нашето откритие, че разпределенията на изобилието – между таксономичните нива – са изкривени вляво (Приложение SI, Фиг. S2). В допълнение, ние извършихме подход за начално зареждане, за да стартираме CI на мерките за изкривяване, потвърждавайки нашия подход за повторно вземане на проби (Приложение SI, Фиг. S3).


Дискусия

Възникването на болести, пренасяни от кърлежи, може да се дължи на вариации в редица фактори, като изобилие от кърлежи, разпространение на патогени, ниво на патогенност, както и нивото на излагане на кърлежи чрез използване на земята за добитък или поминък, свързан с горите или развлекателни дейности при хора. Ние противопоставихме два региона към северния диапазон на разпространение на I. ricinus в Европа се различават до голяма степен по броя на случаите на лаймска борелиоза при хора, анаплазмоза при овце и анаплазмоза и бабезиоза при говеда. Потвърдихме, че честотата на всички заболявания, а не само на броя на случаите, е по-ниска в източния регион в сравнение със западния регион на Норвегия. Най-забележителната констатация е много ниското разпространение на A. phagocytophilum при търсещи нимфи ​​в източния регион, което вероятно е поне част от обяснението за ниската честота на анаплазмоза в региона.

Ролята на моделите на разпространение на патогени

Болестите, пренасяни от вектор, споделят общата черта да разчитат на наличието на вектора. Въпреки това, различните патогени се различават до голяма степен по своята биология и степента, до която разчитат на единични или много трансмисионни гостоприемници със или без широко географско разпространение. Следователно разпространението на болести, пренасяни от кърлежи, може да бъде по-ограничено от разпределението на вектора. Например, пространственото разпространение на вируса на енцефалит, пренасян от кърлежи (TBEV) в Европа е много ограничено, което вероятно отразява необходимостта от специфични условия за цикъла на съвместно хранене. Предаването на TBEV изисква съвместно хранене на най-малко 10 ларви и една заразена нимфа на същия гостоприемник, за да има продължителен епидемиологичен цикъл [35] и това е свързано с доста специфични температурни условия [36]. Обратно, наличието на лаймска борелиоза може да бъде доста добре предсказано въз основа на наличието на вектора. Няма съмнение, че затоплянето на климата пряко засяга историята на живота на I. ricinus е основен фактор, влияещ върху общата поява на лаймска борелиоза в Европа [37,38,39]. Понастоящем се съобщава за нарастваща честота на лаймска борелиоза в северните части на Европа, както в Норвегия [20], и във Финландия [19]. Ако има I. ricinus в даден район, патогенът B. burgdorferi (s.l.), обикновено причиняваща лаймска борелиоза, тъй като трансмисионните гостоприемници са широко разпространени [40]. В съответствие с това, разпространението на B. burgdorferi (s.l.) в търсенето на нимфи ​​е сходна в двете области (11,3% в западна и 11,4% в източна Норвегия).

Моделът на кърлежи, търсещи изобилие

Опасността от заболяване зависи както от изобилието на търсене на кърлежи, така и от нивата на разпространение на патогените му, често измервани като брой заразени нимфи ​​[13]. Определянето на изобилието на кърлежи с метода за маркиране е трудно, тъй като тези данни също отразяват моделите на активност на кърлежите, които се влияят от комбинация от фотопериод и преобладаващо време [41, 42]. Следователно активността на кърлежите варира в зависимост от сезоните, годините и регионите. Открихме като цяло по -голямо изобилие от търсещи нимфи ​​на запад (5,78/20 m 2), в сравнение с изток (1,36/20 m 2), което при подобно разпространение, както при B. burgdorferi (s.l.), водят до по-висока опасност от заболяване в западната част на Норвегия. Това по-голямо изобилие на търсещи кърлежи на запад може да допринесе за повече от 8,3 пъти по-висока честота на лаймска борелиоза на запад (12,4 на 100 000) в сравнение с източната част (1,49 на 100 000) на Норвегия. Нашите времеви серии от полеви данни бяха твърде кратки, за да свържат опасността от заболяване с честотата в продължение на години и ние разчитахме на пространствени контрасти за изводи. Имаше значителни годишни вариации в изобилието на кърлежи, търсещи кърлежи и в двата региона, така че това със сигурност може да допринесе за обяснението на годишните вариации в честотата на заболяването.

Открихме почти два пъти повече възрастни спрямо нимфите на изток в сравнение със западните (Таблица 2). Въпреки че не можем да обясним този модел с нашите настоящи познания, това може да предполага, че жизнените цикли и смъртността се различават между регионите. Западният бряг на Норвегия е по-топъл и по-влажен от източния район, който има по-вътрешен климат. Температурата, а не влажността е ограничаваща за търсенето на кърлежи по западното крайбрежие [42], докато няма данни за целия сезон в източната ни зона за изследване. Ограничение на нашето проучване беше липсата на данни за пълните сезонни вариации в търсенето и че периодите на вземане на проби също се различават, като май на запад и главно юни на изток. Освен това е възможно също така разпространението на специфични геновидове на B. burgdorferi (s.l.) играят роля, тъй като те могат да причинят различни клинични симптоми [43]. И накрая, не можем да пренебрегнем ролята на различията в излагането на хора на кърлежи между регионите [44]. Честотата на кърлежовия енцефалит в Източна Европа е свързана с дейността в горите, която отново се дължи на социално-икономически фактори [45]. В нашето проучване имаше намалена честота на лаймска борелиоза с повече заселване на хора в рамките на една община. Ясно е, че по -подробни проучвания за това как хората и добитъка се излагат на кърлежи в източна в сравнение със западна Норвегия биха били плодотворни.

Пространствено променливо разпространение на A. phagocytophilum

Анаплазмозата е основен проблем в много области на Европа A. phagocytophilum също се счита за широко разпространен патоген [6]. По западното крайбрежие на Норвегия анаплазмозата при овцете е основен проблем [46]. Инфекция на A. phagocytophilum причинява смъртност и намалява телесния растеж при агнетата [47]. Излагането на кърлежи често е свързано с пасища в началото на пролетта [48], преди овцете да бъдат изпратени за лятна паша на по -висока надморска височина с по -малко изобилие от кърлежи [42]. Често има неясни клинични симптоми с анаплазмоза и заболяването може да бъде подписано. Независимо от това, честотата на анаплазмоза при овцете е висока в западния регион, с около 10 случая на 10 000 овце, докато в източния регион няма регистриран случай през периода на изследване (2006–2015 г., Таблица 1, Фиг. 1). За разлика от равномерното разпределение на патогена B. burgdorferi (s.l.) причинява лаймска борелиоза, разпространението на A. phagocytophilum беше значително по-висок на запад, в сравнение с изток, на Норвегия.

Докато предаването хостове на B. burgdorferi (s.l.) е добре известно [40, 49], за това все още се спори A. phagocytophilum [17, 50]. Благородният елен често се смята за основен преносител на A. phagocytophilum в Норвегия [51], а разпространението на благороден елен е свързано главно със западното крайбрежие на Норвегия [52] (Допълнителен файл 1: Фигура S2). Разпространението на A. phagocytophilum по западното крайбрежие е достигнал до 75% при благороден елен [53], а разпространението на A. phagocytophilum при кърлежите е по-високо в райони с голямо изобилие на елени в Норвегия [54, 55]. Въпреки това, високи нива на разпространение (76%) са открити и при сърната във Франция [56], а сърната и лосът са изобилни гостоприемници в източните части на Норвегия (Допълнителен файл 1: Фигура S2). В съответствие с това повечето изследвани сърни са имали A. phagocytophilum инфекция в източния регион (A. Mysterud et al., непубликувани данни). Следователно е изненадващо, че виждаме толкова ниско разпространение при нимфите. Предполагаме, че изборът на ларвен гостоприемник може да играе роля в нивата на разпространение на патогените в нимфите. Ларвите на кърлежите са доста изобилни при благородния елен на западния бряг [57], докато не открихме ларви при сърните в източната област (A. Mysterud et al., Неопубликувани данни). Пробите от сърни са от ранна пролет, така че не е сигурно дали това отразява само късното начало на търсенето на ларви или разликите в подбора на гостоприемника. Следователно са необходими допълнителни проучвания, за да се разбере дали това може да предостави поне част от възможно обяснение за по -ниския дял на A. phagocytophilum при нимфи ​​и произтичащата от това по-ниска честота на анаплазмоза в източната в сравнение със западната Норвегия. Ако ларвите се хранят предимно с други гръбначни животни с по -ниски/не A. phagocytophilum инфекция, ще има малко заразени нимфи, ако приемем, че съвместното хранене не е основен път на предаване [36]. Въпреки това, ако нимфите се хранят с сърна, тогава възрастните кърлежи могат да имат по -голямо разпространение на A. phagocytophilum, и до известна степен това беше моделът, който открихме (Таблица 1).

Животните често получават много повече ухапвания от кърлежи от хората и дори ниската степен на разпространение може да представлява висок риск от инфекция. За A. phagocytophilum, щамовете се различават по своята патогенност за говеда [58]. Предложени са четири основни циркулиращи щама на A. phagocytophilum в Европа с резервоари в: (i) благороден елен и добитък (ii) сърна (iii) гризачи и (iv) птици [17, 50].Тъй като благородният елен има същия щам като добитъка и тъй като благородният елен в голяма степен отсъства от източната зона на изследване (Допълнителен файл 1: Фигура S2), това може да даде допълнително обяснение за липсата на анаплазмоза в тази област. Въпреки това, както броят на A. phagocytophilum щамове, както и патогенността на щамовете за добитък в Норвегия все още се считат за несигурни [51].


Предположения и ограничения

Използването на корелация и регресия зависи от някои основни предположения. Приема се, че наблюденията са независими. За корелация и двете променливи трябва да бъдат случайни, но за регресия само променливата за отговор y трябва да бъде произволна. При извършване на тестове на хипотези или изчисляване на доверителни интервали за регресионните параметри, променливата на отговора трябва да има нормално разпределение и променливостта на y трябва да бъде еднаква за всяка стойност на променливата на предиктора. Необходими са същите допускания при тестване на нулевата хипотеза, че корелацията е 0, но за да се интерпретират доверителните интервали за коефициента на корелация и двете променливи трябва да бъдат нормално разпределени. Както корелацията, така и регресията приемат, че връзката между двете променливи е линейна.

Диаграма на разсейване на данните осигурява първоначална проверка на предположенията за регресия. Предположенията могат да бъдат оценени по-подробно, като се разгледат графиките на остатъците [4,7]. Обикновено остатъците се нанасят на графика спрямо нагласените стойности. Ако връзката е линейна и променливостта постоянна, тогава остатъците трябва да бъдат равномерно разпръснати около 0 по обхвата на зададените стойности (Фиг. ​ (Фиг. 11 11).

а) Диаграмата на разсейване на y спрямо x предполага, че връзката е нелинейна. (б) График на остатъци срещу монтирани стойности в панел а кривината на връзката е показана по -ясно. (° С) Скатерната диаграма на y срещу x предполага, че променливостта в y се увеличава с x. (д) Графика на остатъци спрямо монтирани стойности за панел c нарастващата променливост в y с x е показана по-ясно.

Освен това може да се създаде нормален график от остатъци. Това е график на остатъците спрямо стойностите, които би трябвало да приемат, ако са дошли от стандартно нормално разпределение (Нормални резултати). Ако остатъците са нормално разпределени, този график ще покаже права линия. (Стандартното нормално разпределение е нормално разпределение със средна стойност = 0 и стандартно отклонение = 1.) Нормалните графики обикновено се предлагат в статистически пакети.

Фигури ​ Фигури 12 12 и ​ и 13 13 показват остатъчните графики за данните A ɮ. Графикът на монтираните стойности спрямо остатъци предполага, че допусканията за линейност и постоянна дисперсия са удовлетворени. Графиката Normal предполага, че разпределението на остатъците е нормално.

График на остатъци спрямо монтирани стойности за данните за аварии и аварийни единици.

Нормална графика на остатъчните данни за данните за аварията и аварийното звено.

Когато се използва регресионно уравнение за прогнозиране, грешките в прогнозата може да не са просто случайни, но и да се дължат на неадекватност в модела. По -специално, екстраполирането извън обхвата на данните е много рисковано.

Явление, което трябва да знаете, което може да възникне при многократни измервания върху индивиди, е регресия до средната стойност. Например, ако се вземат повторни измервания на кръвното налягане, тогава пациентите с по -високи от средните стойности при първото си четене ще имат тенденция да имат по -ниски показания при второто си измерване. Следователно разликата между второто и първото им измерване ще бъде отрицателна. Обратното е вярно за пациенти с показания по -ниски от средните при първото им измерване, което води до видимо повишаване на кръвното налягане. Това може да доведе до подвеждащи тълкувания, например, че може да има очевидна отрицателна корелация между промяната на кръвното налягане и първоначалното кръвно налягане.


Гледай видеото: Агрогороскоп с 26 по 28 сентября 2021 года. Луна для Жизни (Февруари 2023).