Информация

$F_{ST}$ вероятност и коефициент на корелация ли е?

$F_{ST}$ вероятност и коефициент на корелация ли е?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

$F_{ST}$ е една от най-известните и най-важни статистики на цялата еволюционна биология. И все пак много хора го разбират погрешно или злоупотребяват с класическите резултати от литературата за $F_{ST}$ (Whitlock and McCaughley,1999).

Индекс на фиксиране в модела на безкрайни острови

В панмиктична популация, вероятността за идентичност по произход $F(t)$ в поколение $t$ е вероятността за вземане на проби от един и същ алел два пъти плюс вероятността да не се вземе проба от същия алел, умножена по вероятността за идентичност по произход в предишно поколение

$$F(t) = frac{1}{2N} + left(1-frac{1}{2N} ight) F(t-1)$$

, където $N$ е размерът на популацията. Тук предполагам диплоидна популация и липса на мутация. В модел на безкраен алел тези вероятности трябва да бъдат претеглени с вероятността никой от родителя да не е мигрирал в предишното поколение.

$$F(t) = (1-m)^2left(frac{1}{2N} + left(1-frac{1}{2N} ight) F(t-1) ight )$$

, където $m$ е скоростта на миграция между произволни две деми. Задаване на $F(t) = F(t-1) = hat F = F_{ST}$, като се приеме, че $m$ е ниско и решаването за $F_{ST}$ довежда до класическия резултат от Sewall Wright

$$F_{ST} = frac{1}{1+4Nm}$$

Определения на $F_{ST}$

$F_{ST}$ е определен от С. Райт като

$$F_{ST} = frac{var(p)}{ar p(1-ar p)}$$

, където $var(p)$ е дисперсията на честотата на алелите сред населението и $ar p$ е общата средна честота на алелите.

От Ней (1973)

Райт показа, че вариацията в честотата на гените между субпопулациите може да бъде анализирана чрез индексите на фиксиране или F-статистиката. Той изведе формулата $$1 - F_{IT}= (1 - F_{IS}) (l-F_{ST})$$, където FIT и F1s са корелациите между две обединяващи гамети, за да произведат индивидите спрямо общата популация и съответно спрямо субпопулациите, докато $F_{ST}$ е корелацията между две гамети, извадени на случаен принцип от всяка субпопулация. $F_{IT}$ и $F_{IS}$ може да станат отрицателни, но $F_{ST}$ е неотрицателно.

Въпрос

При извличането на индекс на фиксиране в модела на безкраен остров, $F_{ST}$ е вероятност за идентичност. В цитата от Nei (1973) (и други източници), $F_{ST}$ е представен като коефициент на корелация. В определението на Райт и Ней не виждам връзката между уравненията нито с вероятност, нито с коефициент на корелация. Можете ли да ми помогнете да изясня това?

Например, бих очаквал, че $Eleft[frac{var(p)}{ar p (1-ar p)} ight] ≈ frac{1}{4Nm+1}$, където $ E[X]$ е очакваната стойност на променливата $X$. Можете ли да докажете, че това е вярно?


Коефициент на корелация на ранга на Спирман

Коефициентът на корелация на ранга на Спирман се използва за откриване на силата на връзката между два набора данни. Този пример разглежда силата на връзката между цената на удобен артикул (бутилка вода от 50 cl) и разстоянието от Музея на съвременното изкуство в Ел Равал, Барселона.

пример: Тестваната хипотеза е, че цените трябва да намаляват с отдалечаване от ключовата област на джентрификация около Музея за съвременно изкуство. Следваната линия е Transect 2 на картата по-долу, с непрекъснато вземане на проби от цената на 50cl бутилка вода във всеки магазин.

Карта за показване на местоположението на градиентите на околната среда за трансектните линии в Ел Равал, Барселона

Може да очакваме да открием, че цената на бутилка вода намалява с увеличаване на разстоянието от Музея за съвременно изкуство. По-високите наеми на имоти в близост до музея трябва да се отразят в по-високите цени в магазините.

Хипотезата може да бъде написана така:

Цената на удобен артикул намалява с увеличаване на разстоянието от Музея на съвременното изкуство.

По-обективният метод за научно изследване винаги е да се приеме, че не съществува такава връзка цена-разстояние, и да се изрази нулева хипотеза като:
няма значителна връзка между цената на удобен артикул и разстоянието от Музея за съвременно изкуство.

След като сте решили формулировката на хипотезата, трябва да помислите дали има други фактори, които могат да повлияят на изследването. Някои фактори, които могат да повлияят на цените, могат да включват:

  • Видът на търговския обект. Трябва да сте последователни при избора си на търговски обект. Например, баровете и ресторантите често таксуват значително повече за вода, отколкото в магазин за смесени стоки. Трябва да решите кой тип контакт да използвате и да се придържате към него за цялото си събиране на данни.
  • Някои магазини имат различни цени за един и същи артикул: висока туристическа и по-ниска местна цена, в зависимост от възприятието на продавача за клиента.
  • Магазините в близост до главните пътища може да таксуват повече от магазините в по-малко достъпни задни улици, поради по-високите наеми, изисквани за търговски обекти по главните пътища.
  • Положителното разпространение въздейства от други близки райони на джентрификация или от конкурентни зони на туристическа атракция.
  • Отрицателните ефекти на разпространението от близките райони на градски упадък.
  • През лятото може да се начисляват по-високи цени, когато търсенето е по-малко гъвкаво, което прави сезонните сравнения по-малко надеждни.
  • Кумулативната извадка може да изкриви очаквания градиент цена-разстояние, ако няколко магазина се струпват в къса зона по линията на трансекта, последвана от значителна разлика преди следващата група търговски обекти.

Трябва да споменете такива фактори във вашето разследване.

Събраните данни (вижте таблицата с данни по-долу) предполагат доста силна отрицателна връзка, както е показано на тази диаграма на разсейване:

Разсейва графика, за да покаже промяната в цената на удобен артикул с разстояние от Музея на съвременното изкуство. Превъртете върху изображението, за да видите линията на тенденцията.

Графиката на разсейване показва възможността за отрицателна корелация между двете променливи и трябва да се използва техниката за корелация на ранга на Спирман, за да се види дали наистина има корелация и да се тества силата на връзката.

Коефициент на корелация на ранг на Спирман

Една корелация може лесно да бъде начертана като графика на разсейване, но най-точният начин за сравняване на няколко двойки данни е да се използва статистически тест - това установява дали корелацията е наистина значима или може да е резултат само от случайност.

Коефициентът на корелация на ранг на Спирман е техника, която може да се използва за обобщаване на силата и посоката (отрицателна или положителна) на връзката между две променливи.

Резултатът винаги ще бъде между 1 и минус 1.

Метод - изчисляване на коефициента

  • Създайте таблица от вашите данни.
  • Подредете двата набора от данни. Класирането се постига чрез даване на класацията '1' на най-голямото число в колона, '2' на втората най-голяма стойност и т.н. Най-малката стойност в колоната ще получи най-ниското класиране. Това трябва да се направи и за двата комплекта измервания.
  • Изравнените резултати получават среден (среден) ранг. Например, трите обвързани резултата от 1 евро в примера по-долу са класирани на пето място по цена, но заемат три позиции (пета, шеста и седма) в йерархия на класиране от десет. Средният ранг в този случай се изчислява като (5+6+7) ÷ 3 = 6.
  • Намерете разликата в ранговете (d): Това е разликата между ранговете на двете стойности на всеки ред от таблицата. Рангът на втората стойност (цената) се изважда от ранга на първата (разстояние от музея).
  • Квадратирайте разликите (d²), За да премахнете отрицателните стойности и след това да ги сумирате (d²).
Удобен магазин Разстояние от CAM (m) Ранг разстояние Цена на бутилка 50cl (€) Ранг цена Разлика между ранговете (d) d²
1 50 10 1.80 2 8 64
2 175 9 1.20 3.5 5.5 30.25
3 270 8 2.00 1 7 49
4 375 7 1.00 6 1 1
5 425 6 1.00 6 0 0
6 580 5 1.20 3.5 1.5 2.25
7 710 4 0.80 9 -5 25
8 790 3 0.60 10 -7 49
9 890 2 1.00 6 -4 16
10 980 1 0.85 8 -7 49
d² = 285,5

Таблица с данни: Рангова корелация на Спирман

  • Изчислете коефициента (Rс), като използвате формулата по-долу. Отговорът винаги ще бъде между 1.0 (перфектна положителна корелация) и -1.0 (перфектна отрицателна корелация).

Когато е написана в математически нотации, формулата за ранг на Спиърман изглежда така:

  • Намерете стойността на всички d² стойности, като съберете всички стойности в колоната Difference². В нашия пример това е 285.5. Умножавайки това по 6 дава 1713.
  • Сега за долния ред на уравнението. Стойността n е броят на местата, на които сте направили измервания. Това в нашия пример е 10. Замествайки тези стойности в n³ - n, получаваме 1000 - 10
  • Сега имаме формулата: Rс = 1 - (1713/990), което дава стойност за Rс:

Какво прави това Rс стойност от -0,73 средна?

Колкото по-близо Rс е до +1 или -1, толкова по-силна е вероятната корелация. Перфектната положителна корелация е +1, а перфектната отрицателна корелация е -1. В Rсстойност от -0,73 предполага доста силна отрицателна връзка.

Сега е необходима допълнителна техника за тестване значение на връзката.

  • Изчислете „степените на свобода“, които трябва да използвате. Това е броят на двойките във вашата извадка минус 2 (n-2). В примера е 8 (10 - 2).
  • Сега начертайте резултата си на масата.
  • Ако е под линията, отбелязана с 5%, тогава е възможно резултатът ви да е продукт на случайността и трябва да отхвърлите хипотезата.
  • Ако е над нивото на значимост от 0,1%, тогава можем да бъдем 99,9% сигурни, че корелацията не е възникнала случайно.
  • Ако е над 1%, но под 0,1%, можете да кажете, че сте 99% уверени.
  • Ако е над 5%, но под 1%, можете да кажете, че сте 95% уверени (т.е. статистически има 5% вероятност резултатът да е настъпил случайно).

В примера стойността 0,73 дава ниво на значимост малко по-малко от 5%. Това означава, че вероятността връзката, която сте открили, е случайно събитие около 5 на 100. Вие сте 95% сигурни, че вашата хипотеза е вярна. Надеждността на вашата извадка може да бъде посочена по отношение на това колко изследователи, завършили същото проучване като вашето, биха получили същите резултати: 95 от 100.

Графика на нивата на значимост за корелационните коефициенти на ранг на Спирман, използвайки Студентски T разпределение

  • Фактът, че двете променливи корелират, не може да докаже нищо - само по-нататъшни изследвания могат действително да докажат, че едно нещо влияе върху другото.
  • Надеждността на данните е свързана с размера на извадката. Колкото повече данни събирате, толкова по-надежден е вашият резултат.

Щракнете върху Графика на значимостта на ранга на Спиърман за празно копие на горната графика за значимост.


Стъпки за изчисляване r

Ще започнем с изброяване на стъпките за изчисляване на коефициента на корелация. Данните, с които работим, са сдвоени данни, всяка двойка от които ще бъде обозначена с (хи,yи).

  1. Започваме с няколко предварителни изчисления. Количествата от тези изчисления ще бъдат използвани в следващите стъпки от нашето изчисление на r:
    1. Изчислете x̄, средната стойност на всички първи координати на данните хи.
    2. Изчислете ȳ, средната стойност на всички втори координати на данните
    3. ги.
    4. Изчисли с х извадковото стандартно отклонение на всички първи координати на данните хи.
    5. Изчисли с г извадковото стандартно отклонение на всички втори координати на данните ги.

    Този процес не е труден и всяка стъпка е доста рутинна, но събирането на всички тези стъпки е доста ангажирано. Изчисляването на стандартното отклонение е достатъчно досадно само по себе си. Но изчисляването на коефициента на корелация включва не само две стандартни отклонения, но и множество други операции.


    Изчисляване на ρ

    Ковариацията на двете въпросни променливи трябва да бъде изчислена, преди да може да се определи корелацията. След това се изисква стандартното отклонение на всяка променлива. Коефициентът на корелация се определя чрез разделяне на ковариацията на продукта на стандартните отклонения на двете променливи.

    Стандартното отклонение е мярка за дисперсията на данните от тяхната средна стойност. Ковариацията е мярка за това как две променливи се променят заедно. Величината му обаче е неограничена, така че е трудно да се тълкува. Нормализираната версия на статистиката се изчислява чрез разделяне на ковариацията на произведението на двете стандартни отклонения. Това е коефициентът на корелация.


    Корелациите могат да имат различни нива на сила

    Обхванахме някои общи корелации, както и двете

    Въпреки че тези описания са наред, всички положителни и отрицателни корелации не са еднакви.

    Тези описания също могат да бъдат преведени на числа. Стойността на корелацията може да приеме всяка десетична стойност между отрицателна единица, (-1), и положителна, (+1).

    Десетичните стойности между (-1) и (0) са отрицателни корелации, като (-0,32).

    Десетичните стойности между (0) и (+1) са положителни корелации, като (+0,63).

    Перфектната нулева корелация означава, че няма корелация.

    За всеки тип корелация има редица силни и слаби корелации. Стойности на корелация по-близо до нула са по-слаби корелации, докато стойностите по-близки до положителни или отрицателни са по-силна корелация.

    Силните корелации показват по-очевидни тенденции в данните, докато слабите изглеждат по-объркани. Например, по-силната висока, положителна корелация по-долу изглежда повече като линия в сравнение с по-слабата и по-ниската, положителна корелация.

    Различни нива на положителни корелации. R код.

    По същия начин силно отрицателните корелации имат по-очевидна тенденция от по-слабата и по-ниската отрицателна корелация.

    Различни нива на отрицателни корелации. R код


    Статистически калкулатор: Коефициент на корелация

    Този калкулатор може да се използва за изчисляване на коефициент на корелация на извадката.

    Въведете стойностите на x,y в полето по-горе. Можете да въведете данни в един от следните два формата:

    Натиснете бутона "Изпращане на данни", за да извършите изчислението. Коефициентът на корелация ще се покаже, ако изчислението е успешно. За да изчистите калкулатора и да въведете нови данни, натиснете "Нулиране".

    Какъв е коефициентът на корелация

    В коефициент на корелация, или Коефициент на корелация на Pearson продукт-момент (PMCC) е числова стойност между -1 и 1, която изразява силата на линейната връзка между две променливи.Когато r е по-близо до 1, това показва силна положителна връзка. Стойност 0 показва, че няма връзка. Стойности, близки до -1, сигнализират за силна отрицателна връзка между двете променливи. Можете да използвате калкулатора на линейна регресия, за да визуализирате тази връзка на графика.

    Формула за коефициент на корелация

    Има много формули за изчисляване на коефициента на корелация (всички дават един и същ резултат). Този калкулатор използва следното:

    където н е общият брой на пробите, хи1, х2,. ,хн) са стойностите на x и yи са y стойностите.


    $F_{ST}$ вероятност и коефициент на корелация ли е? - Биология

    Дисперсионен анализ (ANOVA) за сравняване на средни стойности на три или повече променливи.

    Използвайте този тест за сравняване на средства от 3 или повече проби/лечения, за да избегнете грешката, присъща при извършване на множество T- тестове

    Заден план. Ако имаме, да речем, 3 лечения за сравнение (A, B, C), тогава ще ни трябват 3 отделни T-тестове (сравняване на A с B, A с C и B с C). Ако имахме седем лечения, щяхме да се нуждаем от 21 отделни T- тестове. Това би отнело много време, но, което е по-важно, би било по своята същност дефектно, тъй като във всеки T-тест приемаме 5% шанс нашето заключение да е погрешно (когато тестваме за стр = 0,05). Така че в 21 теста бихме очаквам (по вероятност), че един тест ще ни даде фалшив резултат. Анализът на дисперсията (ANOVA) преодолява този проблем, като ни позволява да открием значителни разлики между леченията като цяло. Правим единичен тест, за да видим дали има разлики между средните стойности при избраното от нас ниво на вероятност.

    В идеалния случай за този тест ще имаме същия брой повторения за всяко лечение, но това не е съществено. Усъвършенстваните компютърни програми могат да преодолеят проблема с неравностойните повторения, като въведат "липсващи стойности".

    Важно предположение лежи в основата на анализа на дисперсията: че всички лечения имат сходна вариация. Ако има сериозни причини да се съмнявате в това, може да се наложи данните да бъдат трансформирани, преди да може да се извърши тестът. На практика има лесен начин да проверите за "хомогенност на дисперсията". Ние се занимаваме с това на стъпка "3" в процедурата по-долу.

    Не се плашете от това! Изглежда сложно, но всъщност е много лесно. Трябва да го разберете и след това можете да използвате проста статистическа програма (напр. Microsoft "Excel"), за да изпълните целия тест.

    Да приемем, че сме записали биомасата на 3 бактерии в колби с глюкозен бульон и сме използвали 3 повторни колби за всяка бактерия. [Но тестът може да се приложи еднакво за всякакъв вид променлива]

    Етап 1. Запишете данните в колони:

    Стъпка 2. За всяка колона въведете S х, н, , С х 2 и С д 2 (щракнете тук за метод)

    Стъпка 3. [Проверка за еднаква дисперсия – основното допускане на този тест] За всяка колона разделете S д 2 от н-1 за получаване на дисперсията, s 2 . Разделете най-високата стойност на s 2 на най-ниската стойност на s 2, за да получите коефициент на дисперсия (F). След това потърсете таблица на Fмакс за броя на третиранията в нашата таблица с данни и степените на свобода (брой повторения на лечение -1). Ако нашето съотношение на дисперсия не надвишава Фмакс стойност, тогава сме в безопасност да продължим. Ако не, данните може да се наложи да бъдат трансформирани.

    Стъпка 4. Сумирайте всички стойности на S х 2 и извикате сумата А.

    Стъпка 5. Сумирайте всички стойности за и извикайте сумата Б.

    Стъпка 6. Сумирайте всички стойности за S х за получаване на общо.

    Стъпка 7. Квадратирайте общия сбор и го разделете на общия брой наблюдения, наречете това д.

    Стъпка 8. Изчислете Обща сума на квадратите (S от S) = A - D

    Стъпка 9. Изчислете Между леченията сума от квадрати = B - D

    Стъпка 10. Изчислете Остатъчен сума от квадрати = A - B [Това понякога се нарича Грешка сума от квадрати]

    Стъпка 11. Създайте таблица, както следва, където *** представлява елементи, които трябва да бъдат вмъкнати, и къде ти = брой лечения и v = брой повторения.

    Източник на дисперсия Сбор от квадрати
    (S от S)
    Степени на свобода (df) Среден квадрат
    = S на S / df
    Между леченията *** u - 1 ***
    Остатъчен *** u(v-1) ***
    Обща сума *** (uv)-1

    [Общият df винаги е с един по-малко от общия брой въведени данни]

    Стъпка 12. Използвайки средни квадрати в последната колона на тази таблица направете a тест за коефициент на дисперсия за получаване на F стойност:

    F = Среден квадрат между третиранията / Остатъчен среден квадрат

    Стъпка 13. Отидете до таблица с F (стр = 0,05) и отчетете стойността където н1 е df на средния квадрат и н2 е df на остатъчния среден квадрат. Ако изчислената стойност на F надвишава стойността в таблицата, има значителна разлика между леченията. Ако е така, вижте табличните стойности на F за стр = 0,01 и след това 0,001, за да се види дали разликите в лечението са по-значими.

    Ако погледнете много от стъпките по-горе, те трябва да ви напомнят за стъпките в a T-тест. Например, в a T-тест изчисляваме S х, С х 2 и С д 2 (което е сума от квадрати), тогава разделяме S д 2 по n-1, точно както направихме в стъпка 11 (по-горе). Така че, анализът на дисперсията използва същия тип процедури, но за повече от 2 проби. Ако искате да се убедите в това, тогава опитайте да направите анализ на дисперсията само за две проби (например бактерия А и бактерия Б). Ще получите абсолютно същия резултат като в a T-тест.

    Репликация Бактерия А Бактерия В Бактерия С Суми на редове
    1 12 20 40 72
    2 15 19 35 69
    3 9 23 42 74
    С х 36 62 117 215 (общо)
    н 3 3 3
    12 20.7 39
    С х 2 450 1290 4589 6329 (обадете се на това А)
    432 1281.3 4563 6276.3 (обадете се на това Б)
    С д 2 18 8.7 26 52.7 (А - Б)
    s 2 (= S д 2 /n-1) 9.4 35 13

    Fмакс тест: F = 13/4,35 = 2,99. Това е по-ниско от Fмакс от 87,5 (за 3 процедури и 2 df, при стр = 0,05), така че дисперсиите са хомогенни и можем да продължим с анализ на дисперсията. Ако нашата стойност надвишава табличното Fмакс тогава ще трябва да трансформираме данните.

    д = (Общо) 2 общо наблюдения = 2152 9 = 5136,1

    Обща сума на квадратите (S от S) = A - D = 1192.9

    Между леченията S на S = Б - Г = 1140.2

    Остатък S от S = А - Б = 52.7

    Източник на дисперсия Сбор от квадрати
    (S от S)
    Степени на свобода * Среден квадрат
    (= S от S df)
    Между леченията 1140.2 ти - 1 (=2)* 570.1
    Остатъчен 52.7 ти(v-1) (=6)* 8.78
    Обща сума 1192.9 (uv)-1 (=8)*

    [* За ти лечения (3 в нашия случай) и v реплики (3 в нашия случай) общият df е с един по-малко от общия брой стойности на данните в таблицата (9 стойности в нашия случай)]

    F = Средноквадратично между третиранията /Средноквадратично остатъчно = 570.1 / 8.78 = 64.93

    Табличната стойност на F (стр = 0,05) където ти е df от средния квадрат (2) и между третиранията v е df на остатъчния среден квадрат (6) е 5,1. Нашата изчислена F стойност надвишава тази и дори надвишава таблично F стойността за стр = 0,001 (F = 27,0). Така че има много значителна разлика между леченията.

    [Обърнете внимание, че терминът "среден квадрат" в Анализ на дисперсията всъщност е a дисперсия - изчислява се като сумата от квадратите се раздели на степените на свобода. В T-тест, който ще го наречем s 2 , получен чрез разделяне на S д 2 от n-1. Анализът на дисперсията включва разделянето на общата дисперсия на (1) дисперсия, свързана с различните лечения/проби и (2) произволна дисперсия, доказана от променливостта в рамките на третиранията. Когато изчисляваме стойността на F, ние всъщност питаме „има ли голямо количество дисперсия, свързана с различните лечения, в сравнение с размера на произволната дисперсия?“

    Анализът на дисперсията ни каза само че има разлики между леченията в експеримента като цяло. Понякога тази информация е полезна сама по себе си. Но това не ни казва кои лечения се различават едно от друго.

    Сега имаме проблем, защото всеки път, когато сравняваме едно лечение с друго (например, сравнявайки бактерия А с бактерия Б), ние правим еквивалент на T-тест, с вероятност за погрешна интерпретация. Нуждаем се от някакъв начин да избегнем този проблем.

    Метод 1. Изчислете най-малко значима разлика между всякакви две средства. [Това е като цяло не се предпочита, но може да се използва с Внимание.]

    Използваме факта, че нашите изчисления за Анализ на дисперсията бяха подобни на тези на a T-тест (виж по-рано), по-специално, на остатъчен среден квадрат е оценка на s 2 за всяко лечение, тъй като дисперсията за всички лечения се приема за еднаква в Анализ на дисперсията.

    В T-тест, изчисляваме s д 2, както следва:

    При анализа на дисперсията s 2 за всяко третиране се приема, че е една и съща и ако н за всяко лечение е едно и също, тогава бихме могли да сравним всякакви две средства чрез изчисляване на s д 2, както следва:

    с д 2 = 2 x остатъчен среден квадрат / n

    След това можем да намерим s д като корен квадратен от s д 2 и изчислете T като:

    Ако направихме това за две конкретни средства, бихме могли да сравним изчислените T с това в а T- маса, използвайки df на остатъчния среден квадрат (тъй като това отразява остатъчната дисперсия в целия експеримент).

    Има по-прост начин да направите това за произволни две средства:

    Ако вземем уравнението и умножим всяка страна по s д получаваме: t ( s д) = 1 - 2

    С други думи, произволни две средства биха били значително различни един от друг, ако се различават с повече от "t, умножено по s д& quot

    Така T( с д) представлява най-малко значима разлика (LSD) между всякакви две средства.

    В научни статии може да видите данни, представени по следния начин:

    Тук авторът ще ни даде средствата за 3-те лечения (бактерии) и ще ни каже, че анализът на дисперсията е използван за намиране на най-малко значимата разлика между което и да е от средствата при стр = 0,05 (нивото на вероятността, избрано за T стойност).

    Всъщност таблицата по-горе използва данните за бактериална биомаса в нашия работещ пример.

    За 5% LSD намираме s д 2 (= 2 x остатъчен среден квадрат / н). Това е 17,56 /3 = 5,85.

    Изкоренваме това, за да намерим s д = 2.42.

    Табличната стойност на T за 6 df (от средния остатъчен квадрат) е 2,45 (стр = 0.05).

    Така че 5% LSD са T( с д ) = 2,45 x 2,42 = 5,92.

    Нашата таблица с данни показва, че всяка бактерия произвежда значително различна биомаса от всяка друга.

    Една дума за внимание: Можем да бъдем много по-уверени за значителна разлика между бактерии 1 и 3 или между бактерии 2 и 3, отколкото за разликата между бактерии 1 и 2. Не забравяйте, че всеки път, когато правим подобно сравнение, рискуваме от 5% грешка. Но ако бяхме използвали T стойност за стр = 0,01 тогава бихме могли по-сигурно да направим пет сравнения и все пак да имаме само 1 на 20 шанс да сгрешим.

    Статистиците препоръчват това LSD никога не трябва да се използва безразборно, но само за тестване на сравнения между лечения, които ние "номинирахме" при проектирането на експеримента. Например, всяко лечение може да се сравнява с контрола, но всяко лечение не трябва непременно да се сравнява едно с друго лечение.

    Метод 2. Много хора сега използват варианти на LSD, като например Тест с множество обхвати, което ни позволява по-безопасно да сравняваме всички лечения в таблица. Този тест е много за предпочитане пред LSD. Обяснено е отделно на друга страница.

    Примерът, който използвахме (бактериална биомаса) по-горе, е показан по-долу като разпечатка от "Excel".

    След като въведем данните в електронната таблица, ние избираме Anova: единичен фактор от инструментите за анализ, щракнете Добреи въведете всички 9 клетки с данни Диапазон на входната променлива. Таблицата показва източника на дисперсия като "Между групи" (= между леченията) и "в рамките на групи" (= остатъчно). Също така ни се казва изчислената F стойност (64,949..), F стойността, която ще трябва да надхвърлим (F критичен), за да имаме значителна разлика между леченията, и вероятността (p-стойност) нашата изчислена F стойност ще се получи само случайно (случайна грешка). Тази вероятност е много малка (8,61 x 10 -5), така че имаме много значителна разлика между леченията в нашата таблица. След това бихме могли да използваме остатъчния (в групите) среден квадрат (MS), за да изчислим LSD, както беше обяснено по-рано.


    Корелация

    На диаграмата на разсейване, колкото по-близо точките лежат до права линия, толкова по-силна е линейната връзка между две променливи. За да определим количествено силата на връзката, можем да изчислим коефициента на корелация. В алгебричната нотация, ако имаме две променливи x и y и данните приемат формата на n двойки (т.е. [x1, y1], [х2, y2], [х3, y3] . [хн, yн]), тогава коефициентът на корелация се дава от следното уравнение:

    където е средната стойност на x стойностите и е средната стойност на y стойностите.

    Това е коефициентът на корелация на продуктовия момент (или коефициент на корелация на Пиърсън). Стойността на r винаги е между -1 и +1. Стойност на коефициента на корелация, близка до +1, показва силна положителна линейна връзка (т.е. една променлива се увеличава с другата Фиг. ​ Фиг.2). 2). Стойност, близка до -1, показва силна отрицателна линейна връзка (т.е. една променлива намалява, докато другата се увеличава Фиг. ​ Фиг.3). 3). Стойност, близка до 0, показва липса на линейна връзка (фиг. ​ (фиг.4) 4), но може да има нелинейна връзка между променливите (фиг. ​ (фиг.5 5).

    Коефициент на корелация (r) = +0,9. Положителна линейна връзка.

    Коефициент на корелация (r) = -0,9. Отрицателна линейна връзка.

    Коефициент на корелация (r) = 0,04. Без връзка.

    Коефициент на корелация (r) = -0,03. Нелинейна връзка.

    За данните Aɮ, коефициентът на корелация е 0,62, което показва умерена положителна линейна връзка между двете променливи.

    Тест за хипотеза за корелация

    Можем да използваме коефициента на корелация, за да проверим дали има линейна връзка между променливите в съвкупността като цяло. Нулевата хипотеза е, че коефициентът на корелация на населението е равен на 0. Стойността на r може да се сравни с тези, дадени в таблица ​ Таблица 2, 2, или алтернативно точна П стойностите могат да бъдат получени от повечето статистически пакети. За данните Aɮ, r = 0,62 с размер на извадката от 20 е по-голямо от стойността, подчертана удебелено в Таблица ​ Таблица 2 2 за П = 0,01, което показва a П стойност по-малка от 0,01. Следователно има достатъчно доказателства, които предполагат, че истинският коефициент на корелация на населението не е 0 и че има линейна връзка между ln урея и възрастта.

    Таблица 2

    5% и 1% точки за разпределението на коефициента на корелация при нулевата хипотеза, че корелацията на популацията е 0 в двустранен тест

    r стойности за двустранни вероятности (П) Двустранни вероятности (П)
    Размер на извадката0.050.01Размер на извадката0.050.01
    31.001.00230.410.53
    40.950.99240.400.52
    50.880.96250.400.51
    60.810.92260.390.50
    70.750.87270.380.49
    80.710.83280.370.48
    90.670.80290.370.47
    100.630.76300.360.46
    110.600.73400.310.40
    120.580.71500.280.36
    130.550.68600.250.33
    140.530.66700.240.31
    150.510.64800.220.29
    160.500.62900.210.27
    170.480.611000.200.26
    180.470.591100.190.24
    190.460.581200.180.23
    200.440.561300.170.23
    210.430.551400.170.22
    220.420.541500.160.21

    Генерирано по стандартната формула [2].

    Доверителен интервал за коефициента на корелация на населението

    Въпреки че тестът на хипотезата показва дали има линейна връзка, той не дава индикация за силата на тази връзка. Тази допълнителна информация може да бъде получена от доверителен интервал за коефициента на корелация на населението.

    За да се изчисли доверителен интервал, r трябва да се трансформира, за да даде нормално разпределение, като се използва z трансформацията на Фишер [2]:

    Стандартната грешка [3] от zr е приблизително:

    и следователно 95% доверителен интервал за истинската стойност на популацията за трансформирания коефициент на корелация zr се дава от zr - (1.96 × стандартна грешка) до zr + (1.96 × стандартна грешка). Тъй като zr е нормално разпределено, 1,96 отклонения от статистиката ще дадат 95% доверителен интервал.

    За данните Aɮ трансформираният коефициент на корелация zr между уреята и възрастта е:

    Стандартната грешка на zr е:

    95% доверителен интервал за zr следователно е 0,725 - (1,96 × 0,242) до 0,725 + (1,96 × 0,242), което дава 0,251 до 1,199.

    Трябва да използваме обратното на трансформацията на Фишер върху долната и горната граница на този доверителен интервал, за да получим 95% доверителен интервал за коефициента на корелация. Долната граница е:

    дава 0,25 и горната граница е:

    дава 0,83. Следователно, ние сме 95% уверени, че коефициентът на корелация на населението е между 0,25 и 0,83.

    Ширината на доверителния интервал ясно зависи от размера на извадката и следователно е възможно да се изчисли необходимият размер на извадката за дадено ниво на точност. За пример вижте Bland [4].

    Злоупотреба с корелация

    Има редица често срещани ситуации, при които коефициентът на корелация може да бъде интерпретиран погрешно.

    Една от най-често срещаните грешки при тълкуването на коефициента на корелация е неотчитането, че може да има трета променлива, свързана с двете изследвани променливи, която е отговорна за очевидната корелация. Корелацията не предполага причинно-следствена връзка. За да се засили аргументацията за причинно-следствена връзка, трябва да се обърне внимание на други възможни основни променливи и дали връзката е валидна в други популации.

    Може да съществува нелинейна връзка между две променливи, които биха били неадекватно описани или вероятно дори неоткрити от коефициента на корелация.

    Наборът от данни понякога може да включва различни подгрупи, например мъже и жени. Това може да доведе до групи от точки, водещи до завишен коефициент на корелация (фиг. ​ (фиг.6). 6). Един отклонение може да доведе до същия вид ефект.

    Подгрупи в данните, водещи до подвеждаща корелация. Всички данни: r = 0,57 мъже: r = -0,41 жени: r = -0,26.

    Важно е стойностите на една променлива да не са определени предварително или ограничени до определен диапазон. Това може да доведе до невалидна оценка на истинския коефициент на корелация, тъй като субектите не са произволна извадка.

    Друга ситуация, при която коефициентът на корелация понякога се тълкува погрешно, е когато се сравняват два метода за измерване. Високата корелация може неправилно да се приеме, че означава, че има съгласие между двата метода. По-подходящ е анализ, който изследва разликите между двойки наблюдения, като този, формулиран от Бланд и Алтман [5].


    Ранговият коефициент на корелация на Спирман е непараметрична мярка за корелация на ранга (статистическа зависимост на класирането между две променливи).

    Кръстен на Чарлз Спиърман, често се обозначава с гръцката буква ‘ρ’ (rho) и се използва основно за анализ на данни.

    Той измерва силата и посоката на връзката между две класирани променливи. Но преди да говорим за коефициента на корелация на Спиърман, важно е първо да разберем корелацията на Пиърсън. Корелацията на Пиърсън е статистическа мярка за силата на линейна връзка между сдвоени данни.

    За изчисляване и тестване на значимостта на променливата за класиране се изисква следното предположение за данни, за да е вярно:

    Ако вашите данни не отговарят на горните предположения, тогава ще ви е необходим коефициент на Спирман. Необходимо е да се знае какво е монотонна функция, за да се разбере коефициентът на корелация на Спирман. A monotonic function is one that either never decreases or never increases as it is an independent variable increase. A monotonic function can be explained using the image below:

    The image explains three concepts in monotonic function:

    1. Monotonically increasing: When the ‘x’ variable increases and the ‘y’ variable never decreases.
    2. Monotonically decreasing: When the ‘x’ variable increases but the ‘y’ variable never increases
    3. Not monotonic: When the ‘x’ variable increases and the ‘y’ variable sometimes increases and sometimes decreases.

    Monotonic relation is less restrictive when compared to a linear relationship that is used in Pearson’s coefficient. Although monotonicity is not the ultimate requirement for Spearman correlation coefficient, it will not be meaningful to pursue Spearman’s correlation without actually determining the strength and direction of a monotonic relationship if it was already known that the relationship between the variable is non-monotonic.

    Spearman correlation coefficient: Formula and Calculation with Example

    Тук,

    н= number of data points of the two variables

    ди= difference in ranks of the “ith” element

    The Spearman Coefficient,⍴, can take a value between +1 to -1 where,

    • A ⍴ value of +1 means a perfect association of rank
    • A ⍴ value of 0 means no association of ranks
    • A ⍴ value of -1 means a perfect negative association between ranks.

    Closer the ⍴ value to 0, weaker is the association between the two ranks.

    We must be able to rank the data before proceeding with the Spearman’s Rank Coefficient of Correlation. It is important to observe if increasing one variable, the other variable follows a monotonic relation.

    At every level, you will need to compare the values of the two variables. Here is how the calculations work:

    The scores of 9 students in History and Geography are mentioned in the table below.

    Step 1- Create a table of the data obtained.

    Step 2- Start by ranking the two data sets. Data ranking can be achieved by assigning the ranking “1” to the biggest number in the column, “2” to the second biggest number and so forth. The smallest value will usually get the lowest ranking. This should be done for both sets of measurements.

    Step 3- Add a third column d to your data set, d here denotes the difference between ranks. For example, if the first student’s physics rank is 3 and the math rank is 5 then the difference in the rank is 3. In the fourth column, square your д стойности.

    История Ранг География Ранг д d square
    35 3 30 5 2 4
    23 5 33 3 2 4
    47 1 45 2 1 1
    17 6 23 6 0 0
    10 7 8 8 1 1
    43 2 49 1 1 1
    9 8 12 7 1 1
    6 9 4 9 0 0
    28 4 31 4 0 0
    12

    Step 4- Add up all your д square values, which is 12 (∑d square)

    Step 5- Insert these values in the formula

    The Spearman’s Rank Correlation for this data is 0.9 and as mentioned above if the value is nearing +1 then they have a perfect association of rank.

    How to Conduct a Spearman correlation coefficient with QuestionPro

    In this section, you will learn how you can run Spearman’s Rank Coefficient of Correlation for your survey.

    Етап 1: Go to My Surveys →Select Survey→Analytics

    Стъпка 2: Click on Correlational Analysis under Analysis


    Стъпка 3: Click on Generate Spearman Coefficient button to get a detailed report


    In the above example, the Spearman coefficient of correlation is used to find out the relationship between the two variables, Work experience and Monthly income. A general notion is, monthly income should increase with the work experience, which means there should be a positive association between the two variables which is proved by the rs value which is 0.97


    Признания

    We thank the Ministère de la Région Wallonne for capture licences, nature conservation associations for granting site access, L Dhondt and A Snirc for help with lab work, and three anonymous reviewers for improving the manuscript through their constructive comments. SV and MB acknowledge grant BELSPO-PADDII EV10/26A and SV acknowledges grant FRFC 2.4595.07 for support. SV is postdoctoral researcher and NS research associate of the Fund for Scientific Research – FNRS. This is publication BRC125 of the Biodiversity Research Centre at Université catholique de Louvain.