Колко еврокомисари има в Европейската комисия. Европейска комисия. Европейската комисия е основният изпълнителен орган на Европейския съюз. Дейности на Европейската комисия

Коефициент на корелацияе стойност, която може да варира от +1 до -1. В случай на пълна положителна корелация този коефициент е равен на плюс 1 (те казват, че с увеличаване на стойността на една променлива се увеличава стойността на друга променлива), а с пълна отрицателна корелация - минус 1 (посочете обратна връзка , т.е. с увеличаване на стойностите на една променлива, стойностите на другата намаляват).

Пример 1:

Графика на зависимостта на срамежливост и депресия. Както можете да видите, точките (субектите) не са разположени произволно, а се подреждат около една линия и, гледайки тази линия, можем да кажем, че колкото по-висока е срамежливостта в човек, толкова по-депресивни, т.е. тези явления са взаимно свързани.

Пример 2: Графика за срамежливост и общителност. Виждаме, че с нарастването на срамежливостта общителността намалява. Техният коефициент на корелация е -0,43. По този начин коефициент на корелация, по-голям от 0 до 1, показва правопропорционална връзка (колкото повече ... толкова повече ...), а коефициент от -1 до 0 показва обратно пропорционална връзка (колкото повече ... толкова по-малко . ..)

Ако коефициентът на корелация е 0, двете променливи са напълно независими една от друга.

корелация- това е връзка, при която влиянието на отделните фактори се проявява само като тенденция (осреднено) с масово наблюдение на действителни данни. Примери за корелационна зависимост могат да бъдат зависимостта между размера на активите на банката и размера на печалбата на банката, растежа на производителността на труда и трудовия стаж на служителите.

Използват се две системи за класификация на корелациите според тяхната сила: обща и частна.

Общата класификация на корелациите: 1) силна или близка с коефициент на корелация r> 0,70; 2) средна при 0,500,70, а не само корелация с високо ниво на значимост.

Следващата таблица изброява имената на коефициентите на корелация за различните видове скали.

Дихотомична скала (1/0) Рангова (порядкова) скала
Дихотомична скала (1/0) Коефициент на асоцииране на Пиърсън, коефициент на четириклетъчна конюгация на Пиърсън. Бисерична корелация
Рангова (порядкова) скала Ранг-бисериална корелация. Коефициент на рангова корелация на Spearman или Kendall.
Интервална и абсолютна скала Бисерична корелация Стойностите на интервалната скала се преобразуват в рангове и се използва коефициентът на ранг Коефициент на корелация на Пиърсън (коефициент на линейна корелация)

При r=0 няма линейна корелация. В този случай груповите средни на променливите съвпадат с техните общи средни, а регресионните линии са успоредни на координатните оси.

Равенство r=0 говори само за липсата на линейна корелационна зависимост (некорелирани променливи), но не като цяло за липсата на корелация и още повече за статистическа зависимост.

Понякога заключението, че няма корелация, е по-важно от наличието на силна корелация. Нулева корелация на две променливи може да показва, че няма влияние на едната променлива върху другата, при условие че се доверим на резултатите от измерванията.

В SPSS: 11.3.2 Коефициенти на корелация

Досега сме установили само самия факт на съществуването на статистическа връзка между два признака. След това ще се опитаме да разберем какви изводи могат да се направят за силата или слабостта на тази зависимост, както и за нейната форма и посока. Критериите за количествено определяне на връзката между променливите се наричат ​​корелационни коефициенти или мерки за свързаност. Две променливи са положително корелирани, ако има пряка, еднопосочна връзка между тях. В еднопосочна връзка малките стойности на една променлива съответстват на малки стойности на другата променлива, големите стойности съответстват на големи. Две променливи са отрицателно корелирани, ако има обратна връзка между тях. При многопосочна връзка малките стойности на една променлива съответстват на големи стойностидруга променлива и обратно. Стойностите на коефициентите на корелация винаги са в диапазона от -1 до +1.

Коефициентът на Спирман се използва като коефициент на корелация между променливи, принадлежащи към ординалната скала, а коефициентът на корелация на Пиърсън (момент на продуктите) се използва за променливи, принадлежащи към интервалната скала. В този случай трябва да се отбележи, че всяка дихотомична променлива, тоест променлива, принадлежаща към номиналната скала и имаща две категории, може да се счита за ординална.

Първо ще проверим дали има връзка между променливите за пола и психиката от файла studium.sav. При това вземаме предвид, че дихотомичната променлива пол може да се счита за ординална променлива. Направете следното:

Изберете от командното меню Analyze (Analysis) Descriptive Statistics (Описателна статистика) Crosstabs... (Contingency tables)

· Преместете променливата пол в списък от редове и променливата психика в списък с колони.

· Щракнете върху бутона Статистика.... В диалоговия прозорец Crosstabs: Statistics поставете отметка в полето Correlations. Потвърдете избора си с бутона Продължи.

· В диалоговия прозорец Crosstabs спрете показването на таблици, като поставите отметка в полето Supress tables. Щракнете върху бутона OK.

Коефициентите на корелация на Spearman и Pearson ще бъдат изчислени и тяхната значимост ще бъде тествана:

/ SPSS 10

Задача номер 10 Корелационен анализ

Концепцията за корелация

Корелацията или коефициентът на корелация е статистически показател вероятностенвръзки между две променливи, измерени в количествени скали. За разлика от функционалната връзка, при която всяка стойност на една променлива съответства на строго определенистойността на друга променлива, вероятностна връзкахарактеризиращ се с това, че всяка стойност на една променлива съответства на набор от стойностиДруга променлива, пример за вероятностна връзка е връзката между височината и теглото на хората. Ясно е, че хората с различно тегло могат да имат еднакъв ръст и обратното.

Корелацията е стойност между -1 и + 1 и се обозначава с буквата r. Освен това, ако стойността е по-близо до 1, това означава наличие на силна връзка, а ако е по-близо до 0, тогава слаба. Стойност на корелация по-малка от 0,2 се счита за слаба корелация, повече от 0,5 - висока. Ако коефициентът на корелация е отрицателен, това означава, че има обратна връзка: колкото по-висока е стойността на една променлива, толкова по-ниска е стойността на другата.

В зависимост от приетите стойности на коефициента r могат да се разграничат различни видове корелация:

Силна положителна корелациясе определя от стойността r=1. Терминът "строг" означава, че стойността на една променлива се определя еднозначно от стойностите на друга променлива, а терминът " положителен" -че с нарастването на стойността на една променлива стойността на другата променлива също се увеличава.

Строгата корелация е математическа абстракция и почти никога не се среща в реални изследвания.

положителна корелациясъответства на стойностите 0

Липса на корелациясе определя от стойността r=0. Нулев коефициент на корелация показва, че стойностите на променливите не са свързани една с друга по никакъв начин.

Липса на корелация з о : 0 r xy =0 формулиран като размисъл нулахипотези в корелационния анализ.

отрицателна корелация: -1

Силна отрицателна корелацияопределя се от стойността r= -1. Тя, подобно на строга положителна корелация, е абстракция и не намира израз в практическите изследвания.

маса 1

Видове корелация и техните определения

Методът за изчисляване на коефициента на корелация зависи от вида на скалата, на която се измерват стойностите на променливата.

Коефициент на корелация rПиърсъне основният и може да се използва за променливи с номинални и частично подредени интервални скали, разпределението на стойностите, върху които съответства на нормалното (корелация на продуктовите моменти). Корелационният коефициент на Pearson дава доста точни резултати и в случаите на необичайни разпределения.

За разпределения, които не са нормални, е за предпочитане да се използват корелационните коефициенти на Spearman и Kendall. Те се класират, защото програмата предварително класира корелираните променливи.

Програмата SPSS изчислява корелацията r-Spearman по следния начин: първо променливите се преобразуват в рангове и след това формулата на Pearson се прилага към ранговете.

Корелацията, предложена от М. Кендъл, се основава на идеята, че посоката на връзката може да се прецени чрез сравняване на субектите по двойки. Ако за двойка субекти промяната в X съвпада по посока с промяната в Y съвпада, тогава това показва положителна връзка. Ако не съвпада, тогава за отрицателна връзка. Този коефициент се използва предимно от психолози, работещи с малки извадки. Тъй като социолозите работят с големи масиви от данни, е трудно да се сортират двойки, да се идентифицира разликата в относителните честоти и инверсии на всички двойки субекти в извадката. Най-често срещаният е коеф. Пиърсън.

Тъй като корелационният коефициент rPearson е основният и може да се използва (с известна грешка в зависимост от вида на скалата и нивото на отклонение в разпределението) за всички променливи, измерени на количествени скали, ще разгледаме примери за използването му и ще сравним резултати, получени с резултатите от измерванията, използващи други корелационни коефициенти.

Формулата за изчисляване на коеф r- Пиърсън:

r xy = ∑ (Xi-Xav)∙(Yi-Yav) / (N-1)∙σ x ∙σ y ∙

Където: Xi, Yi- Стойности на две променливи;

Xav, Yav - средни стойности на две променливи;

σ x , σ y са стандартни отклонения,

N е броят на наблюденията.

Двойни корелации

Например, бихме искали да разберем как отговорите между различни видоветрадиционни ценности в идеите на студентите за идеалното място на работа (променливи: a9.1, a9.3, a9.5, a9.7), а след това и за съотношението на либералните ценности (a9.2, a9 .4. a9.6, a9. осем) . Тези променливи се измерват на 5-членни подредени скали.

Използваме процедурата: „Анализ“,  „Корелации“,  „Сдвоени“. По подразбиране коеф Pearson се задава в диалоговия прозорец. Използваме коефициента Пиърсън

Тестваните променливи се прехвърлят в прозореца за избор: a9.1, a9.3, a9.5, a9.7

С натискане на OK получаваме изчислението:

Корелации

a9.1.t. Колко важно е да имате достатъчно време за семейството и личния живот?

Корелация на Пиърсън

Стойност (двустранно)

a9.3.t. Колко важно е да не се страхувате да не загубите работата си?

Корелация на Пиърсън

Стойност (двустранно)

a9.5.t. Колко важно е да имате такъв шеф, който да се консултира с вас, когато вземате това или онова решение?

Корелация на Пиърсън

Стойност (двустранно)

a9.7.t. Колко важно е да работиш добре координиран екипсе чувствате като част от него?

Корелация на Пиърсън

Стойност (двустранно)

** Корелацията е значима на ниво 0,01 (двустранно).

Таблица на количествените стойности на изградената корелационна матрица

Частични корелации:

Първо, нека изградим двойна корелация между тези две променливи:

Корелации

c8. Чувствайте се близо до тези, които живеят близо до вас, съседите

Корелация на Пиърсън

Стойност (двустранно)

c12. Чувствайте се близо до семейството им

Корелация на Пиърсън

Стойност (двустранно)

**. Корелацията е значима на ниво 0,01 (двустранно).

След това използваме процедурата за построяване на частична корелация: „Анализ“,  „Корелации“,  „Частична“.

Да предположим, че стойността „Важно е самостоятелно да определите и промените реда на вашата работа“ по отношение на посочените променливи ще бъде решаващият фактор, под влиянието на който идентифицираната по-рано връзка ще изчезне или ще се окаже малко значима .

Корелации

Изключени променливи

c8. Чувствайте се близо до тези, които живеят близо до вас, съседите

c12. Чувствайте се близо до семейството им

c16. Чувствайте се близо до хора, които имат същото богатство като вас

c8. Чувствайте се близо до тези, които живеят близо до вас, съседите

Корелация

Значение (двустранно)

c12. Чувствайте се близо до семейството им

Корелация

Значение (двустранно)

Както се вижда от таблицата, под влиянието на контролната променлива връзката леко намалява: от 0,120 до 0,102. тя остава достатъчно висока и позволява да се опровергае нулевата хипотеза с нулева грешка.

Коефициент на корелация

Най-точният начин за определяне на плътността и характера на корелацията е да се намери коефициентът на корелация. Коефициентът на корелация е число, определено по формулата:


където r xy е корелационният коефициент;

x i -стойности на първата характеристика;

i - стойности на втората характеристика;

Средно аритметично на стойностите на първата характеристика

Средно аритметично на стойностите на втората характеристика

За да използваме формула (32), изграждаме таблица, която ще осигури необходимата последователност при подготовката на числата за намиране на числителя и знаменателя на коефициента на корелация.

Както се вижда от формула (32), последователността от действия е следната: намираме средните аритметични стойности на двата знака x и y, намираме разликата между стойностите на знака и неговата средна стойност (х i - ) и y i - ), тогава намираме техния продукт (х i - ) ( y i - ) – сумата на последното дава числителя на корелационния коефициент. За да се намери знаменателят му, трябва да се повдигнат на квадрат разликите (x i -) и (y i -), да се намерят сумите им и да се извлече корен квадратен от техния продукт.

Така например 31, намирането на коефициента на корелация в съответствие с формула (32) може да бъде представено по следния начин (Таблица 50).

Полученото число на коефициента на корелация позволява да се установи наличието, близостта и характера на връзката.

1. Ако коефициентът на корелация е нула, няма връзка между характеристиките.

2. Ако коефициентът на корелация е равен на единица, връзката между признаците е толкова голяма, че се превръща във функционална.

3. Абсолютната стойност на коефициента на корелация не надхвърля интервала от нула до единица:

Това дава възможност да се съсредоточи върху плътността на връзката: колкото по-близо до нула е коефициентът, толкова по-слаба е връзката и колкото по-близо до единица, толкова по-близо е връзката.

4. Знакът на корелационния коефициент "плюс" означава пряка корелация, знакът "минус" означава обратното.

Таблица 50

x i аз (х i - ) (y i - ) (x i - )(y i - ) (х i - )2 (y i - )2
14,00 12,10 -1,70 -2,30 +3,91 2,89 5,29
14,20 13,80 -1,50 -0,60 +0,90 2,25 0,36
14,90 14,20 -0,80 -0,20 +0,16 0,64 0,04
15,40 13,00 -0,30 -1,40 +0,42 0,09 1,96
16,00 14,60 +0,30 +0,20 +0,06 0,09 0,04
17,20 15,90 +1,50 +2,25 2,25
18,10 17,40 +2,40 +2,00 +4,80 5,76 4,00
109,80 101,00 12,50 13,97 13,94


Така корелационният коефициент, изчислен в Пример 31, е r xy = +0,9. ни позволява да направим следните изводи: има връзка между стойността мускулна силадясната и лявата ръка при изследваните ученици (коефициентът r xy = +0,9 е различен от нула), връзката е много тясна (коефициентът r xy = +0,9 е близо до единица), корелацията е пряка (коефициентът r xy = +0,9 е положителен), т.е. с увеличаване на мускулната сила на едната ръка силата на другата ръка се увеличава.

При изчисляване на коефициента на корелация и използване на неговите свойства трябва да се има предвид, че заключенията дават правилни резултати, когато признаците са нормално разпределени и когато се разглежда връзката между голям брой стойности на двата признака.

В разглеждания пример 31 бяха анализирани само 7 стойности на двете характеристики, което, разбира се, не е достатъчно за такива изследвания. Тук отново напомняме, че примерите в тази книга като цяло и в тази глава в частност имат естество за илюстриране на методи, а не подробно представяне на някакви научни експерименти. В резултат на това се вземат предвид малък брой стойности на характеристиките, измерванията са закръглени - всичко това се прави, за да не се замъглява идеята за метода с тромави изчисления.

Особено внимание трябва да се обърне на същността на разглежданата връзка. Коефициентът на корелация не може да доведе до правилните резултати от изследването, ако анализът на връзката между характеристиките се извършва формално. Да се ​​върнем към пример 31. И двата разглеждани знака бяха стойностите на мускулната сила на дясната и лявата ръка. Нека си представим, че под признак x i в пример 31 (14.0; 14.2; 14.9... ...18.1) имаме предвид дължината на произволно уловената риба в сантиметри, а под признак y i (12.1 ; 13.8; 14.2 ... ... 17.4) - теглото на инструментите в лабораторията в килограми. След като официално използвахме апарата за изчисления, за да намерим коефициента на корелация и в този случай също получихме r xy =+0>9, трябваше да заключим, че има тясна връзка от пряк характер между дължината на рибата и теглото на инструментите. Абсурдността на подобно заключение е очевидна.

За да се избегне формален подход към използването на коефициента на корелация, трябва да се използва всеки друг метод - математически, логически, експериментален, теоретичен - за идентифициране на възможността за корелация между знаци, тоест за откриване на органичното единство на знаците. Едва тогава човек може да започне да използва корелационен анализ и да установи величината и характера на връзката.

В математическата статистика съществува и понятието множествена корелация- Връзки между три или повече характеристики. В тези случаи се използва коефициент на множествена корелация, състоящ се от коефициентите на двойна корелация, описани по-горе.

Например коефициентът на корелация на три знака - x і , y і , z і - е:

където R xyz - коефициент на множествена корелация, изразяващ как характеристиката x i зависи от характеристиките y i и z i ;

r xy -коефициент на корелация между признаците x i и y i ;

r xz - коефициент на корелация между признаците Xi и Zi;

r yz - коефициент на корелация между признаците y i , z i

Корелационният анализ е:

Корелационен анализ

Корелация- статистическа връзка на две или повече случайни променливи (или променливи, които могат да се считат за такива с някаква приемлива степен на точност). В същото време промените в една или повече от тези величини водят до систематична промяна в другата или други величини. Коефициентът на корелация служи като математическа мярка за корелацията на две случайни променливи.

Корелацията може да бъде положителна и отрицателна (възможно е и да няма статистическа връзка – например за независими случайни променливи). отрицателна корелация - корелация, при която увеличението на една променлива е свързано с намаляване на друга променлива, докато коефициентът на корелация е отрицателен. положителна корелация - корелация, при която увеличението на една променлива е свързано с увеличение на друга променлива, докато коефициентът на корелация е положителен.

автокорелация - статистическа зависимост между случайни величини от една и съща серия, но взети с изместване, например за случаен процес - с изместване във времето.

Методът за обработка на статистически данни, който се състои в изследване на коефициентите (корелациите) между променливите, се нарича корелационен анализ.

Коефициент на корелация

Коефициент на корелацияили коефициент на корелация на двойкив теорията на вероятностите и статистиката това е индикатор за естеството на промяната в две случайни променливи. Коефициентът на корелация се обозначава с латинската буква R и може да приема стойности между -1 и +1. Ако модулната стойност е по-близо до 1, това означава наличие на силна връзка (с коефициент на корелация, равен на единица, те говорят за функционална връзка), а ако е по-близо до 0, тогава слаба.

Коефициент на корелация на Пиърсън

За метричните величини се използва корелационният коефициент на Пиърсън, чиято точна формула е въведена от Франсис Галтън:

Позволявам х,Y- две случайни променливи, дефинирани в едно и също вероятностно пространство. Тогава техният коефициент на корелация се дава по формулата:

,

където cov е ковариацията и D е дисперсията, или еквивалентно,

,

където символът означава математическото очакване.

За да представите графично такава връзка, можете да използвате правоъгълна координатна система с оси, които съответстват на двете променливи. Всяка двойка стойности е маркирана със специфичен символ. Такъв график се нарича "диапазон на разсейване".

Методът за изчисляване на коефициента на корелация зависи от вида на скалата, към която се отнасят променливите. И така, за измерване на променливи с интервални и количествени скали е необходимо да се използва коефициентът на корелация на Pearson (корелация на продуктовите моменти). Ако поне една от двете променливи има порядъчна скала или не е нормално разпределена, трябва да се използва ранговата корелация на Spearman или τ (tau) на Kendal. В случай, че една от двете променливи е дихотомна, се използва точкова двусерийна корелация, а ако и двете променливи са дихотомна, се използва четириполева корелация. Изчисляването на коефициента на корелация между две недихотомни променливи има смисъл само ако връзката между тях е линейна (еднопосочна).

Коефициент на корелация на Kendell

Използва се за измерване на взаимно разстройство.

Коефициент на корелация на Спирман

Свойства на коефициента на корелация

  • Неравенство на Коши - Буняковски:
ако приемем ковариацията като скаларно произведение на две случайни променливи, тогава нормата на случайната променлива ще бъде равна на , а следствието от неравенството на Коши-Буняковски ще бъде: . , където . Освен това в този случай знаците и ксъвпада: .

Корелационен анализ

Корелационен анализ- метод за обработка на статистически данни, който се състои в изучаване на коефициентите ( корелации) между променливи. В този случай коефициентите на корелация между една двойка или множество двойки характеристики се сравняват, за да се установят статистически връзки между тях.

Цел корелационен анализ- предоставяне на информация за една променлива с помощта на друга променлива. В случаите, когато е възможно да се постигне целта, казваме, че променливите корелират. В самата общ изгледприемането на хипотезата за наличието на корелация означава, че промяна в стойността на променлива A ще настъпи едновременно с пропорционална промяна в стойността на B: ако и двете променливи се увеличат, тогава корелацията е положителнаако една променлива нараства, а другата намалява, корелацията е отрицателна.

Корелацията отразява само линейната зависимост на величините, но не отразява функционалната им свързаност. Например, ако изчислим коефициента на корелация между стойностите А = сазн(х) и б = ° Сос(х), тогава тя ще бъде близка до нула, т.е. няма зависимост между количествата. Междувременно количествата A и B очевидно са свързани функционално според закона сазн 2(х) + ° Сос 2(х) = 1.

Ограничения на корелационния анализ



Графики на разпределения на двойки (x,y) със съответните корелационни коефициенти x и y за всяка от тях. Обърнете внимание, че коефициентът на корелация отразява линейна връзка (горен ред), но не описва крива на връзката (среден ред) и изобщо не е подходящ за описване на сложни, нелинейни зависимости (долния ред).
  1. Прилагането е възможно, ако има достатъчен брой случаи за изследване: за определен тип коефициент на корелация той варира от 25 до 100 двойки наблюдения.
  2. Второто ограничение следва от хипотезата на корелационния анализ, която включва линейна зависимост на променливите. В много случаи, когато е надеждно известно, че връзката съществува, корелационният анализ може да не даде резултати просто защото връзката е нелинейна (изразена, например, като парабола).
  3. Сам по себе си фактът на корелация не дава основание да се твърди коя от променливите предшества или причинява промени или че променливите като цяло са причинно свързани помежду си, например поради действието на трети фактор.

Област на приложение

Този метод за обработка на статистически данни е много популярен в икономиката и социалните науки (по-специално в психологията и социологията), въпреки че обхватът на приложение на коефициентите на корелация е обширен: контрол на качеството на промишлени продукти, металургия, селскостопанска химия, хидробиология, биометрия, и други.

Популярността на метода се дължи на две точки: коефициентите на корелация са относително лесни за изчисляване, прилагането им не изисква специална математическа подготовка. В съчетание с лекотата на интерпретация, лекотата на прилагане на коефициента доведе до широкото му използване в областта на статистическия анализ на данни.

фалшива корелация

Често примамливата простота на изследването на корелация насърчава изследователя да прави фалшиви интуитивни заключения за наличието на причинно-следствена връзка между двойки черти, докато коефициентите на корелация установяват само статистически връзки.

В съвременната количествена методология на социалните науки всъщност е налице изоставяне на опитите за установяване на причинно-следствени връзки между наблюдаваните променливи чрез емпирични методи. Следователно, когато изследователите в социалните науки говорят за установяване на връзки между променливите, които изучават, се подразбира или общо теоретично предположение, или статистическа зависимост.

Вижте също

  • Автокорелационна функция
  • Крос-корелационна функция
  • ковариация
  • Коефициент на определяне
  • Регресионен анализ

Фондация Уикимедия. 2010 г.

Коефициентът на корелация отразява степента на връзка между два показателя. Винаги приема стойност от -1 до 1. Ако коефициентът е близо до 0, тогава те казват, че няма връзка между променливите.

Ако стойността е близка до единица (от 0,9, например), тогава има силна пряка връзка между наблюдаваните обекти. Ако коефициентът е близо до другата крайна точка на диапазона (-1), тогава има силна обратна връзка между променливите. Когато стойността е някъде по средата от 0 до 1 или от 0 до -1, тогава говорим за слаба връзка (права или обратна). Тази връзка обикновено не се взема предвид: счита се, че не съществува.

Изчисляване на коефициента на корелация в Excel

Помислете например за методите за изчисляване на коефициента на корелация, характеристиките на пряката и обратната връзка между променливите.

Стойности на индикаторите x и y:

Y е независимата променлива, x е зависимата променлива. Необходимо е да се намери силата (силна/слаба) и посоката (напред/обратно) на връзката между тях. Формулата за коефициента на корелация изглежда така:


За да опростим разбирането му, ще го разделим на няколко прости елемента.

Съществува силна пряка връзка между променливите.

Вградената функция CORREL избягва сложните изчисления. Нека изчислим коефициента на корелация на двойката в Excel, като го използваме. Ние наричаме майстор на функциите. Намираме каквото ни трябва. Аргументите на функцията са масив от y стойности и масив от x стойности:

Нека да покажем стойностите на променливите на диаграмата:


Има силна връзка между y и x, защото Линиите вървят почти успоредно една на друга. Връзката е пряка: нарастване на y - увеличаване на x, намаляване на y - намаляване на x.



Матрица на коефициентите на корелация по двойки в Excel

Корелационната матрица е таблица, в пресечната точка на редове и колони, на които има коефициенти на корелация между съответните стойности. Има смисъл да се изгради за няколко променливи.

Матрицата на коефициентите на корелация в Excel се изгражда с помощта на инструмента "Корелация" от пакета "Анализ на данни".


Намерена е силна пряка връзка между стойностите на y и x1. Има силна обратна връзка между x1 и x2. На практика няма връзка със стойностите в колоната x3.

Забележете!Решението на вашия конкретен проблем ще изглежда подобно на този пример, включително всички таблици и обяснителни текстове по-долу, но като се вземат предвид вашите първоначални данни ...

Задача:
Има свързана извадка от 26 двойки стойности (x k,y k):

к 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

к 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

к 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Необходимо е да се изчисли/построи:
- коефициент на корелация;
- тестване на хипотезата за зависимостта на случайните променливи X и Y, при ниво на значимост α = 0,05;
- коефициенти на уравнението на линейната регресия;
- точкова диаграма (корелационно поле) и регресионна линейна графика;

РЕШЕНИЕ:

1. Изчислете коефициента на корелация.

Коефициентът на корелация е показател за взаимното вероятностно влияние на две случайни променливи. Коефициент на корелация Рможе да вземе стойности от -1 преди +1 . Ако абсолютната стойност е по-близо до 1 , то това е доказателство за силна връзка между количествата и ако е по-близо до 0 - след това показва слаба връзка или нейното отсъствие. Ако абсолютната стойност Рравно на едно, тогава можем да говорим за функционална връзка между количествата, тоест едно количество може да бъде изразено чрез друго с помощта на математическа функция.


Можете да изчислите коефициента на корелация, като използвате следните формули:
н
Σ
k = 1
(x k -M x) 2, y 2 =
Mx =
1
н
н
Σ
k = 1
x k, мое =

или според формулата

Rx,y =
M xy - M x M y
SxSy
(1.4), където:
Mx =
1
н
н
Σ
k = 1
x k, мое =
1
н
н
Σ
k = 1
y k , Mxy =
1
н
н
Σ
k = 1
x k y k (1,5)
S x 2 =
1
н
н
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
н
н
Σ
k = 1
y k 2 - M y 2 (1,6)

На практика формулата (1.4) се използва по-често за изчисляване на коефициента на корелация, тъй като изисква по-малко изчисления. Въпреки това, ако ковариацията е била изчислена преди това cov(X,Y), тогава е по-изгодно да се използва формула (1.1), тъй като в допълнение към действителната стойност на ковариацията, можете също да използвате резултатите от междинните изчисления.

1.1 Изчислете коефициента на корелация по формулата (1.4), за това изчисляваме стойностите x k 2, y k 2 и x k y k и ги въвеждаме в таблица 1.

маса 1


к
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Изчисляваме M x по формула (1.5).

1.2.1. x k

x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25.750000

1.3. По подобен начин изчисляваме M y.

1.3.1. Нека добавим всички елементи последователно y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Разделете получената сума на броя на пробните елементи

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. По подобен начин изчисляваме M xy.

1.4.1. Добавяме последователно всички елементи от 6-та колона на таблица 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Разделете получената сума на броя на елементите

20412.83000 / 26 = 785.10885

M xy = 785.108846

1.5. Изчислете стойността на S x 2 по формулата (1.6.).

1.5.1. Добавяме последователно всички елементи от 4-та колона на таблица 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Разделете получената сума на броя на елементите

17256.91000 / 26 = 663.72731

1.5.3. Извадете от последното число квадрата на стойността M x, получаваме стойността за S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Изчислете стойността на S y 2 по формулата (1.6.).

1.6.1. Добавяме последователно всички елементи от 5-та колона на таблица 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Разделете получената сума на броя на елементите

24191.84000 / 26 = 930.45538

1.6.3. Извадете от последното число квадрата на M y , получаваме стойността за S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Нека изчислим произведението на S x 2 и S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Извадете последното число Корен квадратен, получаваме стойността S x S y.

S x S y = 0,36951

1.9. Изчислете стойността на коефициента на корелация по формулата (1.4.).

R = (785.10885 - 25.75000 30.50000) / 0.36951 = (785.10885 - 785.37500) / 0.36951 = -0.72028

ОТГОВОР: Rx,y = -0,720279

2. Проверяваме значимостта на коефициента на корелация (проверяваме хипотезата за зависимостта).

Тъй като оценката на коефициента на корелация се изчислява върху ограничена извадка и следователно може да се отклонява от общата си стойност, е необходимо да се провери значимостта на коефициента на корелация. Проверката се извършва с помощта на t-критерия:

t =
Rx,y
n - 2
1 - R 2 x,y
(2.1)

Случайна стойност Tследва t-разпределението на Student и според таблицата на t-разпределението е необходимо да се намери критичната стойност на критерия (t cr.α) при дадено ниво на значимост α . Ако модулът t, изчислен по формула (2.1), се окаже по-малък от t cr.α, тогава няма зависимост между случайните променливи X и Y. В противен случай експерименталните данни не противоречат на хипотезата за зависимостта на случайните величини.


2.1. Изчислете стойността на t-критерия по формулата (2.1), получаваме:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Нека определим критичната стойност на параметъра t cr.α от таблицата на t-разпределението

Желаната стойност t kr.α се намира в пресечната точка на реда, съответстващ на броя на степените на свобода, и колоната, съответстваща на дадено ниво на значимост α.
В нашия случай броят на степените на свобода е n - 2 = 26 - 2 = 24 и α = 0.05 , което съответства на критичната стойност на критерия t кр.α = 2.064 (виж таблица 2)

таблица 2 t-разпределение

Брой степени на свобода
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Нека сравним абсолютната стойност на t-критерия и t cr.α

Абсолютната стойност на t-критерия е не по-малка от критичната t = 5.08680, tcr.α = 2.064, следователно експериментални данни, с вероятност 0,95(1 - α), не противоречат на хипотезатаот зависимостта на случайните величини X и Y.

3. Изчисляваме коефициентите на уравнението на линейната регресия.

Уравнението на линейната регресия е уравнение на права линия, което апроксимира (приблизително описва) връзката между случайните променливи X и Y. Ако приемем, че X е свободен и Y е зависим от X, тогава регресионното уравнение ще бъде написано, както следва


Y = a + b X (3.1), където:

b=Rx,y
г
σ x
= Rx,y
Sy
S x
(3.2),
a = M y - b M x (3.3)

Коефициентът, изчислен по формула (3.2) bсе нарича коефициент на линейна регресия. В някои източници асе нарича постоянен регресионен коефициент и bспоред променливите.

Прогнозните грешки Y за дадена стойност X се изчисляват по формулите:

Стойността σ y/x (формула 3.4) също се нарича остатъчно стандартно отклонение, той характеризира отклонението на Y от регресионната линия, описана от уравнение (3.1) при фиксирана (зададена) стойност на X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Извличаме квадратния корен от последното число - получаваме:
S y / S x = 0,55582

3.3 Изчислете коефициента bпо формула (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Изчислете коефициента aпо формула (3.3)

а = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Оценете грешките на регресионното уравнение.

3.5.1 Извличаме квадратния корен от S y 2 и получаваме:

= 0.31437
3.5.4 Нека изчислим относителната грешка по формулата (3.5)

δy/x = (0,31437 / 30,50000) 100% = 1,03073%

4. Изграждаме точечна диаграма (корелационно поле) и графика на регресионната линия.

Точковата диаграма е графично представяне на съответните двойки (x k , y k ) като точки в равнина, в правоъгълни координати с осите X и Y. Корелационното поле е едно от графичните представяния на свързана (сдвоена) извадка. В същата координатна система се начертава и графиката на регресионната линия. Мащабите и началните точки на осите трябва да бъдат избрани внимателно, така че диаграмата да е възможно най-ясна.

4.1. Откриваме, че минималният и максималният елемент на извадката X са съответно 18-ият и 15-ият елемент, x min = 22,10000 и x max = 26,60000.

4.2. Откриваме, че минималният и максималният елемент на извадката Y са съответно 2-ри и 18-ти елемент, y min = 29,40000 и y max = 31,60000.

4.3. На абсцисната ос избираме началната точка точно вляво от точката x 18 = 22.10000 и такъв мащаб, че точката x 15 = 26.60000 да пасне на оста и другите точки да са ясно разграничени.

4.4. На оста y избираме началната точка точно вляво от точката y 2 = 29,40000 и такъв мащаб, че точката y 18 = 31,60000 да пасва на оста и другите точки да са ясно разграничени.

4.5. На абсцисната ос поставяме стойностите x k, а на ординатната ос поставяме стойностите y k.

4.6. Поставяме точки (x 1, y 1), (x 2, y 2), ..., (x 26, y 26) на координатната равнина. Получаваме точкова диаграма (корелационно поле), показана на фигурата по-долу.

4.7. Нека начертаем регресионна линия.

За да направим това, намираме две различни точки с координати (x r1, y r1) и (x r2, y r2), удовлетворяващи уравнение (3.6), поставяме ги в координатната равнина и начертаваме права през тях. Нека вземем x min = 22,10000 като абсцисата на първата точка. Заместваме стойността на x min в уравнение (3.6), получаваме ординатата на първата точка. Така имаме точка с координати (22.10000, 31.96127). По същия начин получаваме координатите на втората точка, като задаваме стойността x max = 26,60000 като абциса. Втората точка ще бъде: (26.60000, 30.15970).

Регресионната линия е показана на фигурата по-долу в червено

Моля, имайте предвид, че линията на регресия винаги минава през точката на средните стойности на X и Y, т.е. с координати (M x , M y).

КУРСОВА РАБОТА

Тема: Корелационен анализ

Въведение

1. Корелационен анализ

1.1 Концепцията за корелация

1.2 Обща класификация на корелациите

1.3 Корелационни полета и целта на тяхното изграждане

1.4 Етапи на корелационния анализ

1.5 Коефициенти на корелация

1.6 Нормализиран корелационен коефициент на Bravais-Pearson

1.7 Коефициент на рангова корелация на Спирман

1.8 Основни свойства на корелационните коефициенти

1.9 Проверка на значимостта на корелационните коефициенти

1.10 Критични стойности на коефициента на корелация на двойката

2. Планиране на многовариантен експеримент

2.1 Състояние на проблема

2.2 Определяне на центъра на плана (основно ниво) и нивото на вариация на факторите

2.3 Изграждане на матрица за планиране

2.4 Проверка на хомогенността на дисперсията и еднаквата точност на измерванията в различни серии

2.5 Коефициенти на регресионното уравнение

2.6 Дисперсия на възпроизводимостта

2.7 Проверка на значимостта на коефициентите на регресионното уравнение

2.8 Проверка на адекватността на регресионното уравнение

Заключение

Библиография

ВЪВЕДЕНИЕ

Планирането на експеримента е математико-статистическа дисциплина, която изучава методите за рационална организация на експерименталните изследвания - от оптималния избор на изследваните фактори и определянето на действителния план на експеримента в съответствие с неговата цел до методите за анализ на резултатите. Началото на планирането на експеримента е поставено от трудовете на английския статистик Р. Фишер (1935), който подчертава, че рационалното планиране на експеримента дава не по-малко значителна печалба в точността на оценките, отколкото оптималната обработка на резултатите от измерванията. През 60-те години на 20 век възниква модерна теория за планиране на експеримента. Неговите методи са тясно свързани с теорията на приближението на функциите и математическото програмиране. Конструират се оптимални планове и се изследват свойствата им за широк клас модели.

Планирането на експеримента е изборът на план за експеримент, който отговаря на определените изисквания, набор от действия, насочени към разработване на стратегия за експериментиране (от получаване на априорна информация до получаване на работещ математически модел или определяне на оптимални условия). Това е целенасочен контрол на експеримента, осъществяван в условия на непълно познаване на механизма на изследваното явление.

В процеса на измерване, последваща обработка на данните, както и формализиране на резултатите под формата на математически модел, възникват грешки и се губи част от информацията, съдържаща се в оригиналните данни. Използването на методи за планиране на експеримента позволява да се определи грешката на математическия модел и да се прецени неговата адекватност. Ако точността на модела е недостатъчна, тогава използването на методи за планиране на експерименти прави възможно модернизирането на математическия модел с допълнителни експерименти без загуба на предишна информация и с минимални разходи.

Целта на планирането на експеримента е да се намерят такива условия и правила за провеждане на експерименти, при които е възможно да се получи надеждна и надеждна информация за обекта с най-малко разходи за труд, както и да се представи тази информация в компактна и удобна форма с количествено определянеточност.

Сред основните методи за планиране, използвани в различни етапиизследване използва:

Планиране на скринингов експеримент, чийто основен смисъл е изборът на група значими фактори от съвкупността от фактори, които подлежат на по-нататъшно подробно изследване;

Проектиране на експеримент за дисперсионен анализ, т.е. изготвяне на планове за обекти с качествени фактори;

Планиране на регресионен експеримент, който ви позволява да получите регресионни модели (полиномни и други);

Планиране на екстремен експеримент, при който основната задача е експерименталната оптимизация на обекта на изследване;

Планиране при изследване на динамични процеси и др.

Целта на изучаването на дисциплината е да подготви студентите за производствено-техническа дейност по специалността с помощта на методите на теорията на планирането и съвременните информационни технологии.

Цели на дисциплината: изучаване съвременни методипланиране, организиране и оптимизиране на научни и промишлени експерименти, провеждане на експерименти и обработка на резултатите.

1. КОРЕЛАЦИОНЕН АНАЛИЗ

1.1 Концепцията за корелация

Изследователят често се интересува от това как две или повече променливи са свързани една с друга в една или повече от изследваните проби. Например, може ли височината да повлияе на теглото на човек или налягането може да повлияе на качеството на продукта?

Този вид връзка между променливите се нарича корелация или корелация. Корелацията е последователна промяна в две характеристики, отразяваща факта, че променливостта на една характеристика е в съответствие с променливостта на другата.

Известно е например, че средно има положителна връзка между ръста на хората и тяхното тегло и такава, че колкото по-голям е ръстът, толкова по-голямо е теглото на човек. Има обаче изключения от това правило, когато относително ниските хора са с наднормено тегло и, обратно, астениците с висок растеж са леки. Причината за подобни изключения е, че всяка биологична, физиологична или психологическа черта се определя от влиянието на много фактори: екологични, генетични, социални, екологични и др.

Корелациите са вероятностни промени, които могат да бъдат изследвани само върху представителни извадки чрез методите на математическата статистика. И двата термина - корелация и корелационна зависимост - често се използват взаимозаменяемо. Зависимост означава влияние, връзка - всякакви координирани промени, които могат да бъдат обяснени със стотици причини. Корелациите не могат да се считат за доказателство за причинно-следствена връзка, те само показват, че промените в една характеристика, като правило, са придружени от определени промени в друга.

Корелационна зависимост - са промените, които стойностите на една характеристика правят върху вероятността за възникване различни стойностидруг знак.

Задачата на корелационния анализ се свежда до установяване на посоката (положителна или отрицателна) и формата (линейна, нелинейна) на връзката между различни характеристики, измерване на нейната плътност и накрая проверка на нивото на значимост на получената корелация. коефициенти.

Корелациите се различават по форма, посока и степен (сила) .

Формата на корелацията може да бъде праволинейна или криволинейна. Например връзката между броя на тренировъчните сесии на симулатора и броя на правилно решените задачи в контролната сесия може да бъде ясна. Криволинейна може да бъде например връзката между нивото на мотивация и ефективността на задачата (Фигура 1). С повишаване на мотивацията ефективността на задачата първо се повишава, след това се достига оптималното ниво на мотивация, което съответства на максималната ефективност на задачата; по-нататъшното повишаване на мотивацията е придружено от намаляване на ефективността.

Фигура 1 - Връзката между ефективността на решаването на проблеми и силата на мотивационната тенденция

По посока корелацията може да бъде положителна („директна“) и отрицателна („обратна“). При положителна линейна корелация по-високите стойности на един атрибут съответстват на по-високи стойности на друг, а по-ниските стойности на един атрибут съответстват на ниски стойности на друг (Фигура 2). При отрицателна корелация съотношенията са обърнати (Фигура 3). При положителна корелация коефициентът на корелация има положителен знак, при отрицателна корелация - отрицателен знак.

Фигура 2 - Пряка корелация

Фигура 3 - Обратна корелация


Фигура 4 - Няма корелация

Степента, силата или плътността на корелацията се определя от стойността на коефициента на корелация. Силата на връзката не зависи от нейната посока и се определя от абсолютната стойност на коефициента на корелация.

1.2 Обща класификация на корелациите

В зависимост от коефициента на корелация се разграничават следните корелации:

Силна или близка с коефициент на корелация r>0.70;

Средно (при 0,50

Умерено (на 0,30 ч

Слаб (при 0,20

Много слаб (при r<0,19).

1.3 Корелационни полета и целта на тяхното изграждане

Корелацията се изучава въз основа на експериментални данни, които са измерените стойности (x i, y i) на две характеристики. Ако има малко експериментални данни, тогава двумерното емпирично разпределение се представя като двойна серия от стойности x i и y i. В този случай връзката между характеристиките може да бъде описана по различни начини. Съответствието между аргумент и функция може да се даде чрез таблица, формула, графика и др.

Корелационният анализ, подобно на други статистически методи, се основава на използването на вероятностни модели, които описват поведението на изследваните характеристики в определена обща популация, от която се получават експерименталните стойности x i и y i. Когато се изследва връзката между количествените характеристики, чиито стойности могат да бъдат точно измерени в единици на метрични скали (метри, секунди, килограми и т.н.), моделът на двумерна нормално разпределена генерална съвкупност много често се осиновени. Такъв модел показва връзката между променливите x i и y i графично като геометрично място на точки в правоъгълна координатна система. Тази графична зависимост се нарича още диаграма на разсейване или корелационно поле.
Този модел на двумерно нормално разпределение (корелационно поле) ви позволява да дадете визуална графична интерпретация на коефициента на корелация, т.к. разпределението в съвкупност зависи от пет параметъра: μ x , μ y – средни стойности (математически очаквания); σ x ,σ y са стандартните отклонения на случайните променливи X и Y, а p е коефициентът на корелация, който е мярка за връзката между случайните променливи X и Y.
Ако p \u003d 0, тогава стойностите x i , y i , получени от двуизмерен нормален набор, са разположени на графиката в координати x, y в областта, ограничена от кръг (Фигура 5, а). В този случай между случайните величини X и Y няма корелация и те се наричат ​​некорелирани. За двумерно нормално разпределение некорелацията означава в същото време независимостта на случайните променливи X и Y.