Câți comisari europeni sunt în Comisia Europeană. Comisia Europeană. Comisia Europeană este principalul organ executiv al Uniunii Europene. Activitățile Comisiei Europene
Coeficient de corelație este o valoare care poate varia de la +1 la -1. În cazul unei corelații pozitive complete, acest coeficient este egal cu plus 1 (se spune că odată cu creșterea valorii unei variabile, valoarea unei alte variabile crește), iar cu o corelație negativă completă - minus 1 (indicați feedback-ul) , adică atunci când valorile unei variabile cresc, valorile celeilalte scad).
Ex 1:
Graficul dependenței de timiditate și depresie. După cum puteți vedea, punctele (subiecții) nu sunt situate aleatoriu, ci se aliniază în jurul unei linii și, privind această linie, putem spune că cu cât timiditatea este mai mare la o persoană, cu atât mai depresive, adică aceste fenomene. sunt interconectate.
Ex 2: Grafic pentru timiditate și sociabilitate. Vedem că pe măsură ce timiditatea crește, sociabilitatea scade. Coeficientul lor de corelare este -0,43. Astfel, un coeficient de corelație mai mare de la 0 la 1 indică o relație direct proporțională (cu cât mai mult ... cu atât mai mult ...), iar un coeficient de la -1 la 0 indică o relație invers proporțională (cu cât mai mult ... cu atât mai puțin . ..)
Dacă coeficientul de corelație este 0, ambele variabile sunt complet independente una de cealaltă.
corelație- aceasta este o relație în care impactul factorilor individuali apare doar ca tendință (în medie) cu observarea în masă a datelor reale. Exemple de dependență de corelație pot fi dependența dintre mărimea activelor băncii și valoarea profitului băncii, creșterea productivității muncii și vechimea în muncă a angajaților.
Se folosesc două sisteme de clasificare a corelațiilor în funcție de puterea lor: general și particular.
Clasificarea generală a corelațiilor: 1) puternică, sau apropiată cu un coeficient de corelație de r> 0,70; 2) medie la 0,500,70, și nu doar o corelație de un nivel ridicat de semnificație.Următorul tabel listează denumirile coeficienților de corelație pentru diferite tipuri de scale.
Scară dihotomică (1/0) | Scala de rang (ordinal). | ||
Scară dihotomică (1/0) | Coeficientul de asociere al lui Pearson, coeficientul de conjugare cu patru celule al lui Pearson. | Corelație biserială | |
Scala de rang (ordinal). | Corelația rang-biseriala. | Coeficientul de corelare a rangului lui Spearman sau Kendall. | |
Interval și scară absolută | Corelație biserială | Valorile scalei intervalului sunt convertite în ranguri și se folosește coeficientul de rang | Coeficientul de corelație Pearson (coeficientul de corelație liniară) |
La r=0 nu există o corelație liniară. În acest caz, mediile de grup ale variabilelor coincid cu mediile lor generale, iar liniile de regresie sunt paralele cu axele de coordonate.
Egalitatea r=0 vorbește doar despre absența unei dependențe de corelație liniară (variabile necorelate), dar nu în general despre absența unei corelații, și cu atât mai mult, a unei dependențe statistice.
Uneori concluzia că nu există o corelație este mai importantă decât prezența unei corelații puternice. O corelație zero a două variabile poate indica că nu există nicio influență a unei variabile asupra celeilalte, cu condiția să avem încredere în rezultatele măsurătorilor.
În SPSS: 11.3.2 Coeficienți de corelație
Până acum am aflat doar faptul însuși al existenței unei relații statistice între două trăsături. În continuare, vom încerca să aflăm ce concluzii se pot trage despre puterea sau slăbiciunea acestei dependențe, precum și despre forma și direcția ei. Criteriile de cuantificare a relației dintre variabile se numesc coeficienți de corelație sau măsuri de conectivitate. Două variabile sunt corelate pozitiv dacă există o relație directă, unidirecțională între ele. Într-o relație unidirecțională, valorile mici ale unei variabile corespund unor valori mici ale celeilalte variabile, valorile mari corespund celor mari. Două variabile sunt corelate negativ dacă există o relație inversă între ele. Cu o relație multidirecțională, valorile mici ale unei variabile corespund valori mari o altă variabilă și invers. Valorile coeficienților de corelație sunt întotdeauna în intervalul de la -1 la +1.
Coeficientul lui Spearman este folosit ca coeficient de corelație între variabilele aparținând scării ordinale, iar coeficientul de corelație al lui Pearson (momentul produselor) este utilizat pentru variabilele aparținând scării intervalului. În acest caz, trebuie menționat că fiecare variabilă dihotomică, adică o variabilă aparținând scării nominale și având două categorii, poate fi considerată ordinală.
În primul rând, vom verifica dacă există o corelație între variabilele sex și psihic din fișierul studium.sav. În acest sens, luăm în considerare faptul că variabila dihotomică sex poate fi considerată o variabilă ordinală. Urmează următoarele instrucțiuni:
Selectați din meniul de comandă Analizați (Analiză) Statistici descriptive (Statistici descriptive) Tabele încrucișate... (Tabelele de urgență)
· Mutați variabila sex într-o listă de rânduri și variabila psihic într-o listă de coloane.
· Faceți clic pe butonul Statistici.... În caseta de dialog Crosstabs: Statistics, bifați caseta Corelations. Confirmați alegerea cu butonul Continuare.
· În dialogul Tabele încrucișate, opriți afișarea tabelelor bifând caseta de selectare Suprimare tabele. Faceți clic pe butonul OK.
Se vor calcula coeficienții de corelație Spearman și Pearson, iar semnificația lor va fi testată:
/ SPSS 10
Sarcina numărul 10 Analiza corelației
Conceptul de corelare
Corelația sau coeficientul de corelație este un indicator statistic probabilistică relaţiile dintre două variabile măsurate pe scale cantitative. Spre deosebire de conexiunea funcțională, în care fiecare valoare a unei variabile îi corespunde strict definite valoarea unei alte variabile, conexiune probabilistică caracterizată prin faptul că fiecărei valori a unei variabile îi corespunde set de valori O altă variabilă, Un exemplu de relație probabilistică este relația dintre înălțimea și greutatea oamenilor. Este clar că oamenii de greutăți diferite pot avea aceeași înălțime și invers.
Corelația este o valoare între -1 și + 1 și se notează cu litera r. Mai mult, dacă valoarea este mai aproape de 1, atunci aceasta înseamnă prezența unei conexiuni puternice, iar dacă este mai aproape de 0, atunci una slabă. Valoarea corelației mai mică de 0,2 este considerată o corelație slabă, mai mare de 0,5 - mare. Dacă coeficientul de corelație este negativ, înseamnă că există o relație inversă: cu cât valoarea unei variabile este mai mare, cu atât valoarea celeilalte este mai mică.
În funcție de valorile acceptate ale coeficientului r, se pot distinge diferite tipuri de corelații:
Corelație pozitivă puternică este determinată de valoarea r=1. Termenul „strict” înseamnă că valoarea unei variabile este determinată în mod unic de valorile altei variabile, iar termenul „ pozitiv" - că, pe măsură ce valoarea unei variabile crește, crește și valoarea celeilalte variabile.
Corelația strictă este o abstractizare matematică și aproape niciodată nu apare în cercetarea reală.
corelație pozitivă corespunde valorilor 0
Lipsa corelației este determinată de valoarea r=0. Un coeficient de corelație de zero indică faptul că valorile variabilelor nu sunt legate între ele în niciun fel.
Lipsa corelației H o : 0 r X y =0 formulată ca o reflecție nul ipoteze în analiza corelaţiei.
corelație negativă: -1
Corelație negativă puternică determinată de valoarea r= -1. Ea, ca o corelație pozitivă strictă, este o abstractizare și nu își găsește expresie în cercetarea practică.
tabelul 1
Tipuri de corelație și definițiile lor
Metoda de calcul al coeficientului de corelație depinde de tipul de scară pe care sunt măsurate valorile variabilei.
Coeficient de corelație rPearson este cea principală și poate fi utilizată pentru variabile cu scale de interval nominale și parțial ordonate, distribuția valorilor peste care corespunde normalului (corelarea momentelor produsului). Coeficientul de corelație Pearson oferă rezultate destul de precise și în cazurile de distribuții anormale.
Pentru distribuțiile care nu sunt normale, este de preferat să folosiți coeficienții de corelație a rangului Spearman și Kendall. Ele sunt clasate deoarece programul pre-clasifică variabilele corelate.
Programul SPSS calculează corelația r-Spearman după cum urmează: mai întâi, variabilele sunt convertite în ranguri, iar apoi formula Pearson este aplicată rangurilor.
Corelația propusă de M. Kendall se bazează pe ideea că direcția conexiunii poate fi judecată prin compararea subiecților în perechi. Dacă pentru o pereche de subiecți schimbarea în X coincide în direcția cu schimbarea în Y coincide, atunci aceasta indică o relație pozitivă. Dacă nu se potrivește, atunci despre o relație negativă. Acest coeficient este utilizat în principal de către psihologii care lucrează cu eșantioane mici. Deoarece sociologii lucrează cu matrice mari de date, este dificil să sortăm perechi, să identifice diferența de frecvențe relative și inversiuni ale tuturor perechilor de subiecți din eșantion. Cel mai comun este coeficientul. Pearson.
Deoarece coeficientul de corelație rPearson este cel principal și poate fi utilizat (cu o anumită eroare în funcție de tipul de scară și de nivelul de anomalie în distribuție) pentru toate variabilele măsurate pe scale cantitative, vom lua în considerare exemple de utilizare a acestuia și vom compara rezultate obținute cu rezultatele măsurătorilor folosind alți coeficienți de corelație.
Formula de calcul al coeficientului r- Pearson:
r xy = ∑ (Xi-Xav)∙(Yi-Yav) / (N-1)∙σ x ∙σ y ∙
Unde: Xi, Yi- Valorile a două variabile;
Xav, Yav - valori medii a două variabile;
σ x , σ y sunt abateri standard,
N este numărul de observații.
Corelații de perechi
De exemplu, am dori să aflăm cum se răspund între tipuri variate valorile tradiționale în ideile elevilor despre locul ideal de muncă (variabile: a9.1, a9.3, a9.5, a9.7), și apoi despre raportul valorilor liberale (a9.2, a9). .4. a9.6, a9. opt) . Aceste variabile sunt măsurate pe scale ordonate pe 5 termeni.
Folosim procedura: „Analiză”, „Corelații”, „Pereche”. Implicit, coeficientul Pearson este setat în caseta de dialog. Folosim coeficientul Pearson
Variabilele testate sunt transferate în fereastra de selecție: a9.1, a9.3, a9.5, a9.7
Apăsând OK, obținem calculul:
Corelații
a9.1.t. Cât de important este să ai timp suficient pentru viața de familie și personală? |
corelația Pearson |
||||
Valoare (pe 2 fețe) |
|||||
a9.3.t. Cât de important este să nu-ți fie frică de a-ți pierde locul de muncă? |
corelația Pearson |
||||
Valoare (pe 2 fețe) |
|||||
a9.5.t. Cât de important este să ai un astfel de șef care să te consulte atunci când iei cutare sau cutare decizie? |
corelația Pearson |
||||
Valoare (pe 2 fețe) |
|||||
a9.7.t. Cât de important este să lucrezi echipa bine coordonata te simti parte din ea? |
corelația Pearson |
||||
Valoare (pe 2 fețe) |
|||||
** Corelația este semnificativă la nivelul 0,01 (cu două fețe).
Tabelul valorilor cantitative ale matricei de corelație construite
Corelații parțiale:
Mai întâi, să construim o corelație pe perechi între aceste două variabile:
Corelații |
|||
c8. Simțiți-vă aproape de cei care locuiesc lângă voi, vecini |
corelația Pearson |
||
Valoare (pe 2 fețe) |
|||
c12. Simțiți-vă aproape de familia lor |
corelația Pearson |
||
Valoare (pe 2 fețe) |
|||
**. Corelația este semnificativă la nivelul 0,01 (2 fețe). |
Apoi folosim procedeul de construire a unei corelații parțiale: „Analiză”, „Corelații”, „Parțială”.
Să presupunem că valoarea „Este important să determinați și să schimbați în mod independent ordinea muncii dvs.” în raport cu variabilele indicate va fi factorul decisiv, sub influența căruia relația identificată anterior va dispărea sau se va dovedi a fi puțin semnificativă. .
Corelații |
||||
Variabile excluse |
c8. Simțiți-vă aproape de cei care locuiesc lângă voi, vecini |
c12. Simțiți-vă aproape de familia lor |
||
c16. Simte-te aproape de oamenii care au aceeași avere ca tine |
c8. Simțiți-vă aproape de cei care locuiesc lângă voi, vecini |
Corelație |
||
Semnificație (cu două fețe) |
||||
c12. Simțiți-vă aproape de familia lor |
Corelație |
|||
Semnificație (cu două fețe) |
||||
După cum se poate observa din tabel, sub influența variabilei de control, relația a scăzut ușor: de la 0,120 la 0,102. rămâne suficient de mare și permite să se infirme ipoteza nulă cu eroare zero.
Coeficient de corelație
Cel mai precis mod de a determina etanșeitatea și natura corelației este găsirea coeficientului de corelație. Coeficientul de corelație este un număr determinat de formula:
unde r xy este coeficientul de corelație;
x i -valorile primei caracteristici;
i -valorile celei de-a doua caracteristici;
Media aritmetică a valorilor primei caracteristici
Media aritmetică a valorilor celei de-a doua caracteristici
Pentru a folosi formula (32), construim un tabel care va furniza succesiunea necesară în pregătirea numerelor pentru a găsi numărătorul și numitorul coeficientului de corelație.
După cum se poate observa din formula (32), succesiunea acțiunilor este următoarea: găsim mediile aritmetice ale ambelor semne x și y, găsim diferența dintre valorile semnului și media acestuia (х i - ) și y i - ), atunci găsim produsul lor (х i - ) ( y i - ) – suma acestora din urmă dă numărătorul coeficientului de corelație. Pentru a-și găsi numitorul, trebuie să pătrați diferențele (x i -) și (y i -), să găsiți sumele lor și să extrageți rădăcina pătrată din produsul lor.
Deci, de exemplu 31, găsirea coeficientului de corelație în conformitate cu formula (32) poate fi reprezentată după cum urmează (Tabelul 50).
Numărul rezultat al coeficientului de corelație face posibilă stabilirea prezenței, proximității și naturii relației.
1. Dacă coeficientul de corelație este zero, nu există nicio relație între caracteristici.
2. Dacă coeficientul de corelație este egal cu unu, relația dintre trăsături este atât de mare încât se transformă într-una funcțională.
3. Valoarea absolută a coeficientului de corelație nu depășește intervalul de la zero la unu:
Acest lucru face posibilă concentrarea asupra strângerii conexiunii: cu cât coeficientul este mai aproape de zero, cu atât conexiunea este mai slabă și cu cât este mai aproape de unitate, cu atât conexiunea este mai strânsă.
4. Semnul coeficientului de corelare „plus” înseamnă corelare directă, semnul „minus” înseamnă invers.
Masa 50
x i | i | (х i - ) | (y i - ) | (x i - )(y i - ) | (х i - )2 | (y i - )2 |
14,00 | 12,10 | -1,70 | -2,30 | +3,91 | 2,89 | 5,29 |
14,20 | 13,80 | -1,50 | -0,60 | +0,90 | 2,25 | 0,36 |
14,90 | 14,20 | -0,80 | -0,20 | +0,16 | 0,64 | 0,04 |
15,40 | 13,00 | -0,30 | -1,40 | +0,42 | 0,09 | 1,96 |
16,00 | 14,60 | +0,30 | +0,20 | +0,06 | 0,09 | 0,04 |
17,20 | 15,90 | +1,50 | +2,25 | 2,25 | ||
18,10 | 17,40 | +2,40 | +2,00 | +4,80 | 5,76 | 4,00 |
109,80 | 101,00 | 12,50 | 13,97 | 13,94 |
Astfel, coeficientul de corelație calculat în Exemplul 31 este r xy = +0,9. ne permite să tragem următoarele concluzii: există o corelație între valoare putere musculara mâna dreaptă și stângă la școlarii studiați (coeficientul r xy = +0,9 este diferit de zero), relația este foarte strânsă (coeficientul r xy = +0,9 este apropiat de unitate), corelația este directă (coeficientul r xy = +0,9 este pozitiv), adică, cu o creștere a forței musculare a uneia dintre mâini, puterea celeilalte mâini crește.
Atunci când se calculează coeficientul de corelație și se utilizează proprietățile acestuia, trebuie să se țină seama de faptul că concluziile dau rezultate corecte atunci când caracteristicile sunt distribuite în mod normal și când se ia în considerare relația dintre un număr mare de valori ale ambelor caracteristici.
În exemplul considerat 31, au fost analizate doar 7 valori ale ambelor caracteristici, ceea ce, desigur, nu este suficient pentru astfel de studii. Reamintim aici din nou că exemplele, din această carte în general și din acest capitol în special, sunt de natura metodelor ilustrative și nu sunt o prezentare detaliată a unor experimente științifice. Ca urmare, sunt luate în considerare un număr mic de valori ale caracteristicilor, măsurătorile sunt rotunjite - toate acestea se fac pentru a nu ascunde ideea metodei cu calcule greoaie.
O atenție deosebită trebuie acordată esenței relației luate în considerare. Coeficientul de corelație nu poate conduce la rezultate corecte ale studiului dacă analiza relației dintre trăsături se realizează în mod formal. Să revenim la exemplul 31. Ambele semne luate în considerare au fost valorile forței musculare a mâinii drepte și stângi. Să ne imaginăm că prin caracteristica x i din exemplul 31 (14,0; 14,2; 14,9... ...18,1) înțelegem lungimea peștelui prins aleatoriu în centimetri și prin caracteristica y i (12,1 ; 13,8; 14,2 ... ... 17.4) - greutatea instrumentelor din laborator în kilograme. Formal, folosind aparatul de calcule pentru a afla coeficientul de corelatie si in acest caz si obtinand r xy =+0>9, ar fi trebuit sa concluzionam ca exista o relatie stransa de natura directa intre lungimea pestelui si greutatea instrumentele. Absurditatea unei astfel de concluzii este evidentă.
Pentru a evita o abordare formală a utilizării coeficientului de corelație, ar trebui să se folosească orice altă metodă - matematică, logică, experimentală, teoretică - pentru a identifica posibilitatea unei corelații între semne, adică pentru a detecta unitatea organică a semnelor. Abia atunci se poate începe să se folosească analiza corelației și să se stabilească amploarea și natura relației.
În statistica matematică există și conceptul corelație multiplă- Relații între trei sau mai multe caracteristici. În aceste cazuri, se utilizează un coeficient de corelație multiplă, constând din coeficienții de corelație perechi descriși mai sus.
De exemplu, coeficientul de corelație a trei semne - x і , y і , z і - este:
unde R xyz -coeficient de corelație multiplu care exprimă modul în care caracteristica x i depinde de caracteristicile y i și z i ;
r xy -coeficientul de corelație între caracteristicile x i și y i ;
r xz - coeficientul de corelație între caracteristicile Xi și Zi;
r yz - coeficient de corelație între caracteristicile y i , z i
Analiza corelației este:
Analiza corelațieiCorelație- relația statistică a două sau mai multe variabile aleatoare (sau variabile care pot fi considerate ca atare cu un grad acceptabil de acuratețe). În același timp, modificările uneia sau mai multor dintre aceste cantități conduc la o modificare sistematică a celeilalte sau a altor cantități. Coeficientul de corelație servește ca măsură matematică a corelației a două variabile aleatoare.
Corelația poate fi pozitivă și negativă (de asemenea, este posibil să nu existe o relație statistică - de exemplu, pentru variabile aleatoare independente). corelație negativă - corelația, în care o creștere a unei variabile este asociată cu o scădere a unei alte variabile, în timp ce coeficientul de corelație este negativ. corelație pozitivă - o corelație în care o creștere a unei variabile este asociată cu o creștere a unei alte variabile, în timp ce coeficientul de corelație este pozitiv.
autocorelare - relație statistică între variabile aleatoare din aceeași serie, dar luate cu o schimbare, de exemplu, pentru un proces aleator - cu o schimbare în timp.
Metoda de prelucrare a datelor statistice, care constă în studierea coeficienților (corelațiilor) dintre variabile, se numește analiza corelației.
Coeficient de corelație
Coeficient de corelație sau coeficient de corelație de perecheîn teoria probabilității și statistică, acesta este un indicator al naturii modificării a două variabile aleatoare. Coeficientul de corelație este notat cu litera latină R și poate lua valori între -1 și +1. Dacă valoarea modulo este mai aproape de 1, atunci aceasta înseamnă prezența unei conexiuni puternice (cu un coeficient de corelație egal cu unu, se vorbește despre o conexiune funcțională), iar dacă este mai aproape de 0, atunci una slabă.
Coeficientul de corelație Pearson
Pentru mărimile metrice se folosește coeficientul de corelație Pearson, a cărui formulă exactă a fost introdusă de Francis Galton:
Lăsa X,Y- două variabile aleatoare definite pe același spațiu de probabilitate. Atunci coeficientul lor de corelare este dat de formula:
,unde cov este covarianța și D este varianța sau echivalent,
,unde simbolul denotă așteptarea matematică.
Pentru a reprezenta grafic o astfel de relație, puteți utiliza un sistem de coordonate dreptunghiular cu axe care corespund ambelor variabile. Fiecare pereche de valori este marcată cu un simbol specific. Un astfel de complot se numește „scatterplot”.
Metoda de calcul a coeficientului de corelație depinde de tipul de scară la care se referă variabilele. Deci, pentru măsurarea variabilelor cu intervale și scale cantitative, este necesar să se utilizeze coeficientul de corelație Pearson (corelația momentelor produsului). Dacă cel puțin una dintre cele două variabile are o scară ordinală sau nu este distribuită normal, trebuie utilizată corelația de rang a lui Spearman sau τ (tau) a lui Kendal. În cazul în care una dintre cele două variabile este dihotomică, se utilizează o corelație punctuală cu două serii, iar dacă ambele variabile sunt dihotomice, se utilizează o corelație cu patru câmpuri. Calculul coeficientului de corelație dintre două variabile nedihotomice are sens numai dacă relația dintre ele este liniară (unidirecțională).
Coeficientul de corelație Kendell
Folosit pentru a măsura dezordinea reciprocă.
Coeficientul de corelație al lui Spearman
Proprietățile coeficientului de corelație
- Inegalitatea Cauchy - Bunyakovsky:
Analiza corelației
Analiza corelației- metoda de prelucrare a datelor statistice, care consta in studierea coeficientilor ( corelații) între variabile. În acest caz, coeficienții de corelație dintre o pereche sau mai multe perechi de caracteristici sunt comparați pentru a stabili relații statistice între ele.
Ţintă analiza corelației- furnizați câteva informații despre o variabilă cu ajutorul altei variabile. În cazurile în care este posibilă atingerea scopului, spunem că variabilele corela. În chiar vedere generala acceptarea ipotezei prezenței unei corelații înseamnă că o modificare a valorii variabilei A va avea loc concomitent cu o modificare proporțională a valorii lui B: dacă ambele variabile cresc, atunci corelația este pozitivă dacă o variabilă crește și cealaltă scade, corelația este negativă.
Corelația reflectă doar dependența liniară a cantităților, dar nu reflectă conectivitatea lor funcțională. De exemplu, dacă calculăm coeficientul de corelație dintre valori A = sin(X) și B = cos(X), atunci va fi aproape de zero, adică nu există nicio dependență între cantități. Între timp, mărimile A și B sunt în mod evident legate funcțional conform legii sin 2(X) + cos 2(X) = 1.
Limitele analizei corelațiilor
Grafice ale distribuțiilor de perechi (x,y) cu coeficienții de corelație x și y corespunzători pentru fiecare dintre ele. Rețineți că coeficientul de corelație reflectă o relație liniară (rândul de sus), dar nu descrie o curbă de relație (rândul din mijloc) și nu este deloc potrivit pentru a descrie relații complexe, neliniare (rândul de jos).
- Aplicarea este posibilă dacă există un număr suficient de cazuri de studiat: pentru un anumit tip de coeficient de corelație, acesta variază de la 25 la 100 de perechi de observații.
- A doua limitare rezultă din ipoteza analizei corelației, care include dependența liniară a variabilelor. În multe cazuri, când se știe în mod fiabil că dependența există, analiza corelației poate să nu dea rezultate pur și simplu pentru că dependența este neliniară (exprimată, de exemplu, ca o parabolă).
- Prin el însuși, faptul corelației nu oferă motive pentru a afirma care dintre variabile precede sau provoacă modificări sau că variabilele sunt în general legate între ele cauzal, de exemplu, datorită acțiunii unui al treilea factor.
Zona de aplicare
Această metodă de prelucrare a datelor statistice este foarte populară în științe economice și sociale (în special, în psihologie și sociologie), deși sfera de aplicare a coeficienților de corelare este extins: controlul calității produselor industriale, metalurgie, chimie agricolă, hidrobiologie, biometrie, si altii.
Popularitatea metodei se datorează a două puncte: coeficienții de corelație sunt relativ ușor de calculat, aplicarea lor nu necesită pregătire matematică specială. Combinată cu ușurința de interpretare, ușurința de aplicare a coeficientului a condus la utilizarea pe scară largă a acestuia în domeniul analizei datelor statistice.
corelație falsă
Simplitatea adesea tentantă a unui studiu de corelare încurajează cercetătorul să tragă concluzii intuitive false despre prezența unei relații cauzale între perechi de trăsături, în timp ce coeficienții de corelație stabilesc doar relații statistice.
În metodologia cantitativă modernă a științelor sociale, de fapt, s-a renunțat la încercările de a stabili relații cauzale între variabilele observate prin metode empirice. Prin urmare, atunci când cercetătorii din științe sociale vorbesc despre stabilirea unor relații între variabilele pe care le studiază, este implicată fie o presupunere teoretică generală, fie o dependență statistică.
Vezi si
- Funcția de autocorelare
- Funcția de corelație încrucișată
- covarianta
- Coeficient de determinare
- Analiza regresiei
Fundația Wikimedia. 2010.
Coeficientul de corelație reflectă gradul de relație dintre doi indicatori. Ia întotdeauna o valoare de la -1 la 1. Dacă coeficientul este situat lângă 0, atunci se spune că nu există nicio legătură între variabile.
Dacă valoarea este aproape de unu (de la 0,9, de exemplu), atunci există o relație directă puternică între obiectele observate. Dacă coeficientul este aproape de celălalt punct extrem al intervalului (-1), atunci există o relație inversă puternică între variabile. Când valoarea este undeva la mijloc de la 0 la 1 sau de la 0 la -1, atunci vorbim de o relație slabă (înainte sau inversă). Această relație de obicei nu este luată în considerare: se consideră că nu există.
Calculul coeficientului de corelare în Excel
Luați în considerare, de exemplu, metodele de calcul al coeficientului de corelație, caracteristicile relației directe și inverse dintre variabile.
Valorile indicatorilor x și y:
Y este variabila independentă, x este variabila dependentă. Este necesar să găsim puterea (puternic / slab) și direcția (înainte / invers) a relației dintre ele. Formula pentru coeficientul de corelare arată astfel:
Pentru a-i simplifica înțelegerea, îl vom împărți în câteva elemente simple.
Există o relație directă puternică între variabile.
Funcția CORREL încorporată evită calculele complicate. Să calculăm coeficientul de corelație de pereche în Excel folosindu-l. Numim maestru al funcțiilor. Găsim ceea ce ne trebuie. Argumentele funcției sunt o matrice de valori y și o matrice de valori x:
Să arătăm valorile variabilelor pe diagramă:
Există o relație puternică între y și x, deoarece Liniile sunt aproape paralele între ele. Relația este directă: creșterea y - creșterea x, descreșterea y - descreșterea x.
Matricea coeficienților de corelație pe perechi în Excel
Matricea de corelație este un tabel, la intersecția rândurilor și coloanelor din care există coeficienți de corelație între valorile corespunzătoare. Este logic să-l construiți pentru mai multe variabile.
Matricea coeficienților de corelație în Excel este construită folosind instrumentul „Corelation” din pachetul „Data Analysis”.
S-a găsit o relație directă puternică între valorile lui y și x1. Există un feedback puternic între x1 și x2. Practic nu există nicio legătură cu valorile din coloana x3.
Înștiințare! Soluția la problema dvs. specifică va arăta similar cu acest exemplu, incluzând toate tabelele și textele explicative de mai jos, dar ținând cont de datele dvs. inițiale...O sarcină:
Există un eșantion înrudit de 26 de perechi de valori (x k ,y k ):
k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
x k | 25.20000 | 26.40000 | 26.00000 | 25.80000 | 24.90000 | 25.70000 | 25.70000 | 25.70000 | 26.10000 | 25.80000 |
y k | 30.80000 | 29.40000 | 30.20000 | 30.50000 | 31.40000 | 30.30000 | 30.40000 | 30.50000 | 29.90000 | 30.40000 |
k | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
x k | 25.90000 | 26.20000 | 25.60000 | 25.40000 | 26.60000 | 26.20000 | 26.00000 | 22.10000 | 25.90000 | 25.80000 |
y k | 30.30000 | 30.50000 | 30.60000 | 31.00000 | 29.60000 | 30.40000 | 30.70000 | 31.60000 | 30.50000 | 30.60000 |
k | 21 | 22 | 23 | 24 | 25 | 26 |
x k | 25.90000 | 26.30000 | 26.10000 | 26.00000 | 26.40000 | 25.80000 |
y k | 30.70000 | 30.10000 | 30.60000 | 30.50000 | 30.70000 | 30.80000 |
Este necesar să se calculeze/construiască:
- coeficient de corelație;
- testarea ipotezei dependenţei variabilelor aleatoare X şi Y, la un nivel de semnificaţie α = 0,05;
- coeficienții ecuației de regresie liniară;
- diagramă de împrăștiere (câmp de corelație) și grafic cu linii de regresie;
SOLUŢIE:
1. Calculați coeficientul de corelație.
Coeficientul de corelație este un indicator al influenței probabilistice reciproce a două variabile aleatoare. Coeficient de corelație R poate lua valori de la -1 inainte de +1 . Dacă valoarea absolută este mai aproape de 1 , atunci aceasta este o dovadă a unei relații puternice între cantități, și dacă mai aproape de 0 - atunci, indică o conexiune slabă sau absența acesteia. Dacă valoarea absolută R egal cu unu, atunci putem vorbi despre o relație funcțională între mărimi, adică o mărime poate fi exprimată în termenii alteia folosind o funcție matematică.
Puteți calcula coeficientul de corelație folosind următoarele formule:
n |
Σ |
k = 1 |
M x | = |
|
| x k , | Ale mele | = | sau conform formulei
În practică, formula (1.4) este folosită mai des pentru a calcula coeficientul de corelație, deoarece necesită mai puține calcule. Totuși, dacă covarianța a fost calculată anterior cov(X,Y), atunci este mai avantajos să se utilizeze formula (1.1), deoarece pe lângă valoarea reală a covarianței, puteți utiliza și rezultatele calculelor intermediare. 1.1 Calculați coeficientul de corelație folosind formula (1.4), pentru aceasta calculăm valorile x k 2 , y k 2 și x k y k și le introducem în tabelul 1. tabelul 1
1.2. Calculăm M x prin formula (1.5). 1.2.1. x k x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000 1.2.2. 669.50000 / 26 = 25.75000 M x = 25,750000 1.3. În mod similar, calculăm M y. 1.3.1. Să adăugăm toate elementele în succesiune y k y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000 1.3.2. Împărțiți suma rezultată la numărul de elemente ale eșantionului 793.00000 / 26 = 30.50000 M y = 30,500000 1.4. În mod similar, calculăm M xy. 1.4.1. Adăugăm secvenţial toate elementele coloanei a 6-a a tabelului 1 776.16000 + 776.16000 + ... + 794.64000 = 20412.830000 1.4.2. Împărțiți suma rezultată la numărul de elemente 20412.83000 / 26 = 785.10885 Mxy = 785,108846 1.5. Calculați valoarea lui S x 2 folosind formula (1.6.). 1.5.1. Adăugăm secvenţial toate elementele coloanei a 4-a a tabelului 1 635.04000 + 696.96000 + ... + 665.64000 = 17256.910000 1.5.2. Împărțiți suma rezultată la numărul de elemente 17256.91000 / 26 = 663.72731 1.5.3. Scădeți din ultimul număr pătratul valorii M x obținem valoarea pentru S x 2 S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481 1.6. Calculați valoarea lui S y 2 cu formula (1.6.). 1.6.1. Adăugăm secvenţial toate elementele coloanei a 5-a a tabelului 1 948.64000 + 864.36000 + ... + 948.64000 = 24191.840000 1.6.2. Împărțiți suma rezultată la numărul de elemente 24191.84000 / 26 = 930.45538 1.6.3. Scădeți din ultimul număr pătratul lui My y , obținem valoarea pentru S y 2 S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538 1.7. Să calculăm produsul dintre S x 2 și S y 2. S x 2 S y 2 = 0,66481 0,20538 = 0,136541 1.8. Extrageți ultimul număr Rădăcină pătrată, obținem valoarea S x S y. S x S y = 0,36951 1.9. Calculați valoarea coeficientului de corelație conform formulei (1.4.). R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028 RĂSPUNS: Rx,y = -0,720279 2. Verificăm semnificația coeficientului de corelație (verificăm ipoteza dependenței).Deoarece estimarea coeficientului de corelație este calculată pe un eșantion finit și, prin urmare, se poate abate de la valoarea sa generală, este necesar să se verifice semnificația coeficientului de corelație. Verificarea se face folosind criteriul t:
Valoare aleatoare t urmează distribuția t a lui Student și conform tabelului cu distribuția t este necesar să se găsească valoarea critică a criteriului (t cr.α) la un nivel de semnificație dat α . Dacă modulo t calculat prin formula (2.1) se dovedește a fi mai mic decât t cr.α , atunci nu există nicio dependență între variabilele aleatoare X și Y. În caz contrar, datele experimentale nu contrazic ipoteza despre dependența variabilelor aleatoare. 2.1. Calculați valoarea criteriului t conform formulei (2.1) obținem:
2.2. Să determinăm valoarea critică a parametrului t cr.α din tabelul de distribuție t Valoarea dorită t kr.α este situată la intersecția rândului corespunzător numărului de grade de libertate și coloanei corespunzătoare unui nivel de semnificație dat α . masa 2 distribuție t
2.2. Să comparăm valoarea absolută a criteriului t și t cr.α Valoarea absolută a criteriului t nu este mai mică decât cea critică t = 5,08680, tcr.α = 2,064, prin urmare date experimentale, cu o probabilitate de 0,95(1 - α ), nu contraziceți ipoteza de dependența variabilelor aleatoare X și Y. 3. Se calculează coeficienții ecuației de regresie liniară.Ecuația de regresie liniară este o ecuație a unei linii drepte care aproximează (descrie aproximativ) relația dintre variabilele aleatoare X și Y. Dacă presupunem că X este liber și Y este dependent de X, atunci ecuația de regresie se va scrie după cum urmează Y = a + b X (3.1), unde:
Coeficientul calculat prin formula (3.2) b se numește coeficient de regresie liniară. În unele surse A se numeşte coeficient de regresie constantă şi b conform variabilelor. Erorile de predicție Y pentru o valoare dată X sunt calculate prin formulele: Se mai numește și valoarea σ y/x (formula 3.4). abaterea standard reziduala, caracterizează plecarea lui Y de la dreapta de regresie descrisă de ecuația (3.1) la o valoare fixă (dată) a lui X. | . |
S y / S x = 0,55582
3.3 Calculați coeficientul b prin formula (3.2)
b = -0.72028 0.55582 = -0.40035
3.4 Calculați coeficientul a prin formula (3.3)
A = 30.50000 - (-0.40035 25.75000) = 40.80894
3.5 Estimați erorile ecuației de regresie.
3.5.1 Extragem rădăcina pătrată din S y 2 și obținem:
3.5.4 Să calculăm eroarea relativă cu formula (3.5)
δy/x = (0,31437 / 30,50000)100% = 1,03073%
4. Construim un scatterplot (câmp de corelație) și un grafic al dreptei de regresie.
Un grafic de dispersie este o reprezentare grafică a perechilor corespunzătoare (x k , y k ) ca puncte într-un plan, în coordonate dreptunghiulare cu axele X și Y. Câmpul de corelație este una dintre reprezentările grafice ale unui eșantion legat (pereche). În același sistem de coordonate, este reprezentat și graficul dreptei de regresie. Scalele și punctele de plecare de pe axe trebuie alese cu grijă, astfel încât diagrama să fie cât mai clară posibil.4.1. Găsim că elementul minim și maxim al eșantionului X este al 18-lea și respectiv al 15-lea element, x min = 22,10000 și x max = 26,60000.
4.2. Găsim că elementul minim și maxim al eșantionului Y este al 2-lea și respectiv al 18-lea element, y min = 29,40000 și y max = 31,60000.
4.3. Pe axa absciselor, selectăm punctul de plecare chiar în stânga punctului x 18 = 22,10000 și o astfel de scară încât punctul x 15 = 26,60000 să se încadreze pe axă și celelalte puncte să fie clar distinse.
4.4. Pe axa y, selectăm punctul de pornire chiar în stânga punctului y 2 = 29,40000 și o astfel de scară încât punctul y 18 = 31,60000 să se potrivească pe axă și celelalte puncte să fie clar distinse.
4.5. Pe axa absciselor plasăm valorile x k , iar pe axa ordonatelor plasăm valorile y k .
4.6. Punem punctele (x 1, y 1), (x 2, y 2), ..., (x 26, y 26) pe planul de coordonate. Obținem un grafic de dispersie (câmp de corelație), prezentat în figura de mai jos.
4.7. Să trasăm o linie de regresie.
Pentru a face acest lucru, găsim două puncte diferite cu coordonate (x r1 , y r1) și (x r2 , y r2) care satisfac ecuația (3.6), le punem pe planul de coordonate și trasăm o dreaptă prin ele. Să luăm x min = 22,10000 ca abscisă a primului punct. Inlocuim valoarea lui x min in ecuatia (3.6), obtinem ordonata primului punct. Astfel, avem un punct cu coordonate (22.10000, 31.96127). În mod similar, obținem coordonatele celui de-al doilea punct, setând valoarea x max = 26,60000 ca abscisă. Al doilea punct va fi: (26.60000, 30.15970).
Linia de regresie este prezentată în figura de mai jos cu roșu
Vă rugăm să rețineți că linia de regresie trece întotdeauna prin punctul valorilor medii ale lui X și Y, adică. cu coordonatele (M x , M y).
LUCRARE DE CURS
Tema: Analiza corelației
Introducere
1. Analiza corelației
1.1 Conceptul de corelare
1.2 Clasificarea generală a corelațiilor
1.3 Câmpuri de corelație și scopul construcției lor
1.4 Etapele analizei corelației
1.5 Coeficienți de corelație
1.6 Coeficientul de corelație Bravais-Pearson normalizat
1.7 Coeficientul de corelare a rangului lui Spearman
1.8 Proprietăți de bază ale coeficienților de corelație
1.9 Verificarea semnificației coeficienților de corelație
1.10 Valori critice ale coeficientului de corelație de pereche
2. Planificarea unui experiment multivariat
2.1 Starea problemei
2.2 Determinarea centrului planului (nivelul principal) și a nivelului de variație a factorilor
2.3 Construirea unei matrice de planificare
2.4 Verificarea omogenității dispersiei și a preciziei egale a măsurătorilor în diferite serii
2.5 Coeficienții ecuației de regresie
2.6 Dispersia reproductibilității
2.7 Verificarea semnificației coeficienților ecuației de regresie
2.8 Verificarea adecvării ecuaţiei de regresie
Concluzie
Bibliografie
INTRODUCERE
Planificarea experimentului este o disciplină matematico-statistică care studiază metodele de organizare rațională a cercetării experimentale - de la alegerea optimă a factorilor supuși studiului și determinarea planului propriu-zis al experimentului în conformitate cu scopul acestuia până la metodele de analiză a rezultatelor. Începutul planificării experimentelor a fost pus de lucrările statisticianului englez R. Fisher (1935), care a subliniat că planificarea rațională a experimentului oferă un câștig nu mai puțin semnificativ în acuratețea estimărilor decât prelucrarea optimă a rezultatelor măsurătorilor. În anii 60 ai secolului XX, a apărut o teorie modernă a planificării experimentelor. Metodele sale sunt strâns legate de teoria aproximării funcțiilor și de programare matematică. Sunt construite planuri optime și proprietățile lor sunt investigate pentru o clasă largă de modele.
Planificarea experimentului - alegerea unui plan de experiment care să îndeplinească cerințele specificate, un set de acțiuni care vizează dezvoltarea unei strategii de experimentare (de la obținerea de informații a priori până la obținerea unui model matematic funcțional sau determinarea condițiilor optime). Acesta este un control intenționat al experimentului, implementat în condiții de cunoaștere incompletă a mecanismului fenomenului studiat.
În procesul de măsurători, prelucrarea ulterioară a datelor, precum și formalizarea rezultatelor sub forma unui model matematic, apar erori și o parte din informațiile conținute în datele originale se pierde. Utilizarea metodelor de planificare a experimentelor face posibilă determinarea erorii modelului matematic și evaluarea adecvării acestuia. Dacă acuratețea modelului este insuficientă, atunci utilizarea metodelor de planificare a experimentelor face posibilă modernizarea modelului matematic cu experimente suplimentare fără a pierde informațiile anterioare și la un cost minim.
Scopul planificării experimentului este de a găsi astfel de condiții și reguli pentru efectuarea experimentelor în care este posibil să se obțină informații fiabile și de încredere despre obiect cu cele mai mici costuri cu forța de muncă și, de asemenea, să prezinte aceste informații într-o formă compactă și convenabilă cu cuantificare precizie.
Printre principalele metode de planificare utilizate în diferite etape cercetare utilizeaza:
Planificarea unui experiment de screening, a cărui semnificație principală este selectarea unui grup de factori semnificativi din totalitatea factorilor care fac obiectul unui studiu detaliat suplimentar;
Proiectarea unui experiment pentru analiza varianței, de ex. întocmirea de planuri pentru obiecte cu factori calitativi;
Planificarea unui experiment de regresie care vă permite să obțineți modele de regresie (polinom și altele);
Planificarea unui experiment extrem, în care sarcina principală este optimizarea experimentală a obiectului de studiu;
Planificarea în studiul proceselor dinamice etc.
Scopul studierii disciplinei este de a pregăti studenții pentru activități de producție și tehnice din specialitate folosind metodele teoriei planificării și tehnologiile informaționale moderne.
Obiectivele disciplinei: studiu metode moderne planificarea, organizarea și optimizarea experimentelor științifice și industriale, efectuarea experimentelor și prelucrarea rezultatelor.
1. ANALIZA CORELATIEI
1.1 Conceptul de corelare
Cercetătorul este adesea interesat de modul în care două sau mai multe variabile sunt legate între ele în unul sau mai multe dintre eșantioanele studiate. De exemplu, poate înălțimea să afecteze greutatea unei persoane sau presiunea poate afecta calitatea produsului?
Acest tip de relație între variabile se numește corelație sau corelație. O corelație este o schimbare consistentă a două caracteristici, reflectând faptul că variabilitatea unei caracteristici este în concordanță cu variabilitatea celeilalte.
Se știe, de exemplu, că, în medie, există o relație pozitivă între înălțimea oamenilor și greutatea lor și astfel încât, cu cât înălțimea este mai mare, cu atât greutatea unei persoane este mai mare. Cu toate acestea, există excepții de la această regulă atunci când persoanele relativ scunde sunt supraponderale și, dimpotrivă, astenicii, cu creștere mare, sunt ușoare. Motivul pentru astfel de excluderi este că fiecare trăsătură biologică, fiziologică sau psihologică este determinată de influența mai multor factori: de mediu, genetici, sociali, ecologici etc.
Corelațiile sunt modificări probabilistice care pot fi studiate numai pe eșantioane reprezentative prin metode de statistică matematică. Ambii termeni - corelație și dependență de corelație - sunt adesea folosiți în mod interschimbabil. Dependența înseamnă influență, conexiune - orice schimbare coordonată care poate fi explicată prin sute de motive. Corelațiile nu pot fi considerate ca dovezi ale unei relații de cauzalitate, ele indică doar că schimbările într-o trăsătură, de regulă, sunt însoțite de anumite schimbări în alta.
Dependența de corelație - sunt modificările pe care valorile unei caracteristici le fac asupra probabilității de apariție valori diferite alt semn.
Sarcina analizei corelației se reduce la stabilirea direcției (pozitive sau negative) și a formei (liniare, neliniare) a relației dintre diferitele caracteristici, măsurarea etanșeității acesteia și, în final, verificarea nivelului de semnificație al coeficienților de corelație obținuți. .
Corelațiile diferă ca formă, direcție și grad (putere) .
Forma corelației poate fi rectilinie sau curbilinie. De exemplu, relația dintre numărul de sesiuni de antrenament pe simulator și numărul de probleme rezolvate corect în sesiunea de control poate fi simplă. Curbiliniu poate fi, de exemplu, relația dintre nivelul de motivație și eficacitatea sarcinii (Figura 1). Odată cu creșterea motivației, eficiența sarcinii crește mai întâi, apoi se atinge nivelul optim de motivare, care corespunde eficienței maxime a sarcinii; o creștere suplimentară a motivației este însoțită de o scădere a eficienței.
Figura 1 - Relația dintre eficiența rezolvării problemelor și puterea tendinței motivaționale
În direcție, corelația poate fi pozitivă ("directă") și negativă ("invers"). Cu o corelație dreaptă pozitivă, valorile mai mari ale unui atribut corespund valorilor mai mari ale altuia, iar valorile mai mici ale unui atribut corespund valorilor scăzute ale altuia (Figura 2). Cu o corelație negativă, rapoartele sunt inversate (Figura 3). Cu o corelație pozitivă, coeficientul de corelație are un semn pozitiv, cu o corelație negativă - un semn negativ.
Figura 2 - Corelație directă
Figura 3 - Corelație inversă
Figura 4 - Fără corelație
Gradul, rezistența sau etanșeitatea corelației este determinată de valoarea coeficientului de corelație. Rezistența conexiunii nu depinde de direcția acesteia și este determinată de valoarea absolută a coeficientului de corelație.
1.2 Clasificarea generală a corelațiilor
În funcție de coeficientul de corelație, se disting următoarele corelații:
Puternic sau apropiat cu coeficient de corelație r>0,70;
Medie (la 0,50 Moderat (la 0.30 Slab (la 0,20 Foarte slab (la r<0,19). 1.3 Câmpuri de corelație și scopul construcției lor Corelația este studiată pe baza datelor experimentale, care sunt valorile măsurate (x i , y i) a două caracteristici. Dacă există puține date experimentale, atunci distribuția empirică bidimensională este reprezentată ca o serie dublă de valori x i și y i. În acest caz, corelația dintre caracteristici poate fi descrisă în moduri diferite. Corespondența dintre un argument și o funcție poate fi dată de un tabel, formulă, grafic etc. Analiza corelației, ca și alte metode statistice, se bazează pe utilizarea modelelor probabilistice care descriu comportamentul caracteristicilor studiate într-o anumită populație generală, din care se obțin valorile experimentale x i și y i. Atunci când se investighează corelația dintre caracteristicile cantitative ale căror valori pot fi măsurate cu precizie în unități de scări metrice (metri, secunde, kilograme etc.), modelul unei populații generale bidimensionale distribuite normal este foarte des. adoptat. Un astfel de model afișează grafic relația dintre variabilele x i și y i ca loc de puncte într-un sistem de coordonate dreptunghiular. Această dependență grafică este numită și diagramă de dispersie sau câmp de corelație.
Acest model al unei distribuții normale bidimensionale (câmp de corelație) vă permite să oferiți o interpretare vizuală grafică a coeficientului de corelație, deoarece distribuția în agregat depinde de cinci parametri: μ x , μ y – valori medii (așteptări matematice); σ x ,σ y sunt abaterile standard ale variabilelor aleatoare X și Y și p este coeficientul de corelație, care este o măsură a relației dintre variabilele aleatoare X și Y.
Dacă p \u003d 0, atunci valorile, x i , y i , obținute dintr-o populație normală bidimensională, sunt situate pe grafic în coordonatele x, y în zona delimitată de un cerc (Figura 5, a). În acest caz, nu există nicio corelație între variabilele aleatoare X și Y și se numesc necorelate. Pentru o distribuție normală bidimensională, necorelare înseamnă în același timp independența variabilelor aleatoare X și Y.