Cresc

O luna ca student la FPSE .
I really like the place.It’s like my playground (as i expected to be)
Ciudat ,zici ca sunt o noua persoana .Am fost mereu o persoana timida,preferam sa stau in umbra,si sa fiu acolo doar daca era nevoie de mine.Spuneam putine despre mine,parca era atat de greu sa zic ceva…
Acum,nu numai ca sunt extrem de sociabila ,sunt mereu in centrul problemei ,fie ea de bine sau de rau .
Mai mult decat atat,sunt fericita:)) yes strange to me.Ma simt din ce in ce mai puternica cu fiecare zi ce trece.
Colegi mei de grupa sunt extrordinari ,sensibili ,complicati ,suferinzi,fericiti ,confuzi sau cum ii numesc eu “Oameni care gandesc ” si au inteligenta emotionala.Yeah ,inteligenta emotionala înseamnă maturitate ,asa ca scutiti-ma cu prostile voastre ca nu vreti sa cresteti mari ,maturizarea e rea ,and all that shit .Daca nu ai asta esti handicapat sentimental.Stiu comunicare violenta ,dar ce sa ma fac sunt la inceputul cursului de comunicare
)
P.s :e una sa te comporţi ca un copil cand mediul iti permite ,dar e altceva cand doar atat stii.
E acest sentiment de libertate,parca sunt intr-o piele noua si imi place.
Eu mereu vb ,foarte vag, despre mici monstri care sunt tinuti ascunsi .Amanarea nu e solutia.Vara asta ,am lasat totul la o parte…si am stat ,m-am gandit la problemele pe care le am ,m-am enervat ,infuriat,am plans ,tot pachetul .Nu le-am rezolvat inca,mai sunt lucruri pe care trebuie sa le descopar ,mai sunt lucruri pe care trebuie sa le infrunt ,dar e ok … am facut pasul,nu ma mai ascund eu .
Am fost amuzanta cand il auzisem pe profu de comunicare zicand ca trebuie sa stam cu durerea/un pic mandra ca am ajuns la punctul asta fara carti /sfatul lui.
Alt P.s :veti auzi multe despre profu de comunicare,este singurul care ne invata psihologie ,si chiar are talent .Parca privesc o arta creata in fata ochilor mei.Are aceea abilitate ,cum ii zic eu “glowing “.Glowing la ce se refera?Instincul ii spune ca acel lucru e important,parca vezi cum acel lucru străluceşte si tipa la tine “-Fi atent la mine sunt important.”
Singura parte rea la el , nu stiu limita. De multe ori imi vine sa sar de pe scaun si sa zic “opreste-te nu vezi ca o doare” dar ma abtin stiu ca e pentru binele ei .Sunt destul de protectiva cu ai mei colegi ,chiar imi place sa le explic lucruri ,teme si alte nebuni,sa le ascult povestea….sunt norocoasă ca ii am pe ei .
Cu toate acestea vreau sa ajung ca el ,sau chiar mai buna.Asta e planul meu ,mi-am ales viitorul .
Invat atat de mult,cresc….devin mai buna ,fizic ,psihic ,spiritual.I’m happy,finally.
Dicţionar explicativ de statistică
Dicţionar explicativ de statistică
Selecţie şi organizare: Valentin Clocotici
A B C D E F G H I K L M N O P Q R S T U V
A
Abatere (Deviation)
Prin abatere se înţelege diferenţa dintre o dată şi o valoare de referinţă (de regulă media). Vezi abatere standard.
Abatere standard (Standard Deviation – SD)
Abaterea standard a unei mulţimi de numere este rădăcina medie pătrată (RMS) a mulţimii abaterilor fiecărui element de la media mulţimii.
Poate fi definită ca rădăcina pătrată a dispersiei mulţimii de numere.
Abaterea standard este o măsură a gradului de împrăştiere a elementelor, se măsoară în aceeaşi unitate de măsură ca şi datele iniţiale şi se raportează, de regulă, împreună cu media.
Este de remarcat că definiţia are loc considerând că mulţimea de plecare reprezintă întreaga populaţie. Pentru un eşantion se va vedea Abatere standard de sondaj.
Abatere standard de sondaj (Sample Standard Deviation, S)
Abaterea standard de sondaj s este un estimator al abaterii standard a populaţiei, bazat pe un eşantion aleator.
Ca statistică, măsoară gradul de împrăştiere a eşantionului în jurul mediei de sondaj. Presupunând că există n elemente în eşantion, cu valorile {x1, x2, . . . , xn}, având media M = (x1 + x2 + . . . +xn)/n, atunci
s = { [(x1 - M)2 + (x2 - M)2 + . . . + (xn - M)2]/(n-1) }½
Pătratul abaterii standard de sondaj, s2, dispersia de sondaj, este un estimator nedeplasat al dispersiei populaţiei.
Abaterea standard a populaţiei (Population Standard Deviation)
Parametru reprezentând abaterea standard a valorilor unei variabile pentru o populaţie.
Amplitudine (Range)
Este definită ca xmax–xmin, unde xmax şi xmin sunt valorile extreme ale unui set de numere observate. Oferă o imagine a “întinderii” datelor, dependentă însă de numărul de valori observate. Cu cât se măsoară mai multe elemente, cu atât şansa de a observa valori mai depărtate creşte, deci şansa de a obţine o amplitudine mai mare.
Amplitudine interquartilă (Interquartile Range – IQR, H‑spread)
Se defineşte ca diferenţa dintre quartila a treia şi quartila întâia. Are semnificaţia lungimii unui interval pe care se distribuie 50% dintre observaţii. De remarcat că intervalul nu este centrat pe quartila a doua (mediana). Este utilizat, în mod nefundamentat teoretic, pentru a obţine un interval centrat pe mediană, (Me-IQR/2;Me+IQR/2), interval care conţine aproximativ 50% dintre observaţii, gradul de aproximare fiind dependent de forma distribuţiei.
Applet
Un applet este un program (de regulă interactiv) încărcat automat dintr‑o pagină web. Nu este o noţiune specifică statisticii şi este prezentă aici doar pentru a lega o adresă web specializată pentru applet‑uri dedicate unor prelucrări statistice: tools page (http://www.stat.berkeley.edu/users/stark/Java/index.htm)
Aproximare normală (Normal approximation)
Aproximarea normală constă în aproximarea unei arii de sub histograma datelor, transformate în unităţi standard, prin aria corespunzătoare de sub curba normală standard.
De exemplu, se doreşte o aproximare pentru aria de sub histograma de probabilitate binomială cu parametrii n = 50 şi p = 0,30 situată între 9.5 şi 17.5 (aria exactă este de 0,742). Pentru aproximarea normală se standardizează limitele intervalului utilizând media n×p = 15 şi abaterea standard (n × p × (1-p))1/2 = 3.24. Rezultă că aria aproximantă este cea de sub curba normală situată între (9.5 – 15)/3.24 = -1.697 şi (17.5 – 15)/3.24 = 0.772, adică 0,735, o valoare apropiată de cea corectă.
Pentru aproximarea distribuţiilor discrete se vor utiliza corecţiile de continuitate.
Asociere (Association)
Două variabile sunt asociate dacă repartiţia valorilor luate de o variabilă este diferită după domenii de valori distincte ale celeilalte variabile. În această situaţie se poate interpreta că o parte din variabilitatea uneia poate fi explicată de cealaltă variabilă. Vizual, asocierea poate fi detectată printr‑o diagramă de împrăştiere (scatterplot) în care norul de puncte prezintă configuraţii particulare, interpretabile ca tendinţe (forme liniare, curbilinii etc.). Asocierea liniară poate fi măsurată prin coeficientul de corelaţie (o asociere de tipul mare–mare, mic–mic este o asociere pozitivă, în timp ce o asociere mare–mic, mic–mare este o asociere negativă)
Asociere liniară (Linear association)
Două variabile sunt asociate liniar dacă o modificare a unei variabile este asociată cu o midificare proporţională în cea de a doua variabilă, factorul de proporţionalitate fiind constant în domeniul măsurat. Gradul de asociere liniară este măsurat prin coeficientul de corelaţie (liniară), cu valori în [-1,+1], valorile extreme însemnând asocieri perfecte, negative sau pozitive. Vezi coeficient de corelaţie.
Asociere neliniară (Nonlinear Association)
Relaţia dintre două variabile este neliniară dacă o modificare în una dintre variabile este asociată cu o modificare a celeilalte variabile, modificare dependentă de valoarea primei variabile. Situaţia contrară este cea a unei asocieri liniare, în care modificările sunt proporţionale, factorul de proporţionalitate fiind constant (deci independent).
Aşteptare, Valoare aşteptată (Expectation, Expected Value)
Valoarea aşteptată a unei v.a. este media ei, gândită ca media la limită a valorilor v.a. obţinute în experimente independente repetate. Se notează uzual cu Exp(X) sau cu E(X). În cazul unei v.a. discrete, valoarea aşteptată este media poderată a valorilor posibile, ponderile fiind probabilităţile cu care v.a. ia diferitele valori.
Se poate gândi valoarea aşteptată a unei v.a. ca punctul de echilibru al histogramei probabilităţilor, dacă aceasta ar fi o placă tăiată dintr‑un material uniform.
Proprietăţile uzuale sunt
Exp(X+Y) = Exp(X) + Exp(Y)
Exp (X×Y) = Exp(X)×Exp(Y), dacă X şi Y sunt independente
Exp(a×X ) = a×Exp(X).
Valoarea aşteptată a unei statistici este media distribuţiei de sondaj a statisticii.
Autoselecţie (Self-Selection)
Situaţia de autoselecţie apare atunci când indivizii decid singuri dacă sunt în grupul de control sau în cel de tratament şi este întâlnită în studiul comportamentului uman. De exemplu, studiile efectului fumatului asupra sănătăţii implică autoselecţia: persoanele decid singure dacă fumează sau nu.
Autoselecţia exclude situaţia de experiment şi produce un studiu observaţional. În situaţia de autoselecţie, cercetătorul trebuie să fie precaut în privinţa confundării posibile a factorilor care influenţează deciziile individuale de apartenenţă la unul dintre grupuri.
Axiomele probabilităţii (Axioms of Probability)
Se numeşte probabilitate orice funcţie definită pe mulţimea evenimentelor, cu valori reale şi care îndeplineşte următoare trei axiome: (1) probabilitate unui eveniment este nenegativă, P(A)³0; (2) probabilitatea evenimentului total este egală cu 1, P(W)=1; (3) probabilitatea reuniunii a două evenimente incompatibile este egală cu suma probabilităţilor, adică dacă AÇB = Æ, atunci P(AÈB)= P(A)+P(B). În cazul când mulţimea evenimentelor este infinită, suma se extinde la o reuniune infinită de evenimente incompatibile P(È Ai) = S P(Ai).
Probabilitatea unui eveniment se interpretează ca şansa de realizare a evenimentului şi se exprimă, uneori, ca procentaj. Astfel, un eveniment A cu P(A)=1/4 poate fi gândit ca un eveniment care se realizează în 25% din cazuri (un caz din patru).
Proprietăţi ale probabilităţii: (1) dacă AÌB, atunci P(A)£P(B); (2) P(A)£1; (3) P(non A) = 1– P(A); (4) P(Æ)=0; (5) P(AÈB) = P(A)+P(B)–P(AÇB).
Pentru cazul când toate evenimentele elementare sunt egal probabile, P({wi})=1/n (n fiind numărul finit de evenimente elementare), atunci P(A) = nA/n, unde nA este numărul evenimentelor elementare care compun evenimentul A. Regula se interpretează sub forma: probabilitatea evenimentului este egală cu numărul cazurilor favorabile raportat la numărul total de cazuri posibile.
B
Bias (Bias)
Un estimator, sau un proces de măsurare, se zice deplasat dacă, în medie, valoarea sa diferă de mărimea estimată (măsurată) adevărată. Deplasarea este media acestei diferenţe. Deplasarea poate fi datorată şi modului de conducere, evaluare a unui experiment. Vezi şi deplasarea de nonrăspuns.
Bin (Bin)
Limita unui interval de clasă. Valorile care realizează partiţionarea în intervale de clasă.
Bivariat (Bivariate)
Termenul se aplică atunci când sunt implicate două variabile.De exemplu, date bivariate apar atunci când se efectuează două măsurători pentru fiecare element al unui eşantion.
În plus faţă de datele univariate, apar probleme cum ar fi distribuţia comună a variabilelor, corelaţia dintre variabile, regresia unei variabile în funcţie de cealaltă etc.
Boxplot (Boxplot)
O diagramă de tip boxplot reflectă grafic rezumarea prin cele 5 valori a unei distribuţii: valoarea minimă, prima quartilă, mediana, a treia quartilă şi valoarea maximă.
Prin compararea intervalelor figurate se obţine o imagine a gradului de împrăştiere a valorilor în domeniul observat.
De regulă, se marchează pe diagramă şi valorile aberante: situate la mai mult de 1,5D sub prima quartilă sau peste a treia quartilă, unde D notează distanţa dintre prima şi a treia quartilă (intervalul interquartil) – în figura anterioară, poziţia valorii aberante este distorsionată din necesităţi de prezentare. Uneori, între valorile aberante se face distincţia celor situate la mai mult de 3D de quartilele extreme.
Prin reprezentarea simultană a celor cinci valori pentru grupuri diferite, se oferă suport pentru o comparare rapidă a grupurilor.
C
Cadru, cadru de sondaj (Frame, sampling frame)
Prin cadru (frame) de sondaj se înţelege o colecţie de elemente de unde se extrage eşantionul. În mod ideal, cadrul este chiar populaţia. Diferenţa dintre cadrul de sondaj şi populaţie poate fi o sursă de apariţie a unei deplasări (biais).
Cauzalitate, relaţie cauzală (Causation, causal relation)
Două variabile sunt în relaţie de cauzalitate dacă modificarea valorii uneia dintre ele (cauza) produce modificarea valorii celeilalte (efectul). Nu există nici o legătură între relaţia de cauzalitate şi relaţia de asociere din statistică. Două variabile pot fi asociate statistic fără a exista nici o relaţie de cauzalitate între ele, în timp ce două variabile în relaţie de cauzalitate pot avea o corelaţie nesemnificativă statistic.
Coeficient de corelaţie (Correlation coefficient)
Coeficientul de corelaţie (Pearson) este o măsură a asocierii liniare dintre două variabile, cu alte cuvinte a gradului în care reprezentarea bivariată sub forma unei diagrame de împrăştiere se apropie de o dreaptă. Notând cu X şi Y cele două variabile şi cu xi, yi, i=1,…,n, valorile variabilelor, formula de calcul este
.
Coeficientul de corelaţie ia valori între –1 şi +1, inclusiv, cu semnificaţia de asociere pozitivă/negativă după semnul coeficientului şi de lipsă de asociere pentru rXY = 0. Semnificaţia statistică (aproximativă) este obţinută aplicând un test Student cu statistica
, având n-2 grade de libertate.
Confundare (Confounding)
Două variabile sunt confundate dacă este imposibil să se determine care variabilă este asociată efectului observat.
Atunci când se compară un grup de control şi un grup experimental (supus unui tratament oarecare) şi când diferenţele dintre grupuri, altele decât tratamentul aplicat, produc diferenţe între rezultate nediferenţiabile de efectul tratamentului, aceste diferenţe se zic confundate cu efectul tratamentului (dacă acesta există). De exemplu, diferenţele între maladiile fumătorilor şi nefumătorilor pot fi confundate cu calităţile individuale diferenţiate ale subiecţilor. Confundarea poate afecta studiile observaţionale şi experimentele care nu sunt randomizate. Vezi şi paradoxul lui Simpson.
Consistenţă (Consistency)
Un estimator se zice consistent dacă tinde să se apropie de parametrul pe care‑l estimează o dată cu mărirea volumului eşantionului.
Statisticile uzuale sunt consistente.
Contrabalansare (Counterbalancing)
Este procedura prin care se încearcă reducerea riscului de confundare. De exemplu, într‑un experiment în care un subiect este supus mai multor probe, ordinea acestora este diferită astfel încât fiecare ordine posibilă să fie egal prezentă. În acest fel se elimină confundarea cu variabila (ascunsă) a ordinii de prezentare a probelor.
Controale istorice (Historical Controls)
Uneori, grupul experimental este comparat cu un grup de control care aparţine altei epoci istorice. În asemenea cazuri, fenomenul de confundare este mult mai mare, deoarece de la o epocă la alta se modifică mulţi factori ale căror efecte pot fi confundate cu efectul tratamentului.
Control (Control)
Există cel puţin trei sensuri ale cuvântului “control” în statistică: un element al unui grup de control, un experiment controlat şi controlul pentru o posibilă variabilă confundată (a controla o variabilă înseamnă a încerca separarea efectului ei de efectul tratamentului).
Convenţia punctului extrem (Endpoint Convention)
La gruparea datelor continue, trebuie să se decidă în ce interval să se includă o valoare care este egală unui punct de divizare. Regula de includere constituie convenţia punctului extrem. Există două convenţii utilizate: (1) se include punctul din stânga şi se exclude cel din dreapta, cu excepţia intervalului din extremitatea dreaptă care include ambele capete; (2) se include punctul din dreapta şi se exclude cel din stânga, cu excepţia intervalului din extremitatea stângă care include ambele capete.
Convergenţă în probabilitate (Convergence in probability)
Un şir de variabile aleatorii X1, X2, X3 . . . converge în probabilitate dacă există o v.a. X astfel încât pentru orice e>0, şirul
P(|X1 – X| < e), P(|X2 – X| < e), P(|X3 – X| < e), . . .
converge la 1.
Corecţia de populaţie finită (Finite Population Correction)
Atunci când eşantionarea este fără repunere, ca în sondajul aleatoriu simplu, eroarea standard a sumei de sondaj şi a mediei de sondaj depinde de fracţiunea extrasă din populaţie: cu cât volumul eşantionului este mai mare, cu atât mai mică este eroarea standard. Ajustarea erorii standard în acest caz este denumită corecţia de populaţie finită. Sondajul cu repunere este similar celui dintr‑o populaţie infinită. Eroarea standard pentru un sondaj fără repunere este mai mică decât cea pentru un sondaj cu repunere cu factorul de corecţie ((N -n)/(N – 1))½. Se verifică imediat că acest factor corespunde intuiţiei pentru n=1 sau n=N.
Corecţie de continuitate (Continuity Correction)
Corecţia de continuitate apare atunci când o distribuţie discretă (cum ar fi cea binomială) este aproximată printr‑o distribuţie continuă (cum ar fi cea normală) şi constă extinderea intervalului cu jumătăţi de unităţi de măsură: o valoare k din distribuţia discretă devine un interval (k-1/2,k+1/2) din distribuţia continuă.
Corelaţie ecologică (Ecological Correlation)
Noţiunea se utilizează atunci când se estimează corelaţia dintre mediile grupurilor de subiecţi şi nu între subiecţi. Rezultatul poate să estimeze incorect asocierea variabilelor. Noţiunea este specifică studilor ecologice.
Curba F (F Curve)
Printr‑o curbă F se înţelege o familie de curbe care depind de doi parametri, n1 şi n2, numiţi grade de libertate. Expresia analitică este
unde Geste funcţia lui Euler, dată de
.
Câteva curbe din familie sunt prezentate în imaginea următoare:
Funcţia f este densitatea de probabilitate pentru repartiţia F(n1;n2) şi se observă asimetria pozitivă pronunţată pentru valori mici ale gradelor de libertate, ca şi atenuarea acestei asimetrii pentru valori mari ale parametrilor.
Curba c2 (Chi-square Curve)
Curba c2 este o familie de curbe care depind de un parametru, n, numit grade de libertate (d.f.). Expresia analitică este
,
unde Geste funcţia lui Euler, dată de
.
Curba c2 este o aproximare pentru histograma probabilităţilor statisticii c2 pentru modelul multinomial dacă numărul aşteptat de rezultate din fiecare categorie este suficient de mare.
Funcţia f este densitatea de probabilitate pentru repartiţia c2.
Pentru n suficient de mare, forma graficului se apropie de alura curbei normale.
Curba normală (Normal curve)
Curba normală reprezintă grafic densitatea de probabilitate a repartiţiei normale. Pentru repartiţia normală standard se obţine imaginea următoare, mai cunoscută sub denumirea de clopotul lui Gauss.
Expresia analitică, în cazul unei repartiţii normale cu parametrii m şi s, este:
Pentru m=0 şi s=1 se obţine expresia analitică a funcţiei normale standard, reprezentată în figura precedentă.
Este de reţinut că graficul este simetric iar aria de sub curbă este egală cu 1.
Curba normală standard (Standard Normal Curve)
Vezi Distribuţia normală.
Curba Student, t (Student’s t curve)
Prin curba Student se înţelege graficul densităţii de probabilitate a repartiţiei Student (de fapt o familie de curbe indexată prin numărul gradelor de libertate).
Curba este simetrică şi are o formă apropiată de curba normală standard către care tinde o dată cu mărirea numărului de grade de libertate. Se poate observa că probabilităţile extreme sunt mai mari decât în cazul curbei normale.
Cazul cel mai des întâlnit de utilizare este acela în care se consideră o populaţie aproape normal distribuită cu media µ. Fie un eşantion aleator de volum n având media egală cu M şi abaterea standard egală cu s. Definim v.a. T prin
T = (M – µ)/(s/n½).
Pentru valori mici ale lui n se poate considera că T este repartizată Student cu n ‑ 1 grade de libertate. Adică
P(a < T < b) @ aria de sub curba S(n – 1) delimitată de x = a şi x = b.
D
Date multivariate (Multivariate Data)
Un set de măsurători efectuate asupra a două sau mai multor variabile, o observaţie fiind ansamblul valorilor pentru un anumit element (individ) din eşantion.
Deplasare (Bias)
Vezi Bias.
Deplasare de non‑răspuns (Nonresponse bias)
Dacă cei care răspund într‑un studiu diferă de cei care nu răspund într‑un mod dependent de variabila urmărită, atunci apare o deplasare (biais) datorată non‑răspunsurilor. De exemplu, într‑un anchetă sociologică prin telefon, efectuată după‑amiaza, nu vor fi prinşi cei care lucrează în acel timp. Dacă rezultatele obţinute urmăresc întreaga populaţie, este evident că apare o deplasare de non‑răspuns.
Deplasare de selecţie (Selection Bias)
Este tendinţa sistematică dintr‑o procedură de sondaj de a include şi/sau exclude unităţi de sondaj de un anumit tip. O asemenea deplasare este posibilă atunci când formarea eşantionului este la latitudinea unei persoane. Pentru eliminarea riscului de apariţie a deplasării de selecţie se utilizează scheme de sondaj probabilist care nu mai lasă loc la opţiuni personale.
Diagramă de împrăştiere (Scatterplot)
Pentru date bivariate, diagrama de împrăştiere este obţinută prin reprezentarea grafică a punctelor de coordonate (xi,yi), unde xi şi yi sunt valorile celor două variabile studiate care se referă la un acelaşi element din eşantion.
Din analiza formei norului de puncte astfel obţinut se pot obţine informaţii privind repartiţia comună a celor două variabile, repartiţiile marginale (fiecare variabilă fiind considerată separat), precum şi informaţii despre asocierea variabilelor.
Mai este denumită diagramă X–Y.
Diagrama reziduurilor (Residual Plot)
O diagramă a reziduurilor luând pe axa Ox o variabilă explicativă (independentă) sau explicată (dependentă). Forma norului de puncte obţinut conduce la concluzii asupra adecvanţei modelului.
Dispersie (Variance)
Dispersia unei liste de valori este pătratul abaterii standard, adică media pătratelor abaterilor numerelor de la media lor.
Dispersia unei variabile aleatoare X, notată Var(X), este valoarea aşteptată a diferenţei pătrate dintre variabilă valoarea ei aşteptată:
Var(X) = Exp((X – E(X))2).
Dispersia unei variabile aleatoare este pătratul erorii standard (SE) a variabilei .
Dispersie de sondaj (Sample Variance)
Dispersia de sondaj s2 este un estimator al dispersiei populaţiei, bazat pe un eşantion aleatoriu.
Ca statistică, măsoară gradul de împrăştiere a eşantionului în jurul mediei de sondaj. Presupunând că există n elemente în eşantion, cu valorile {x1, x2, . . . , xn}, având media M = (x1 + x2 + . . . +xn)/n, atunci
s2 = [(x1 - M)2 + (x2 - M)2 + . . . + (xn - M)2]/(n-1)
Se observă că este pătratul abaterii standard de sondaj, s. Dispersia de sondaj este un estimator nedeplasat al dispersiei populaţiei.
Distribuţia c2 (Chi-square distribution)
O v.a. continuă X este repartizată c2 dacă are ca funcţie de repartiţie
, pentru x>0 şi F(x) = 0, în rest
în care f este funcţia c2.
O v.a. repartizată c2 are valoarea aşteptată (media) egală cu n şi dispersia egală cu 2n. De regulă, o v.a. repartizată c2 este notată cu simbolul c2.
Dacă Z1, Z2, …, Zn sunt v.a. independente repartizate normal standard, N(0;1), atunci suma pătratelor lor este o v.a. repartizată c2 cu n grade de libertate.
Distribuţia cumulativă de probabilitate (Cumulative Probability Distribution Function – cdf)
Este o altă denumire a funcţiei de repartiţie
Distribuţia de probabilitate comună (Joint Probability Distribution)
Dacă X1, X2, . . . , Xk sunt v.a., distribuţia comună de probabilitate dă probabilitatea evenimentelor determinate de mulţimea v.a. considerate, în sensul că pentru orice colecţie de mulţimi numerice {A1, . . . , Ak}, distribuţia comună determină
P( (X1 Î A1) şi (X2 Î A2) şi . . . şi (Xk Î Ak) ).
Distribuţia geometrică (Geometric Distribution)
Distribuţia geometrică descrie numărul de încercări efectuate până la obţinerea unui succes, inclusiv încercarea succes, încercările fiind independente şi având aceeaşi probabilitate de succes. Distribuţia geometrică depinde doar de un parametru, p, probabilitatea unui succes şi atribuie probabilitatea p×(1 - p)k—1 evenimentului care necesită k încercări până la primul succes.
Valoarea aşteptată este 1/p, eroarea standard a distribuţiei fiind (1-p)½/p.
Distribuţie (Distribution)
Termenul distribuţie se poate referi la o mulţime de date observate (empirice) sau la o v.a. Distribuţia unei mulţimi de date numerice arată cum se repartizează aceste date peste mulţimea numerelor reale. Distribuţia este caracterizată complet de funcţia de distribuţie (repartiţie) empirică. Distribuţia de probabilitate a unei v.a. este, în mod similar, caracterizată complet de funcţia de repartiţie a v.a.
Distribuţie “strâmbă” (Skewed Distribution)
O distribuţie care nu este simetrică. Vezi şi indice de asimetrie.
Distribuţie aproape normală (Nearly normal distribution).
O mulţime de valori (realizări ale unei v.a.) se spune că are o distribuţie aproape normală dacă histograma valorilor în unităţi abateri standard urmează o curbă normală. Mai precis, să presupunem că media este µ şi abaterea standard este s. Atunci numerele sunt repartizate aproape normal dacă, pentru orice a < b, proporţia numerelor dintre a şi b este aproximativ egală cu aria de sub curba normală delimitată de (a - µ)/s şi (b - µ)/s.
Distribuţie bimodală (Bimodal)
O distribuţie care are două valori mod.
Distribuţie binomială (Binomial Distribution)
O variabilă aleatoare are o distribuţie binomială cu parametrii n şi p, notată uneori Bi(n,p), dacă reprezintă numărul de “succese” într‑un număr fixat n de încercări aleatorii independente, fiecare încercare având aceeaşi probabilitate p de a produce un “succes”. În acest caz, probabilitatea apariţiei a k “succese” (şi deci a n-k “insuccese”) este
.
Valoarea medie (aşteptată) a unei variabile aleatoare distribuită binomial este n×p, iar abaterea standard este (n×p×(1 - p))½.
Distribuţie binomială negativă (Negative Binomial Distribution)
Fie o secvenţă de încercări independente cu aceeaşi probabilitate de succes p în fiecare încercare. Numărul de încercări efectuate până se obţin r succese are o o distribuţie binomială negativă cu parametrii n şi r. Notând numărul menţionat de încercări cu N, are loc
pentru k = r, r+1, r+2, . . . şi zero pentru k < r.
Distribuţie de frecvenţe (Frequency Distribution)
Fie o variabilă discretă care are (grupate sau nu) k nivele sau o variabilă continuă care este prezentată grupat în k intervale. Se numeşte distribuţie de frecvenţe ansamblul {f1, f2, …, fk}, unde finotează numărul de observaţii din nivelul k, sau din intervalul k (frecvenţa absolută a clasei k).
Dacă frecvenţele sunt exprimate relativ, ca raport fi / n, n fiind volumul eşantionului, atunci se vorbeşte de o distribuţie de frecvenţe relative.
Pentru o variabilă continuă, frecvenţele pot fi cumulate (absolute sau relative), frecvenţa cumulată a unui interval reprezentând suma frecvenţelor (absolute sau relative) pentru toate intervalele anterioare (inclusiv intervalul curent).
O distribuţie de frecvenţe se prezintă sub formă tabelară sau sub formă grafică de histogramă sau de poligon de frecvenţe.
Distribuţie de probabilitate (Probability Distribution)
Distribuţia de probabilitate a unei v.a specifică, în general, probabilităţile cu care v.a. ia valori în orice submulţime de numere reale.
Pentru o v.a. discretă, distribuţia de probabilitate poate specificată precizând probabilităţile cu care v.a. ia valorile posibile. Pentru v.a. continue, distribuţia de probabilitate poate fi caracterizată prin densitatea de probabilitate.
Distribuţie de sondaj (Sampling distribution)
Distribuţia de sondaj a unui estimator este distribuţia de probabilitate a valorilor estimatorului calculate pentru toate eşantioanele de acelaşi volum.
De exemplu, pentru a obţine distribuţia de sondaj a mediei, se vor considera toate eşantioanele de acelaşi volum n, se va calcula media fiecărui eşantion şi se determină distribuţia de probabilitate a valorilor astfel obţinute.
Dacă variabila studiată are o repartiţie normală N(m,s2), sau dacă n este mai mare decât 30, distribuţia de sondaj este normală,
.
Distribuţia de sondaj are un rol important în statistica inferenţială.
Distribuţie F (F Distribution)
Funcţia de repartiţie F (Fisher–Snedecor) are ca densitate de probabilitate curba F. Funcţiile acestei clase de repartiţii teoretice sunt diferenţiate de doi parametri, n1 şi n2, numiţi grade de libertate. Din această cauză se utilizează notaţia F(n1,n2).
Pentru o v.a. X repartizată F(n1,n2) se demonstrează că
Între quantilele distribuţiei există relaţia:
.
Repartiţia F este utilizată pentru testarea ipotezelor în care se compară două dispersii.
Ca rezultat important menţionăm:
Dacă X1 şi X2 sunt două v.a. repartizate c2 cu n1 şi, respectiv, n2 grade de libertate, atunci v.a. X definită prin
este repartizată F(n1,n2).
Teorema arată că raportul a două dispersii de sondaj dintr‑o populaţie normală are o repartiţie F şi de aici provine denumirile uzuale: n1 – gradele de libertate ale numărătorului şi, respectiv, n2 – gradele de libertate ale numitorului.
Alt rezultat important este:
Dacă v.a. T este repartizată Student cu n grade de libertate, atunci X = T2 este repartizată F(1;n).
Distribuţie c2 (Chi Square Distribution)
Funcţia de repartiţiec2 are ca densitate de probabilitate funcţia având drept grafic curba c2. Funcţiile acestei clase de repartiţii sunt diferenţiate de un parametru numit grade de libertate, n.
Media unei v.a. repartizată c2 este n, valoarea mod este n–2, mediana este aproximativ n–0,7.
Distribuţia c2 este utilizată direct sau indirect în teste de semnificaţie.
Distribuţie hipergeometrică (Hypergeometric Distribution)
Distribuţia hipergeometrică cu parametrii N, G şi n este distribuţia obiectelor “bune” într‑un sondaj aleator simplu (fără repunere) de volum n, dintr‑o populaţie de N obiecte dintre care G sunt “bune”. Probabilitatea asignată obţinerii a exact g obiecte “bune” într‑un eşantion este
,
unde g £ n, g £ G şi n - g £ N - G (probabilitatea este zero în caz contrar).
Valoarea aşteptată este n×G/N iar eroarea standard este
((N-n)/(N-1))½ × (n × G/N × (1-G/N) )½.
Distribuţie multimodală (Multimodal Distribution)
O distribuţie cu mai mult de o valoare mod. Histograma unei distribuţii multimodale are mai multe “vârfuri”.
Distribuţie multinomială (Multinomial Distribution)
Fie o secvenţă de încercări independente, fiecare având un rezultat care aparţine unei categorii din k posibile. Fie pj probabilitatea ca fiecare încercare să producă o ieşire din categoria j, j = 1, 2, . . . , k, deci
p1 + p2 + . . . + pk = 1.
Numărul de ieşiri de fiecare tip are o distribuţie multinomial. În particular, probabilitatea ca în n încercări să apară n1 rezultate de tip 1, n2 rezultate de tip 2, …, nk rezultate de tip k este
n!/(n1! × n2! × . . . × nk!) × p1n1 × p2n2 × . . . × pknk,
unde n1, . . . , nk sunt întregi nenegativi cu suma n; probabilitatea este zero în rest.
Distribuţie normală (Normal distribution)
Prin definiţie, o v.a. X are o repartiţie normală cu parametrii m şi s dacă densitatea sa de probabilitate este
.
Se demonstrează că m şi s 2 este media, respectiv dispersia, v.a. X. Conform definiţiei funcţiei de repartiţie,
şi se poate demonstra că pentru orice a £ b, probabilitatea ca a < (X-m)/s < b este
P(a < (X-m)/s < b) =
= aria de sub curba normală standard delimitată de x = a şi x = b
formulă care permite calcularea probabilităţilor asociate cu repartiţia normală doar cunoscând probabilităţile asociate repartiţiei normale standard.
Notaţie uzuală este X~N(m,s2). Pentru distribuţia normală standard se obţine X~N(0,1).
Distribuţie Poisson (Poisson Distribution)
Distribuţia Poisson este o distribuţie de probabilitate discretă care depinde de un parametru, m. Dacă X este o v.a. având distribuţia Poisson cu parametrul m, atunci
P(X = k) =e-m × mk/k!, k = 0, 1, 2, . . . ,
şi 0 pentru alte valori ale lui k.
Valoarea medie (aşteptată) a distribuţiei Poisson este m (valoarea parametrului), iar abaterea standard este m½.
Distribuţie simetrică (Symmetric Distribution)
Distribuţia de probabilitate a variabilei aleatoare X este simetrică dacă există un număr a astfel încât şansa ca X>=a+b este aceeaşi cu şansa ca X<=a-b pentru orice valoare b. O listă de numere are o distribuţie simetrică dacă există un număr a astfel încât procentajul numerelor din listă care sunt mai mari sau egale cu a+b este acelaşi cu procentajul numerelor din listă care sunt mai mici sau egale cua-b, pentru orice număr b. În ambele cazuri, histograma sau curba de probabilitate este simetrică faţă de dreapta x=a.
Distribuţie Student, t (Student’s t distribution)
Distribuţia Student, notată S(n) sau tn, este utilizată, de regulă, în verificarea ipotezelor statistice pe baza rezultatelor obţinute în eşantioane de volum redus, n £ 30, sau atunci când aproximarea cu o repartiţie normală este nesatisfăcătoare.
Parametrul n al repartiţiei poartă denumirea de grade de libertate şi poate lua valorile 1, 2, …. Prin definiţie, densitatea de probabilitate a repartiţiei Student este
.
O v.a. repartizată Student cu n grade de libertate are media egală cu zero şi dispersia n / (n–2), pentru n > 2.
Pentru n > 30, se poate aproxima repartiţia Student prin repartiţia normală standard N(0;1).
Distribuţie uniformă (Uniform Distribution)
Este aceea în care probabilitatea de apariţie a oricărei valori este aceeaşi (constantă), rezultatele sunt egal probabile. Histograma conţine în acest caz dreptunghiuri de înălţimi egale, motiv pentru care distribuţia uniformă mai este denumită dreptunghiulară (rectangulară).
Domeniu (Range)
Vezi amplitudine.
Dublu orb, Experiment dublu orb (Double-Blind, Double-Blind Experiment)
Într‑un experiment dublu orb, nici subiecţii şi nici cei care evaluează subiecţii nu ştiu cine este în grupul experimental şi cine în grupul de control.
E
Efect de transport (Carryover Effect)
Apare în planurile experimentale intra‑subiecţi (fiecare subiect este evaluat la fiecare nivel al factorului) şi se datorează faptului că evaluarea unui subiect la un nivel al factorului este influenţată de faptul că subiectul a fost evaluat la nivele anterioare. De exemplu, forţând situaţia de dragul exemplificării, un acelaşi copil nu poate fi învăţat să citească prin două metode diferite (după prima metodă el ştie deja să citească).
Dacă efectele de transport sunt importante, atunci se va renunţa la planul intra‑subiecţi în favoarea unui plan experimental între‑subiecţi (la fiecare nivel al factorului se consideră un alt grup de subiecţi).
Efect placebo (Placebo effect)
Credinţa subiectului sau cunoaşterea de către acesta a faptului că este tratat poate să aibă un efect care se confundă cu efectul real al unui tratament. Astfel, subiecţii cărora li se administrează un placebo contro durerilor raportează o reducere semnificativă statistic a durerii într‑un experiment randomizat în care se compară cu subiecţi care nu primesc nici un tratament. Acest efect psihologic, care nu este un efect biochimoc direct este numit efect placebo. Vezi şi experiment orb.
Efect principal (Main Effect)
Într‑un experiment factorial, efectul principal al unui factor evidenţiază influenţa factorului asupra variabilei dependente. Efectul principal se apreciază direct prin compararea mediilor calculate separat pentru fiecare nivel al factorului, medierea fiind efectuată după toate nivelele celorlalţi factori.
În analiza dispersională se testează semnificaţia fiecărui efect principal al factorilor consideraţi.
Vezi şi efect simplu.
Efect simplu (Simple Effect)
Prin efect simplu se înţelege efectul unui factor considerând un singur nivel al unui alt factor. De regulă, evidenţierea efectelor simple urmează stabilirii interacţiunii factorilor şi urmăreşte stabilirea acelor nivele ale celui de al doilea factor la care factorul considerat are efect.
Efectul tratamentului (Treatment Effect)
Este efectul pe care tratamentul îl are asupra comportării unei variabile de interes.
Eficienţă (Efficiency)
Eficienţa unei statistici reprezintă gradul în care statistica rămâne stabilă la schimbarea eşantionului (fluctuaţia de sondaj este mai mică). Deoarece este dificil de definit şi de estimat eficienţa unei statistici, se utilizează doar sub forma de eficienţă relativă: se spune că o statistică A este mai eficientă decât o statistică B dacă eroarea standard a lui A este mai mică decât eroarea standard a lui B. Eficienţa relativă poate să depindă de distribuţia datelor: media este mai eficientă decât mediana pentru date normal repartizate, dar are o eficienţă mai mică pentru date cu asimetrie pronunţată.
Eroare aleatoare (Random Error)
Toate măsurătorile sunt afectate de erori. Acestea se pot clasifica în erori sistematice (bias) – care afectează toate măsurătorile în acelaşi mod – şi erori aleatorii – specifice fiecărei măsurători. Se presupune că acestea sunt repartizate cu media zero şi se datorează unor cauze multiple neconsiderate în cercetare.
Eroare de sondaj (Sampling error)
În estimarea bazată pe un eşantion aleator, diferenţa dintre valoarea estimatorului şi parametrul estimat poate fi scrisă ca suma a două componente: deplasarea (biais) şi eroarea de sondaj. Deplasarea este eroarea medie a estimatorului, calculată după toate eşantioanele posibile, şi nu este o cantitate aleatorie (este eroarea sistematică a măsurătorilor). Eroarea de sondaj este acea componentă a erorii care variază de la eşantion la eşantion şi are un caracter aleatoriu: depinde de “norocul” extragerii anumitor elemente la formarea eşantionului. Poate fi privită ca variaţia datorată şansei.
Media, valoarea aşteptată a erorilor de sondaj este egală cu zero.
Eroarea standard a estimatorului este o măsură a mărimii tipice a erorii de sondaj.
Eroare pătrată medie (Mean Squared Error – MSE)
Eroarea medie pătratică a unui estimator X al unui parametru p este valoarea aşteptată a pătratului diferenţei dintre valoarea estimatorului şi parametru:
MSE(X) = Exp( (X-p)2 ).
MSE măsoară cât de departe este estimatorul de cea ce încearcă să estimeze, ca medie în experimente repetate. Indicatorul combină tendinţa estimatorului de a sub‑ sau supraaprecia valoarea adevărată (bias) şi variabilitatea estimatorului (SE, eroarea standard). Poate fi scrisă ca:
MSE(X) = (bias(X))2 + (SE(X))2.
Eroare sistematică (Systematic error)
O eroare care afectează toate măsurătorile în mod similar. De exemplu, dacă gradaţiile unei rigle sunt mai mici (10cm de pe riglă sunt mai mici decât valoarea reală pentru 10cm), orice distanţă apare ca fiind mai mare (ignorând erorile aleatorii). Erorile sistematice nu au tendinţa de a avea media egală cu zero.
Eroare standard (Standard Error – SE)
Eroarea standard a unei variabile aleatoare este o măsură a depărtării de valoarea aşteptată, adică a împrăştierii în experimente repetate.
SE(X) = {Exp [ (X - Exp (X))2 ] } ½.
Definiţia este similară definiţiei abaterii standard.
Eroare standard (Standard Error)
Prin eroare standard se înţelege abaterea standard a valorilor unei funcţii fixate, valori obţinute pentru toate eşantioanele posibile de un acelaşi volum.
Eroarea rădăcinii medie pătrată (Root-mean-square error – RMSE)
Dacă X este un estimator al parametrului p, atunci RMSE(X) este rădăcina pătrată a erorii medii pătrate a estimatorului:
RMSE(X) = ( Exp( (X-p)2 ) )½.
Este o măsură a erorii aşteptate a estimatorului.
Erori de tipul I şi de tipul II (Type I and Type II errors)
Se referă la testarea ipotezelor. O eroare de tip I apare atunci când ipoteza nulă este respinsă în mod eronat (ea fiind adevărată). O eroare de tip II se referă la situaţia când ipoteza nulă nu este respinsă deşi ea este falsă.
Riscul apariţiei unei erori de tip I este egal cu nivelul de semnificaţie, a.
Riscul unei erori de tip II se notează cu b, diferenţa 1–b constituind puterea testului.
Este de notat că nu este posibil să se minimizeze simultan cele două riscuri.
Eşantioane independente (Independent Samples)
Eşantioane independente sunt acelea în care probabilitatea ca un element să fie selectat nu depinde de faptul că un alt element a fost deja selectat în celălalt eşantion. Nu există nici o corelare între elementele celor două eşantioane.
Eşantioane perechi (Matched Samples)
Două eşantioane în care elementele sunt clar perechi (de exemplu măsurători efectuate pe perechi de gemeni identici), sau în care elementele unui eşantion sunt selectate pentru a se potrivi elementelor celuilalt eşantion.
O situaţie specială este atunci când acelaşi eşantion este evaluat înainte şi după o acţiune suplimentară (aceieaşi atleţi evaluaţi înainte şi după o cursă), aici perechea find măsurătorile efectuate pe acelaşi element.
Se mai utilizează denumirea de eşantioane corelate sau dependente.
Eşantion (Sample)
Prin eşantion se înţelege o colecţie (submulţime) de elemente din populaţie.
Eşantion aleator (Random Sample)
Un eşantion aleatoriu este un eşantion ale cărui elemente sunt selectate aleatoriu dintr‑o populaţie dată în aşa fel încât şansa obţinerii oricărui eşantion particular poate fi calculată.
Numărul de elemente din eşantion se numeşte volumul eşantionului.
Un eşantion aleatoriu poate fi obţinut cu sau fără repunerea elementului selectat între extrageri.
Eşantion aleator simplu (Simple Random Sample)
Un sondaj aleatoriu simplu de n unităţi dintr‑o populaţie constă în extragerea elementelor eşantionului printr‑o procedură care asigură aceeaşi probabilitate de selecţie pentru orice submulţime de nunităţi a populaţiei. Eşantionul astfel obţinut se numeşte aleator simplu. Probabilitatea ca eşantionul să fie o anumită submulţime de cardinal n este atunci
Un sondaj aleatoriu simplu este un sondaj fără repunere (un element selectat nu mai poate fi ales a doua oară). De exemplu, o procedură de selectare a unui eşantion de volum n dintr‑o populaţie cu N>= n unităţi poate fi obţinută prin asignarea unui număr aleatoriu între zero şi unu la fiecare unitate a populaţiei şi reţinerea acelor unităţi care corespund la cele mai mari n numere.
Eşantion de convenienţă (Convenience Sample)
Un eşantion format datorită uşurinţei de a‑l obţine. De exemplu, pentru a afla opinia studenţilor intervievăm studenţii unei grupe. Un asemenea eşantion, nefiind aleatoriu, nu este, de regulă, reprezentativ pentru întreaga populaţie (şi nici nu se poate spune cât de nereprezentativ este).
Eşantion de tip Cluster (Cluster Sample)
Într‑o eşantionare de tip cluster, unitatea de eşantionare este o colecţie de elemente ale populaţiei (blocuri) şi nu un element al populaţiei. De exemplu, într‑un studiu sociologic, se începe prin a extragerea unor blocuri diferenţiate geografic.
Eşantion probabilist (Probability Sample)
Eşantion obţinut printr‑un mecanism aleatoriu, astfel încât fiecare element al populaţiei are o şansă cunoscută de a fi selectat.
Eşantion sistematic (Systematic sample)
Un eşantion sistematic se obţine prin numerotarea elementelor mulţimii unităţilor de selecţie şi extragerea fiecărui al k‑lea element. Eşantioanele sistematice nu sunt aleatorii, dar dacă ordinea în care se face numerotarea este sistematică, atunci eşantioanelor sunt ca şi cum ar fi aleatorii.
Eşantion stratificat (Stratified Sample)
Un eşantion obţinut în urma unui sondaj stratificat.
Estimaţie (Estimation)
Prin estimaţie a unui parametru se înţelege o valoare care aproximează valoarea parametrului. De regulă, estimaţia este valoarea, obţinută dintr‑un eşantion, a unui estimator. De exemplu, o estimaţie a mediei populaţiei se obţine utilizând media aritmetică (estimatorul) şi calculând‑o pe baza datelor unui eşantion.
Sunt utilizate două tipuri de estimaţii: estimaţii punctuale şi estimaţii sub formă de interval. De exemplu, a spune că astăzi sunt 15oC este o estimaţie punctuală, în timp ce a spune că astăzi sunt între 12oC şi 18oC este o estimaţie de interval. A se vedea şi interval de încredere.
Estimaţie bootstrap (Bootstrap estimate)
Ideea metodelor bootstrap este aceea de a presupune, în scopul estimării, că eşantionul este populaţia cercetată.şi de a utiliza eroarea standard de sondaj din eşantion ca estimaţie a erorii standard de sondaj pentru populaţie.
Estimaţie de verosimilitate maximă (Maximum Likelihood Estimate – MLE)
Estimaţia de verosimilitate maximă a unui parametru, obţinută dintr‑o mulţime de date observate, este acea valoare posibilă a parametrului pentru care probabilitatea de a observa datele efectiv observate este maximă. Presupunând că parametrul este p şi că observăm datele x, estimaţia de verosimilitate maximă a lui p este q care maximizează P(a observa x atunci când valoarea lui p este q).
De exemplu, presupunem că se doreşte estimarea şansei ca aruncând o monedă să obţinem “pajura” (o faţetă fixată). Datele disponibile sunt numărul x de ori de apariţie a “pajurei” în n aruncări independente. Cum distribuţia implicată este binomială cu parametrii n (cunoscut) şi p (necunoscută). Probabilitatea de a observa x “pajure” în n încercări este, notând cu q şansa unui succes,
qx(1-q)n-x.
Estimaţia de verosimilitate maximă a lui p este acea valoare a lui q care maximizează această probabilitate. Se obţine q = x/n, adică proporţia de apariţii a faţetei dorite în cele n aruncări.
Estimator (Estimator)
Un estimator este o regulă de ghicire, pe baza datelor dintr‑un eşantion aleator, a valorii unui parametru al populaţiei. În general, o statistică este utilizată ca estimator. Estimatorul este o variabilă aleatoare tocmai pentru că valoarea lui depinde de eşantionul obţinut în mod aleatoriu. Un exemplu este media eşantionului, care estimează media populaţiei.
Cele trei caracteristici importante ale unui estimator sunt deplasarea (bias), consistenţa şi eficienţa relativă.
Eveniment (Event)
Un eveniment este o submulţime a spaţiului ieşirilor. Un eveniment determinat de o v.a. este de forma A=(X Î A). Atunci când v.a. X este observată, se interpretează că evenimentul A s‑a realizat dacă X Î A şi că A nu s‑a realizat dacă X Ï A.
O colecţie de evenimente {A1, A2, A3, . . . } este exhaustivă dacă se realizează întotdeauna cel puţin un eveniment din colecţie
S = A1 U A2 U A3 U . . .
unde S este spaţiul ieşirilor.
Eveniment aleator (Random Event)
Vezi experiment aleator.
Eveniment sigur (Certain Event)
Un eveniment sigur este un eveniment a cărui probabilitate este egală cu 1. Trebuie totuşi avut în vedere că se poate ca un eveniment sigur să nu se producă, deşi şansa de a nu se produce este 0.
Evenimente dependente (Dependent Events)
Două evenimente sunt dependente dacă ele nu sunt independente.
Evenimente disjuncte sau mutual exclusive (Disjoint or Mutually Exclusive Events)
Două evenimente sunt disjuncte dacă apariţia unuia dintre ele exclude apariţia celuilalt (cele două evenimente nu pot să apară simultan). Două evenimente disjuncte sunt incompatibile.
Evenimente incompatibile
Dacă AÇB = Æ, atunci ele sunt incompatibile. Vezi evenimente disjuncte.
Evenimente independente (Independent events)
Dacă P(A|B) = P(A), adică P(AÇB)=P(A)P(B), atunci evenimentele se numesc independente (probabilitatea de realizare a lui A nu este modificată de realizarea lui B).
Experiment (Experiment)
Distincţia dintre un experiment şi un studiu observaţional este aceea că în primul caz experimentatorul decide cine este supus unui tratament.
Experiment aleator (Random Experiment)
Un experiment sau o încercare al cărui rezultat nu este perfect predictibil, dar pentru care frecvenţele relative ale rezultatelor într‑un număr mare de repetări sunt predictibile. De notat că “aleatoriu” este diferit de “haotic”, care nu implică în mod necesar regularitate pe termen lung.
Experiment controlat (Controlled experiment)
Un experiment care utilizează compararea dintre un grup experimental (supus unui tratament) şi un grup de control (nesupus tratamentului).
Experiment controlat randomizat (Randomized Controlled Experiment)
Este un experiment în care asignarea indivizilor la grupul de control şi la grupul experimental se realizează aleatoriu. În acest mod se reduce şansa de confundare a efectului tratamentului efectuat cu efectul altor factori.
Experiment necontrolat (Uncontrolled Experiment)
Un experiment în care nu există grup de control, deci nu se utilizează o metodă de comparare pentru a decide asupra rezultatului unui tratament. Experimentatorul interpretează şi apreciază rezultatele obţinute.
F
Factor (Factor)
Denumirea de factor este utilizată ca alternativă, cu încărcătura de înţeles proprie totuşi, la denumirea de variabilă independentă. Se poate astfel vorbi de experimente unifactoriale, bifactoriale, multifactoriale, după numărul de factori (variabile independente) consideraţi pentru explicarea unui anumit efect (variabilă dependentă).
Pot fi consideraţi factori inter‑subiecţi (between‑subjects factors) în cazul în care grupuri diferite de subiecţi sunt utilizate pentru fiecare nivel al factorului, sau factori intra‑subiecţi (within‑subjects factors) în cazul în care acelaşi grup de subiecţi este utilizat pentru fiecare nivel al factorului. Evident că se pot utiliza şi denumirile variabilă inter‑subiecţi sau variabilă intra‑subiecţi.
Funcţia de repartiţie (Distribution Function)
Funcţia de repartiţie a unei variabile aleatoare este definită prin
F(x) = P( X <= x), oricare ar fi x real.
Funcţia de repartiţie, calculată pentru x, măsoară şansa ca v.a. X ia valori mai mici sau egale cu x. Rezultă imediat că limita la -µ este 0, iar limita la +µ este 1.
Cunoaşterea funcţiei de repartiţie a unei v.a. permite calcularea probabilităţilor cu care v.a. ia valori în anumite intervale.
Funcţie de densitate de probabilitate (Probability density function)
Pentru o v.a. continuă, numim densitate de probabilitate acea funcţie (dacă există), f, astfel încât funcţia de repartiţie se poate calcula prin relaţia
Funcţia de repartiţie este, în acest caz, absolut continuă.
Funcţia densitate de probabilitate permite calculul probabilităţii ca v.a. să aparţină unui interval:
P(a<= X <=b) = (aria de sub graficul lui f limitată de a şi b), unde a <= b,
Funcţie de distribuţie empirică (Distribution Function, Empirical)
Funcţia (cumulativă) de distribuţie empirică a unui set de valori numerice este definită, pentru orice valoare reală x, ca proporţia de observaţii mai mici sau egale cu x. Diagrama unei astfel de funcţii este un grafic de tip scară, în care lăţimea unei trepte depinde de distanţa dintre date consecutive, iar înălţimea depinde de numărul de valori egale cu x. Funcţia este monotonă şi are limita 0 spre -µ şi 1 spre +µ.
G
Grade de libertate (degrees of freedom, d.f.)
În general, prin număr de grade de libertate al unei mărimi se înţelege numărul variabilelor independente a căror variaţie nu suferă nici o restricţie şi care definesc mărimea considerată. Altfel spus, numărul gradelor de libertate este egal cu numărul variabilelor independente, care definesc mărimea considerată, minus numărul de restricţii la care sunt supuse.
De exemplu, media aritmetică a n numere are n-1 grade de libertate, deoarece pentru a obţine o valoare impusă se pot alege arbitrar n-1 valori, a n‑a valoare fiind în acel moment fixată de restricţia ca valoarea mediei să fie egală cu valoarea impusă (altfel spus, n valori şi o restricţie, deci n = n-1).
Un alt punct de vedere este acela că numărul gradelor de libertate este egal cu numărul valorilor independente care sunt necesare estimării minus numărul parametrilor estimaţi în paşi anteriori: de exemplu, pentru estimarea dispersiei se consideră cele n valori, dar este necesară estimarea prealabilă a mediei, deci n‑1 grade de libertate.
Graficul mediilor (Graph of Averages)
Pentru date bivariate, un grafic al mediilor este diagrama valorilor medii ale unei variabile, fie ea y, obţinute pentru intervale de valori ale celeilalte variabile, fie ea x, în raport de mijloacele intervalelor xconsiderate. Intuitiv, are loc o netezire a valorilor y pe intervale x, valorile obţinute fiind reprezentate la abscisele mijloacelor intervalelor x respective.
Grup de control (Control group)
Este, într‑un experiment controlat, mulţimea subiecţilor care nu sunt supuşi tratamentului. Rezultatele se vor compara cu cele din grupul experimental pentru a decide asupra efectului tratamentului.
Grup de tratament (Treatment group)
Este format din elementele care primesc (urmează) tratamentul, în opoziţie cu cele din grupul de control. Diferenţele observate între cele două grupuri evidenţiază efectul tratamentului.
H
Heteroscedasticitate (Heteroscedasticity)
La date bivariate, variabila y prezintă heteroscedasticitate dacă împrăştierea valorilor y depinde de x. Grafic, secţiunile verticale în diagrama de împrăştiere prezintă distribuţii diferite ale norilor de puncte. Noţiunea contrară este cea de homoscedasticitate.
Histogramă (Histogram)
O histogramă este o diagramă care rezumă distribuţia datelor. Pornind de la o împărţire în intervale de clase, histograma este o mulţime de dreptunghiuri având ca baze intervalele de clase şi ariile proporţionale cu numărul de observaţii aparţinând intervalelor de clasă. Astfel, înălţimea unui dreptunghi este calculată ca raportul dintre numărul de observaţii din intervalul de clasă şi lungimea respectivului interval. Axa verticală a unei histograme este astfel o scală de densitate. În construcţia unei histograme este importantă convenţia punctului extrem.
Histogramă de probabilitate (Probability Histogram)
Într‑o histogramă de probabilitate se reprezintă grafic probabilităţile cu care v.a. aparţine la intervalele de grupare (în loc de frecvenţele relative se utilizează probabilităţile).
Homoscedasticitate (Homoscedasticity)
La date bivariate, variabila y prezintă homoscedasticitate dacă împrăştierea valorilor y nu depinde de x. Grafic, secţiunile verticale în diagrama de împrăştiere prezintă distribuţii similare ale norilor de puncte. Noţiunea contrară este cea de heteroscedasticitate.
I
Iluzia regresiei (Regression Fallacy)
Este atribuirea efectului regresiei unei cauze externe.
Independenţă (Independence)
Două evenimente A şi B sunt independente statistic dacă P(AB) = P(A)P(B). Aceasta este echivalent cu a spune că apariţia unui eveniment nu dă nici o informaţie despre realizarea celuilalt eveniment: P(A|B) = P(A).
Două v.a. X şi Y sunt independente dacă toate evenimentele determinate de acestea sunt independente (de exemplu, evenimentul {a < X <= b} este independent de {c < Y <= d} pentru orice a, b, cşi d. Cu alte cuvinte valoarea luată de o variabilă nu oferă nici o informaţie despre valoarea luată de cealaltă variabilă.
O colecţie de mai mult de două v.a. este independentă dacă pentru orice submulţime proprie de v.a. orice eveniment determinat de variabilele din submulţime este independent de orice eveniment determinat de variabilele din mulţimea complementară.
Două sau mai multe v.a. {X1, X2, . . . , } sunt independente şi identic distribuite dacă variabilele au aceeaşi distribuţie de probabilitate şi sunt independente.
Două observaţii sunt independente dacă obţinerea primei observaţii nu influenţează obţinerea celeilalte observaţii. Echivalent, includerea în eşantion a unui element nu influenţează includerea altui element.
Două statistici sunt independente dacă sunt calculate din eşantioane independente (sunt formate din observaţii independente). Este evident că această precizare completează definiţia dată la independenţa v.a.
Inegalitatea Chebychev (Chebychev’s Inequality)
Pentru liste: Pentru orice k>0, proporţia elementelor listei care diferă de media aritmetică cu cel puţin k abateri standard este cel mult 1/k2.
Pentru v.a.: Pentru orice k>0, probabilitatea ca o v.a. X să difere cu cel puţin k erori standard de valoarea aşteptată este cel mult 1/k2.
Inegalitatea lui Markov (Markov’s Inequality)
Pentru serii numerice nenegative: procentajul de numere care sunt cel puţin egale cu o constantă a>0 nu este mai mare decât media aritmetică divizată prin a.
Pentru v.a.: dacă X este o v.a. nenegativă, atunci P(X>= a) <= Exp(X)/a, a>0.
Indice de aplatizare (Kurtosis)
Mai este denumit coeficient de boltire. Împreună cu indicele de asimetrie, face parte din indicii de apreciere a formei unei distribuţii. Un indice de aplatizare mare arată o repartiţie cu “cozi” mari (sunt prezente categorii depărtate de medie), în timp ce un indice de aplatizare mic arată o repartiţie în care sunt prezente mai puţine categorii depărtate de medie.
Formula de calcul este bazată pe momentul centrat de ordinul 4:
unde s2 este dispersia de sondaj.
În cazul unei repartiţii apropiate de repartiţia normală, coeficientul de aplatizare este în jurul valorii 3 (teoretic, repartiţia normală are indicele de aplatizare b2 = 3, b2 fiind o estimaţie a lui b2). Pe baza acestui rezultat se defineşte excesul ca fiind
E = b2 – 3. Pentru E > 0, repartiţia se numeşte leptocurtică, iar pentru E < 0, se numeşte platicurtică. Dacă E = 0, repartiţia este mezocurtică.
La aproximarea prin repartiţia normală, probabilităţile laterale reale vor fi mai mari decât cele aproximate în cazul unei repartiţii platicurtice şi vor fi mai mici în cazul unei repartiţii leptocurtice. Aproximarea este cu atât mai bună cu cât excesul de sondaj este mai apropiat de 0.
Observaţie. Unii autori numesc excesul ca fiind indicele de aplatizare.
Indice de asimetrie (Skewness)
Denumit şi coeficientul de asimetrie, evaluează gradul de asimetrie a unei repartiţii. Caracterizează, împreună cu indicele de aplatizare, forma repartiţiei (ilustrată de reprezentarea grafică sub formă de histogramă). Definiţia este bazată pe momentul centrat de ordinul 3:
Indicele de asimetrie este negativ sau pozitiv după cum repartiţia de sondaj este asimetrică spre stânga sau, respectiv, spre dreapta. O distribuţie simetrică, cum este distribuţia normală, are asimetria nulă, deci b1 = 0.
În general, cu rare excepţii provenite din realitate, o distribuţie asimetric pozitiv are media mai mare decât mediana, relaţia inversându‑se pentru distribuţiile cu asimetrie negativă.
Unii autori consideră drept coeficient de asimetrie (b1)2, valoarea obţinută caracterizând gradul de asimetrie, dar nu şi sensul asimetriei.
Interacţiune (Interaction)
Există interacţiune între două variabile independente dacă efectul unei variabile asupra variabilei dependente este diferit după nivelul celeilalte variabile.
Luând ca exemplu un studiu în care se urmăreşte efectul consumului de alcool şi a oboselii (variabile independente) asupra timpului de reacţie la un stimul (variabila dependentă), se poate intui că un consum mare de alcool are un efect mai mare la un grad înalt de oboseală decât la un grad scăzut de oboseală, prin urmare există interacţiune între cele două variabile.
Interacţiunea poate fi detectată prin analiza dispersională (ANOVA) sau, grafic, prin plotarea separată a liniilor/coloanelor unui tabel de contingenţă – poligoane paralele vor susţine lipsa de interacţiune.
Interval de clasă (Class Interval)
Pentru rezumarea datelor continue (reprezentări grafice, calculul anumitor statistici, raportare), este necesară uneori gruparea datelor. Aceasta se realizează prin divizarea domeniului valorilor în intervale disjuncte, numite intervale de clasă (sau intervale de grupare), astfel încât fiecare valoare să fie conţinută într‑un interval de clasă. Vezi şi convenţia punctului extrem.
Interval de încredere (Confidence Interval)
Un interval de încredere pentru un parametru este un interval construit pe baza datelor observate în aşa fel încât probabilitatea ca valoarea adevărată a parametrului să aparţină intervalului de încredere să poată fi fixată independent de date (de regulă, înaintea culegerii datelor). Dacă notăm cu l valoarea parametrului şi cu m1, m2 limitele intervalului de încredere, atunci P(m1<l<m2)=1-a,
unde a este pragul (nivelul) de încredere al intervalului, iar 1-a se numeşte siguranţa statistică. Ca exprimare, se poate spune că (m1; m2) este intervalul de încredere a parametrului l cu siguranţa statistică 1-a sau la pragul de încredere a.
Dacă m1 sau m2 sunt infinite, atunci intervalul de încredere se mai numeşte unilateral, în situaţia contrară vorbindu‑se de un interval de încredere bilateral.
Interval de încredere bazat pe repartiţia normală
Dacă pentru estimarea unui parametru l se utilizează o statistică, notată stat, normal distribuită, cu eroarea standard sstat cunoscută, atunci intervalul de încredere bilateral, la nivelul de încredere, este
(stat ‑ z1-a/2 ´ sstat, stat + z1-a/2 ´ sstat)
unde z1-a/2 este quantila de ordin 1-a/2 a repartiţiei normale standard.
Astfel, pentru media aritmetică m a populaţiei se obţine intervalul
,
unde s este abaterea standard a populaţiei, iar n este volumul eşantionului de unde s‑a calculat media de sondaj.
Interval de încredere bazat pe repartiţia Student
Situaţia uzuală este aceea în care eroarea standard a statisticii este şi ea estimată din eşantion. În acest caz, intervalul de încredere devine
(stat ‑ tn;1-a/2 ´ sstat, stat + tn;1-a/2 ´ sstat),
unde tn;1-a/2 este quantila de ordin 1-a/2 a repartiţiei Student cu n grade de libertate (asociate statisticii), iar sstat este eroarea standard estimată a statisticii.
În cazul mediei aritmetice, intervalul de încredere bilateral este astfel
,
unde s este abaterea standard de sondaj (estimaţie a abaterii standard a populaţiei), iar n este volumul eşantionului.
Interval semiinterquartil (Semi-interquartile Range)
Ca măsură a împrăştierii, intervalul semiinterquartil este definit ca jumătate din diferenţa dintre quartila a patra şi quartila a doua: Q = (Q3-Q1)/2.
Este raportat de regulă împreună cu mediana, acceptându‑se astfel că jumătate dintre observaţii sunt situate în intervalul (Me - Q; Me + Q), afirmaţie care este departe de realitate în cazul distribuţiilor cu asimetrie pronunţată.
Invarianţă, rezistenţă, stabilitate a unei statistici (Resistant)
O statistică se zice rezistentă (stabilă) dacă prin modificarea (coruperea) unei date statistica nu se modifică prea mult. De exemplu, media nu este rezistentă, în timp ce mediana este.
Ipoteză alternativă (Alternative Hypothesis)
În testarea ipotezelor statistice, o ipoteza nulă (cu semnificaţia tipică a lipsei unui efect) este opusă unei negaţii a ei, ipoteza alternativă (semnificând uzual existenţa aparentă a unui efect). Ipoteza nulă constituie baza raţionamentului prin care se calculează probabilitatea de apariţie a situaţiei observate. Dacă această probabilitate este suficient de mică (prin comparaţia cu un prag de semnificaţie fixat), atunci se spune că datele de sondaj nu susţin ipoteza nulă şi aceasta este respinsă în favoarea ipotezei alternative. Este de remarcat că această decizie nu înseamnă că situaţia observată este caracteristică ipotezei alternative, sau că ipoteza nulă este falsă, sau că ipoteze alternativă este adevărată.
Ipoteză nulă (Null hypothesis)
În testarea ipotezelor statistice, prin ipoteza nulă se înţelege acea ipoteză sub care se poate preciza repartiţia statisticii testului. Astfel, ipoteza nulă este cea falsificabilă (pentru care se poate decide falsitatea, în sensul paradigmei falsificabilităţii din filosofia cercetării ştiinţifice) pe baza datelor experimentale. De regulă, ipoteza nulă exprimă că nu este prezent ceva, că nu există nici un efect, că nu există nici o diferenţă (de unde şi motivaţia istorică a termenului de ipoteză nulă).
Împrăştiere (Spread)
Arată gradul de modificare a valorilor unei variabile de la o observaţie la alta. Ca termeni sinonimi sunt varianţa, variabilitatea, dispersia. Importanţa aprecierii gradului de împrăştiere este dată de însăşi motivaţia statisticii: pentru o variabilă constantă nu este nevoie de statistică.
Pentru măsurarea împrăştierii se utilizează diferiţi indicatori statistici: IQV, quantile, dispersia, abaterea standard etc.
Este de notat, totuşi, că nu există o măsură absolută a împrăştierii, gradul de împrăştiere poate fi apreciat doar relativ, prin comparare.
Intuitiv, gradul de împrăştiere a unei variabile poate fi apreciat prin asimilarea histogramei cu o grămadă de nisip, despre împrăştierea căreia ne formăm imediat o părere.
K
Kurtosis
Vezi indice de aplatizare.
L
Legea empirică a mediilor (Empirical Law of Averages)
Legea afirmă că dacă se repetă un experiment aleatoriu, în mod independent şi în condiţii identice, atunci proporţia de încercări cu un rezultat dat converge la o limită interpretată ca probabilitate. Legea empirică a mediilor stă la baza teoriei probabilităţilor ca frecvenţe şi este mai degrabă o presupunere asupra funcţionării lumii reale, decât o lege matematică sau fizică.
Legea mediilor (Law of Averages)
Legea mediilor afirmă că dacă X1, X2, X3, . . . , sunt v.a. independente cu aceeaşi distribuţie de probabilitate, iar E(X) este valoarea aşteptată comună, atunci pentru orice e > 0,
P{|(X1 + X2 + . . . + Xn)/n – E(X) | < e}
converge la 1 după n. Echivalent, şirul de medii de sondaj
X1, (X1+X2)/2, (X1+X2+X3)/3, . . .
converge în probabilitate către E(X).
În cuvinte, legea mediilor afirmă că media observaţiilor independente ale unor v.a., care au aceeaşi distribuţie de probabilitate, se apropie de valoarea aşteptată a v.a. pe măsură ce creşte numărul de observaţii. Acesta este, de fapt, fundamentul multor aplicaţii statistice.
Legea numerelor mari (Law of Large Numbers)
Legea numerelor mari afirmă că în încercări repetate, independente şi cu aceeaşi probabilitate p de succes în fiecare încercare se tinde ca procentajul succeselor să fie egal cu p. Mai precis, şansa ca procentajul succeselor să difere de probabilitatea p cu mai mult de un o cantitate fixată, e > 0, converge la zero atunci când numărul de încercări tinde la infinit, pentru orice e > 0. De notat că, spre deosebire de diferenţa dintre procentajul succeselor şi probabilitatea unui succes, diferenţa dintre numărul de succese realizate şi numărul aşteptat de succese, n×p, tinde să crească pe măsură ce ncreşte.
Legea rădăcinii pătrate (Square-Root Law)
Legea rădăcinii pătrate afirmă că eroarea standard (SE) a sumei de sondaj a n extrageri aleatorii cu repunere dintr‑o urnă cu bilete numerotate este
SE(suma de sondaj) = n½×SD(urnă),
iar eroarea standard a mediei de sondaj a n extrageri aleatorii cu repunere dintr‑o urnă cu bilete numerotate este
SE(media de sondaj) = n-½×SD(urnă),
unde SD(urnă) este abaterea standard a numerelor de pe biletele din urnă (incuzând valorile repetate)
Limită de clasă (Class Boundary)
La date continue grupate pe intervale, o limită de clasa este extremitatea din stânga a unui interval de clasă şi extremitatea din dreapta a intervalului anterior.
Linia abaterilor standard (SD line)
Într‑o diagramă de împrăştiere, linia abaterilor standard este dreapta care trece prin punctul având drept coordonate mediile celor două variabile şi care are panta egală cu raportul abaterilor standard ale celor două variabile.
Din ecuaţia liniei abaterilor standard,
se poate vedea că un punct de coordonate (x,y) de pe dreaptă este caracterizat prin aceea că valorile x şi y sunt egal depărtate în unităţi abateri standard de mediile corespunzătoare.
Un punct situat deasupra liniei abaterilor standard este mai depărtat de media variabilei y decât de media variabilei x, în unităţi abateri standard.
Localizare, Măsură de ~ (Location, Measure of)
O măsură de localizare este o rezumare, printr‑o singură valoare, a unei distribuţii şi oferă informaţii asupra locului unde sunt localizate valorile. Vezi media, mediana, valoarea mod.
M
Marginea erorii (Margin of error)
O măsură a incertitudinii din estimaţia unui parametru, noţiune neacceptată de toţi statisticienii şi suficient de neclară. În mod tipic, atunci când este utilizată, reprezintă eroarea standard a estimaţiei sau dublul acesteia.
Măsură de împrăştiere (Spread, Measure of)
Un indicator statistic pentru aprecierea gradului de împrăştiere a unei variabile. Cunoaşterea gradului de împrăştiere măreşte puterea de predicţie a indicatorului de tendinţă centrală asociat. De exemplu, media are o putere de predicţie mai bună dacă este asociată cu o abatere standard mică.
Fiecare tip de variabilă are anumiţi indicatori de împrăştiere adecvaţi. Pentru variabilele nominale se utilizează IQV (indicele de variaţie calitativă) sau entropia, pentru variabilele ordinale se utilizează IQV sau un sistem de quantile, iar pentru variabilele continue sunt utilizate amplitudinea, abaterea standard, un sistem de quantile etc.
Media de sondaj (Sample Mean)
Este media aritmetică a unui eşantion (aleatoriu) dintr‑o populaţie. Presupunând că există n date, {x1, x2, . . . , xn}, media de sondaj este (x1 + x2 + . . . + xn)/n.
Ca statistică, este utilizată frecvent pentru estimarea mediei populaţiei.
Valoarea aşteptată a mediei de sondaj este media populaţiei.
Într‑un sondaj cu repunere, abaterea standard a mediei de sondaj este egală
unde s este abaterea standard a populaţiei iar n este volumul eşantionului. Într‑un sondaj fără repunere, abaterea standard a mediei de sondaj este egală cu
unde primul factor reprezintă corecţia de populaţie finită, iar N este volumul populaţiei. Pentru , cele două formule devin egale.
Media geometrică (Geometric Mean)
Media geometrică a n numere {x1, x2, x3, . . . , xn} este rădăcina de ordin n a produsului lor:
(x1×x2×x3× . . . ×xn)1/n.
Dacă numerele reprezintă, de exemplu, ritmuri de creştere, atunci media geometrică exprimă ritmul mediu de creştere.
Media populaţiei (Population Mean)
Este media numerelor dintr‑o populaţie numerică. Această valoare este un parametru al populaţiei, spre deosebire de media calculată dintr‑un eşantion, care este doar o estimaţie a parametrului.
Media redusă (Trimmed Mean)
Media redusă se calculează prin eliminarea unui procentaj din valorile extreme, sau a unui număr de valori extreme şi calcularea mediei aritmetice pentru valorile păstrate. În acest mod se obţine o influenţă mai mică a valorilor extreme, ca şi o fluctuaţie de sondaj mai mică în cazul distribuţiilor asimetrice. Pe de altă parte, în cazul distribuţiilor simetrice, media redusă este mai puţin eficientă decât media aritmetică. Media redusă poate fi o opţiune bună atunci când distribuţia de sondaj conţine valori aberante.
Cazuri particulare sunt mediana (media redusă 100%) şi media aritmetică (obţinută ca o medie redusă 0%).
Mediană (Median)
Valoarea de mijloc a unei distribuţii, este definită drept cel mai mic număr astfel încât jumătate dintre valori să nu fie mai mari decât el. Cu alte cuvinte, jumătate dintre valori sunt mai mici sau egale cu mediana, jumătate sunt mai mari decât mediana. De remarcat că, deşi este utilizat în general ca un indicator de tendinţă centrală, mediana oferă mai degrabă informaţii asupra repartizării observaţiilor (indicator de împrăştiere). De regulă, mediana este raportată împreună cu quartilele distribuţiei în aşa‑zisa rezumare prin cinci valori.
Dacă x1, x2, . . . , xN sunt valorile observate, mediana este calculată, după ordonarea crescătoare a valorilor, x(1) <= x(2)<= . . . <= x(N), prin
.
Este de notat că mediana realizează minimul sumei abaterilor absolute ale valorilor distribuţiei de la un punct fixat:
S |xi – m| este minimă pentru m egală cu mediana distribuţiei (în cazul unui număr par de valori, mediana – aşa cum a fost definită – nu este singura valoare cu această proprietate.
Medie (Average)
Un termen suficient de vag, precizat de context. Uzual, reprezintă media aritmetică, dar poate desemna mediana, valoarea mod, media geometrică etc.
Mod, Valoare mod (Mode)
Valoarea mod este cea mai frecventă valoare dintr‑o mulţime de valori. Grafic, dintr‑o histogramă, o valoare mod este identificată printr‑un maxim relativ. O distribuţie poate avea astfel mai multe valori mod (distribuţii unimodale, bimodale etc.).
Moment (Moment)
Momentul de ordin k al unui şir de valori este valoarea medie a valorilor ridicate la puterea k. Astfel, dacă lista este x1, x2, . . . , xN, momentul de ordin k este
( x1k + x2k + xNk )/N.
Momentul de ordin k al unei v.a. X este valoarea aşteptată a v.a. Xk, adică Exp(Xk).
Multiplicitate în testarea ipotezelor (Multiplicity in hypothesis tests)
În testarea ipotezelor, dacă se verifică mai multe ipoteze alternative (în teste separate, evident), nivelul de semnificaţie real al testelor combinate este diferit de nivelul de semnificaţie al unui test individual. În aceste situaţii se recomandă aplicarea unei proceduri de comparaţie multiplă sau analiza varianţei.
N
Necorelat (Uncorrelated)
Un set de date bivariate este necorelat dacă are un coeficient de corelaţie egal cu zero. Două variabile aleatoare sunt necorelate dacă valoarea aşteptată a produsului lor este egală cu produsul valorilor aşteptate ale celor două variabile.
Dacă două variabile aleatoare sunt independente, atunci ele sunt necorelate (relaţia inversă nu este adevărată, în general).
Nedeplasat(ă) (Unbiased)
Se spune despre o statistică pentru care deplasarea (bias‑ul) este zero.
Nici o cauzalitate fără manipulare (No causation without manipulation)
Un dicton atribuit lui Paul Holland. Dacă nu s-au controlat condiţiile (de exemplu, dacă situaţia cercetată este un studiu observaţional şi nu un experiment), atunci este impropriu să se tragă concluzia unei legături cauzale între rezultat şi condiţii. Vezi şi post hoc ergo propter hoc.
Nivel al unui factor (Level of a Factor)
Prin nivel al unui factor se înţelege o valoare luată de factorul respectiv (factor este o variabila independentă dintr‑un studiu). Un factor trebuie să aibă cel puţin două nivele pentru a putea evidenţia influenţa sa.
Non‑răspuns (Nonresponse)
În anumite studii (eşantion format prin apel telefonic, chestionar prin poştă etc.) se poate întâmpla ca unii subiecţi să nu răspundă. Numărul acestor non‑răspunsuri poate influenţa reprezentativitatea eşantionului sau denatura predicţiile.
O
Odds
Termen intraductibil aproape în limba română, reprezintă, pentru un eveniment, raportul dintre probabilitatea ca evenimentul să se realizeze şi probabilitatea ca evenimentul să nu se realizeze. Este o şansa în favoarea evenimentului considerat.
De exemplu, presupunând că un eveniment are n rezultate posibile, toate egal probabile, şi că un număr de k rezultate pot fi interpretate drept “câştig”, restul de n-k fiind interpretate drept “pierdere”, şansa (odds) în favoarea câştigului este de (k/n)/((n-k)/n) = k/(n-k), care este egal cu numărul cazurilor favorabile supra numărul cazurilor nefavorabile. Deşi odds nu este sinonim unei probabilităţi, cele două noţiuni sunt convertibile una în cealaltă: dacă şansa în favoarea unui eveniment este q, atunci probabilitatea evenimentului este q/(1+q); dacă probabilitatea unui eveniment este p, şansele (odds) în favoarea evenimentului sunt p/(1-p) iar şansele împotriva evenimentului sunt (1-p)/p.
Orb, Experiment orb (Blind, Blind Experiment)
Intr‑un experiment orb, subiecţii nu cunosc dacă aparţin grupului de control sau celui experimental. De regulă, în studii medicale, subiecţilor din grupul de control li se administrează un placebo, pentru a se asigura condiţia de experiment orb.
P
Paradoxul lui Simpson (Simpson’s Paradox)
Ceea ce este adevărat pentru părţi nu este în mod necesar adevărat şi pentru întreg. Vezi şi confundare.
Parametru (Parameter)
Prin parametru se înţelege o proprietate numerică a unei populaţii. Astfel media populaţiei este un parametru al populaţiei. Cunoaşterea valorii adevărate a parametrului face inutilă operaţiunea statistică de estimare a acestuia dintr‑un eşantion. Cum, de regulă, valoarea unui parametru nu este cunoscută, acesta se va estima prin valoarea unei statistici (estimatorul parametrului) calculate dintr‑un eşantion.
Percentilă (Percentile)
Percentila de ordin p a unei serii numerice (observate) este cel mai mic număr astfel încât cel puţin p% dintre numere nu sunt mai mari decât el. Percentila de ordin p a unei v.a. este cel mai mic număr astfel încât probabilitatea ca v.a. să ia valori nu mai mari decât el să fie p. Vezi şi quantile.
Placebo
Un tratament fictiv care nu are efect farmacologic. Este administrat grupului de control.
Plan factorial (Factorial Design)
Noţiunea apare atunci când se planifică experimentele în aşa fel încât să se poată decide asupra influenţelor mai multor factori şi a interacţiunilor dintre factori asupra unei variabile dependente.
Un plan factorial complet apare atunci când se fac determinări experimentale pentru fiecare combinaţie posibilă de nivele ale factorilor.
Există şi posibilitatea reducerii numărului de determinări prin aceea că anumite combinaţii de nivele nu sunt studiate. În acest caz se utilizează planuri factoriale particulare: pătrate latine etc.
Plan intra‑subiecţi (Within-subjects Design)
Este un plan de experienţe în care una sau mai multe variabile independente sunt variabile intra‑subiecţi.
Într‑un asemenea plan, fiecare subiect fiind evaluat la fiecare nivel al factorului, se pot evidenţia diferenţele dintre subiecţi. De observat că într‑un plan între‑subiecţi aceste diferenţe nu sunt evidenţiabile şi sunt, prin urmare, incluse în erori. Considerarea unui plan intra‑subiecţi măreşte puterea testelor de semnificaţie.
De remarcat, totuşi, că efectele de transport (carryover effects) pot impune alegerea unui plan experimental între‑subiecţi.
Plan între‑subiecţi (Between-subjects Design)
Este un plan de experienţe în care variabilele independente sunt variabile între‑subiecţi. Nu se pot evidenţia diferenţele dintre subiecţi.
Poligon de frecvenţe (Frequency Polygon)
Reprezentare grafică a unei distribuţii de frecvenţe pentru o variabilă continuă: pe axa Ox se reprezintă intervalele de grupare; pentru fiecare interval se reprezintă punctul de coordonate (ci, fi), unde cieste mijlocul intervalului iar fi este frecvenţa corespunzătoare; punctele astfel obţinute sunt unite prin segmente.
Un poligon de frecvenţe oferă o imagine a formei distribuţiei. Dacă frecvenţele sunt relative, atunci se obţine poligonul frecvenţelor relative care permite aproximarea procentajului de observaţii situate între două valori x, similar utilizării densităţii de probabilitate.
Dacă frecvenţele sunt (relative) cumulate, se obţine poligonul frecvenţelor (relative) cumulate, care permite, similar funcţiei de repartiţie, aproximarea quantilelor distribuţiei.
Populaţie (Population)
O colecţie de elemente (unităţi) care sunt de interes pentru studiu. O mare parte a statisticii are ca obiect estimarea numerică a parametrilor populaţiei pornind de la observarea unui eşantion.
Populaţie ţintă (Target Population)
Prin populaţie ţintă se înţelege întregul grup de interes într‑o cercetare, adică acel grup pentru care cercetătorul doreşte să obţină concluzii şi studiul efectuat.
Post hoc ergo propter hoc
“După aceasta, deci din cauza acesteia.” O eroare de logică, cunoscută de mult, care afirmă existenţa unei relaţii cauzale datorită observării unei corelaţii (asocieri).
Precizie (Precision)
Precizia este o măsură a cât de aproape este un estimator de valoarea adevărată a unui parametru. Este exprimată uzual în termeni de imprecizie şi asociată cu eroarea standard a estimatorului. O precizie mai mică se reflectă într‑o valoare mai mare a erorii standard.
Prima facie
“La prima vedere”. O evidenţă prima facie este informaţia care sprijină concluzia la o privire sumară, imediată. La o analiză mai profundă, s-ar putea ca aceasta să nu reziste, să existe o altă explicaţie.
Probabilitate (Probability)
Probabilitatea unui eveniment este un număr pÎ[0,1], interpretată deseori procentual, p%. Înţelesul, semnificaţia, unei probabilităţi este subiectul teoriei probabilităţilor, cu menţiunea că după şcoala ştiinţifică, interpretările pot fi diferite. Totuşi, orice regulă de asignare a probabilităţilor la evenimente trebuie să satisfacă axiomele probabilităţii.
Probabilitate condiţionată (Conditional probability)
Se numeşte probabilitatea evenimentului A condiţionată de evenimentul B, notată P(A|B), raportul P(A|B) = P(AÇB)/P(B), unde P(B)¹0, interpretat ca probabilitatea de apariţie a evenimentului A ştiind că s‑a realizat evenimentul B.
Procentaj de sondaj (Sample Percentage)
Este procentajul elementelor dintr‑un eşantion (aleatoriu) care au o anumită proprietate. Ca statistică, este utilizată frecvent pentru estimarea procentajului elementelor cu aceeaşi proprietate din populaţie.
Valoarea aşteptată a procentajului de sondaj este procentajul din populaţie, în cazul în care eşantionul este simplu aleatoriu sau aleatoriu cu repunere.
Abaterea standard a procentajului de sondaj este, pentru un sondaj cu repunere, (p(1-p)/n )½, unde p este procentajul din populaţie iar n este volumul eşantionului. Pentru un sondaj fără repunere dintr‑o populaţie finită, abaterea standard este egală produsul dintre corecţia de populaţie finită şi (p(1-p)/n )½.
Abaterea standard a procentajului de sondaj este estimată adesea prin procedeul de bootstrap.
Proporţie (procentaj) din populaţie (Population Percentage)
Parametru al populaţiei, care arată proporţia elementelor din populaţie având o anumită proprietate.
Punct de rupere (Breakdown Point)
Punctul de rupere al unui estimator este cea mai mică fracţiune de observaţii care pot fi corupte pentru ca estimatorul să ia orice valoare dorim.
Punctul mediilor (Point of Averages)
Într‑o diagramă de împrăştiere, scatterplot, prin punctul mediilor se înţelege punctul care are drept coordonate mediile aritmetice al variabilelor considerate.
Puterea unui test (Power)
Noţiune referitoare la testarea ipotezelor, puterea unui test vis-à-vis de o ipoteză alternativă este probabilitatea ca în test să se respingă, în mod corect, ipoteza nulă atunci când ipoteza alternativă este adevărată. Puterea unui test este definită ca 1-b, unde b este riscul unei erori de speţa a II‑a.
Puterea unui test depinde de test, de nivelul de semnificaţie, de volumul eşantionului, de repartiţia populaţiei şi de alţi factori.
p-value, valoare de probabilitate (Probability Value, p‑value)
Presupunem o familie de teste ale unei ipoteze nule, definite de valori ale nivelului de semnificaţie p. Prin p‑value asociată ipotezei nule, pentru setul de date considerat, se înţelege cel mai mic nivel de semnificaţie p pentru care ipoteza nulă se respinge în toate testele.
Astfel, într‑un test unilateral, dacă X este statistica testului şi notăm cu xp valoarea critică astfel încât respingem H0 pentru X < xp , notăm cu x valoarea observată a lui X, atunci P-value pentru ipoteza nulă şi observaţiile disponibile este cea mai mică valoare p încât x < xp.
Majoritatea programelor dedicate calculelor statistice oferă, la procedurile de testare a ipotezelor, valoarea de probabilitate. Dacă p‑value este mai mică sau egală cu nivelul de semnificaţie a, atunci se respinge ipoteza nulă.
Q
Quantilă (Quantile)
Quantila de ordin q a unei liste de valori numerice (0 < q <= 1) este cel mai mic număr astfel încât o proporţie q de elemente ale listei sunt mai mici sau cel mult egale cu el. Adică, dacă lista conţine nelemente, quantila de ordin q este cel mai mic număr Q astfel încât n×q elemente ale listei sunt mai mici sau egale cu Q.
Problema determinării quantilei de un anumit ordin se complică atunci când lista de valori reprezintă un eşantion dintr‑o anumită populaţie. În acest caz, valoarea calculată drept quantilă trebuie să se refere la populaţie şi nu la eşantion, adică se calculează o estimaţie a quantilei din populaţie. Formulele utilizate de diverse aplicaţii dedicate prelucrărilor statistice pot fi diferite (diferenţele nu sunt însă majore), astfel încât valorile furnizate sunt diferite pentru acelaşi set de intrări. Diferenţa porneşte de la ipoteze suplimentare considerate (distribuţie uniformă, distribuţie normală etc.) care se reflectă în formule de interpolare diferite. Regula de aur în aceste situaţii este: valorile furnizate de astfel de programe se utilizează ca atare, menţionându‑se programul utilizat.
Se utilizează curent notaţia qp pentru quantila de ordin p.
Quartile (Quartiles)
Quantilele de ordin 25%, 50% şi 75% (adică q0,25, q0,5, q0,75) sunt denumite quartile. Ansamblul quartilelor realizează deci o împărţire a datelor în patru seturi de volume egale. Quartila a doua este mediana distribuţiei.
R
Rădăcina medie pătrată (Root-mean-square – RMS)
Este definită ca rădăcina pătrată a mediei pătratelor elementelor. Este o măsură a mărimii medii a elementelor.
Rang percentil (Percentile Rank)
Rangul percentil al unui element dintr‑o repartiţie de valori numerice este definit ca proporţia numerelor care sunt mai mici sau egale cu numărul considerat. Este utilizat pentru fixarea locului ierarhic ocupat de un element: dacă un elev are nota 9,25 la matematică şi 94% dintre elevi au note mai mici sau egale cu 9,25, atunci rangul percentil al elevului este 94.
Rata de descoperire falsă (False Discovery Rate)
În testarea unei colecţii de ipoteze, rata de descoperire falsă este proporţia ipotezelor nule respinse în mod eronat (raportul dintre numărul de erori de tip I şi numărul de ipoteze nule respinse), cu convenţia că rata de descoperire falsă este zero dacă nu s‑a respins nici o ipoteză nulă.
Rata de non‑răspuns (Nonresponse rate)
Este proporţia de non‑răspunsuri din eşantionul planificat. O rată mare de non‑răspuns conduce la o deplasare de non‑răspuns.
Regiune de respingere (Rejection region)
În testarea ipotezelor statistice, regiunea de respingere este formată din mulţimea acelor valori, la care apartenenţa statisticii testului conduce la respingerea ipotezei nule.
Regresia către medie (Regression Toward the Mean, Regression Effect)
Presupunem că se măsoară două variabile (cum ar fi înălţimea tatălui şi a unui fiu) pentru elementele unei populaţii statistice şi că între acestea există o corelaţie pozitivă (cum este de aşteptat între înălţimi). Dacă, pentru o observaţie, prima valoare măsurată este peste media, atunci şi cea de a doua valoare tinde să fie deasupra mediei, dar la o distanţă mai mică în unităţi abateri standard decât prima valoare. Pentru exemplul considerat, ar rezulta că fii părinţilor înalţi tind să aibă o înălţime mai apropiată de medie (regresia către medie). În cazul unei corelaţii negative, apropierea este din celălalt sens.
Regresie liniară (Regression, Linear Regression)
Date fiind valorile observate pentru două variabile, X şi Y, fie acestea (xi,yi), i=1,…,n, prin funcţie de regresie se va înţelege acea funcţie Y = f(X) care aproximează cel mai bine setul de date observate. De regulă, criteriul ales este acela al celor mai mici pătrate, adică acea funcţie f pentru care se minimizează suma S(yi-f(xi))2. Dacă f este o funcţie liniară, atunci se obţine regresia liniară, reprezentată grafic printr‑o dreaptă (dreapta de regresie).
Dreapta de regresie, împreună cu abaterile standard ale variabilelor X şi Y, sau cu coeficientul de corelaţie, pot constitui o rezumare rezonabilă a distribuţiei comune a celor două variabile. Adecvanţa modelului liniar este mai bună atunci când diagrama de împrăştiere are formă de elipsă.
Regula de multiplicare (Multiplication rule)
Probabilitatea ca evenimentele A şi B să apară simultan (se produce evenimentul AB) este produsul dintre probabilitatea condiţionată P(A|B) şi P(B).
Regula fundamentală de numărare (Fundamental Rule of Counting)
Dacă o secvenţă de experimente sau încercări T1, T2, T3, . . . , Tk poate produce, respectiv, n1, n2, n3, …, nk rezultate posibile şi dacă numerele n1, n2, n3, …, nk nu depind de ieşiri, întreaga secvenţă de k experimente are n1× n2 × n3× . . . × nk ieşiri posibile.
Regula lui Bayes (Bayes’ Rule)
Dacă evenimentele A1 , A2 ,….., An constituie o partiţie a spaţiului de sondaj S şi P(Ai ) > 0, ” i, iar B este un eveniment cu P(B) > 0, atunci
Probabilităţile P(Ai) sunt numite probabilităţi a priori şi sunt cunoscute (determinate pe baza cunoaşterii anterioare). Regula lui Bayes permite actualizarea acestor probabilităţi utilizând informaţia suplimentară că a avut loc evenimentul B.
În cazul când partiţia este formată din A şi nonA, regula devine
P(A|B) = P(B|A) ×P(A) / ( P(B|A)×P(A) + P(B|nonA) ×P(nonA) ).
Reziduu (Residual)
Este definită ca diferenţa dintre o valoare observată şi valoarea prognozată de un model. Diagrama acestor reziduuri în regresia liniară poate să arate inadecvarea modelului.
S
Scală de densitate (Density Scale)
Gradaţiile axei verticale a unei reprezentări grafice (histogramă) sunt procentaje pe unitate de axă orizontală. Aceasta este denumită scală de densitate şi măsoară cât de dense sunt observaţiile în fiecare interval X. Vezi şi densitate de probabilitate.
Scală de rapoarte (Ratio Scale)
Scala de rapoarte este similară scalei de intervale, cu deosebirea că există un punct zero adevărat. Exemplul clasic este al scalei Kelvin de măsurare a temperaturilor, care are un punct de zero absolut: o temperatură de 200°K este de două ori mai mare decât o temperatură de 100°K.
De remarcat că scala Fahrenheit nu respectă această cerinţă, dar este o scală de intervale: diferenţa dintre 10°F şi 20°F este aceeaşi ca diferenţa dintre 15°F şi 25°F.
Scor (Score)
Este o denumire alternativă pentru o valoare observată.
Scor studentizat (Studentized score)
Prin scor studentizat se înţelege transformata Z (valoarea observată a statisticii minus valoarea aşteptată, totul împărţit la eroarea standard estimată a statisticii).
Scor z (z-score)
Valoarea observată a statisticii Z. Se obţine prin transformarea Z a scorurilor observate.
Semnificaţie, Nivel de semnificaţie, Semnificaţie statistică (Significance, Significance level, Statistical significance)
Nivelul de semnificaţie al unui test statistic este probabilitatea (riscul) de a respinge, în mod eronat, ipoteza nulă deşi aceasta este adevărată: nivelul de semnificaţie măsoară riscul de apariţie a unei erori de tip I.
Un fapt statistic este semnificativ dacă produce respingerea ipotezei nule. De exemplu, testând ipoteza “Toate lebedele sunt albe”, un fapt semnificativ este găsirea unei lebede negre. De remarcat, în acest context, că observarea oricâtor lebede albe nu produce nimic semnificativ. Se poate interpreta şi prin aceea că ipoteza nulă reflectă starea actuală de cunoaştere, deci semnificativ este un fapt care respinge ipoteza nulă modificând astfel nivelul de cunoaştere.
Este de notat, totuşi, că un fapt semnificativ statistic nu este, în mod neapărat, semnificativ în lumea reală.
Siguranţă statistică (Confidence Level)
Este probabilitatea ca un interval de încredere al unui parametru să conţină valoarea adevărată a parametrului. Este notată uzual cu 1-a, a fiind pragul (nivelul) de încredere al intervalului. Sensul este acela că dacă se construiesc în mod repetat intervale de încredere plecând de la eşantioane diferite, procentajul intervalelor care conţin valoarea adevărată a parametrului va tinde către siguranţa statistică.
Sondaj (eşantionaj) prin cote (Quota Sampling)
Într‑un eşantionaj prin cote, populaţia este segmentată iniţial în subgrupuri mutual exclusive, ca în eşantionajul stratificat. Din fiecare subgrup se aleg unităţi în proporţii specificate. Acest pas produce caracterul neprobabilist al eşantionajului prin cote.
De exemplu, dacă se ştie că studenţii de la Informatică reprezintă 5% din totalul studenţilor unei universităţi, atunci gruparea populaţiei este dată de facultăţi, se ştie proporţia fiecărui grup, prin urmare într‑un eşantion se va urmări ca doar 5% să fie studenţi de la Informatică.
Ca avantaje se pot cita viteza şi costuri mai mici în obţinerea informaţiei şi un mai mare grad de acceptare sociologică.
Sondaj aleator (Random Sampling)
Este acea tehnică de sondaj în care fiecare element din eşantion este ales la întâmplare şi fiecare element al populaţiei are o probabilitate cunoscută (chiar dacă neegală posibil) de a fi selectat în eşantion. În acest mod se reduce probabilitatea unei deplasări (bias).
Sondaj aleator simplu (Simple Random Sampling)
Este un eşantionaj aleatoriu, în care fiecare element al populaţiei are aceeaşi şansă de a fi selectat în eşantion. Orice eşantion de volum dat are, în consecinţă, aceeaşi probabilitate de a fi ales.
Sondaj independent (Independent Sampling)
Este operaţiunea de eşantionaj în care se obţin eşantioane independente.
Sondaj prin grupuri (Cluster Sampling)
În sondajul de tip cluster, populaţia este divizată în grupuri (clustere) şi este selectat un eşantion din mulţimea de clustere. Toate elementele clusterelor selectate sunt incluse în eşantionul final.
Această tehnică este utilizată, de regulă, atunci când cercetătorul nu poate avea o listă completă a elementelor populaţiei, dar poate dispune de o listă completă a grupurilor. De asemenea, dacă un sondaj aleatoriu ar produce o mulţime de elemente foarte dispersată teritorial astfel încât urmărirea tuturora ar fi foarte scumpă.
De exemplu, un studiu zonal pe o problemă de agricultură ar fi mai economic dacă se aleg la întâmplare o serie de localităţi rurale şi se realizează studiul doar în aceste localităţi (cu urmărirea tuturor activităţilor de interes din fiecare localitate selectate).
Sondaj spaţial (Spatial Sampling)
Se referă la situaţia în care sondajul se realizează pe elemente spaţiale (de exemplu selectarea unor parcele într‑un studiu privind agricultura).
Sondaj stratificat (Stratified Sampling)
Există adesea factori care induc o împărţire a populaţiei în subpopulaţii (grupuri, straturi) şi se doreşte estimarea modului în care un anumit interes variază în funcţie de aceste subpopulaţii. Această împărţire de facto a populaţiei trebuie să fie luată în consideraţie pentru a obţine un eşantion reprezentativ. Sondajul stratificat realizează acest fapt, eşantionul final fiind obţinut prin reunirea eşantioanelor extrase din fiecare strat al populaţiei. Structura eşantionului final trebuie să respecte, de regulă, proporţiile fiecărui strat în populaţie.
Tehnicile de sondaj stratificat sunt prin urmare utilizate atunci când populaţia nu este omogenă, dar se pot identifica straturi omogene. Aceste tehnici pot fi utile şi atunci când se doreşte estimarea parametrilor pentru fiecare subpopulaţie.
Spaţiul rezultatelor (Outcome Space)
Mulţimea tuturor rezultatelor (ieşirilor) posibile într‑un experiment.
Standardizare (Standardize)
Transformarea în unităţi standard.
Statistica c2 (Chi-square Statistic)
Statistica c2 este utilizată pentru a măsura potrivirea dintre date categoriale şi un model multinomial care prognozează frecvenţa relativă a rezultatelor din fiecare categorie posibilă. Să presupunem că există n încercări independente, fiecare având un rezultat din k posibile. Presupunem că în fiecare încercare probabilitatea de apariţie a rezultatului i este pi, i = 1, 2, . . . , k, aceleaşi pentru toate încercările. Pentru orice i, numărul de apariţii a rezultatului i este atunci
expectedi = n×pi.
Dacă modelul este corect, ne vom aştepta atunci ca numărul de rezultate i să fie, cu mici abateri, valoarea aşteptată anterioară. Notăm cu observedi numărul de apariţii observate ale rezultatului de tip iîn cele n încercări, i = 1, 2, . . . , k. Statistica c2 rezumă atunci discrepanţele dintre valorile aşteptate şi valorile observate prin:
c2 = (observed1 - expected1)2/expected1 + (observed2 - expected2)2/expected2 + . . . + (observedk - expectedk)2/expectedk.
Dacă modelul este corect şi n este suficient de mare, atunci distribuţia de sondaj a statisticii c2 tinde către o distribuţie c2 cu k – 1 grade de libertate.
Statistică (Statistic)
Prin statistică se înţelege un număr care poate fi calculat din date, fără implicarea unor parametri necunoscuţi. Ca funcţie de eşantion aleatoriu, o statistică este o variabilă aleatoare. De exemplu: media, abaterea standard, valoarea maximă etc. sunt statistici.
Statisticile sunt utilizate pentru estimarea parametrilor şi pentru testarea ipotezelor.
Statistică descriptivă (Descriptive Statistics)
Conţine acele metode care permit rezumarea colecţiilor de date într‑o formă simplă şi explicită, inteligibilă. Metodele statisticii descriptive pot fi împărţite în metode numerice şi metode grafice. Prin metodele numerice se obţin rezumate numerice cum ar fi media, abaterea standard etc. Prin metodele grafice se obţin reprezentări vizuale ale datelor, utile pentru identificarea structurii datelor (pattern‑urilor). Primele metode sunt mai precise şi mai obiective, dar doar utilizarea ambelor categorii de metode pot să ducă la un rezultat satisfăcător.
Statistică inferenţială (Inferential Statistics)
Conţine metodele prin care se obţin informaţii despre o populaţie pe baza datelor unui eşantion aleator din populaţia de interes. Principalele metode sunt estimarea şi testarea ipotezelor.
Este partea principală a statisticii, deoarece interesul unui cercetător este îndreptat, de regulă, către cunoaşterea populaţiei şi nu către eşantion.
Statistica testului (Test Statistic)
Este o statistică, proprie unui test, pentru care se cunoaşte repartiţia în condiţiile ipotezei H0. Pe baza valorii calculate a statisticii testului se ia decizia in test: dacă statistica aparţine, la un nivel de semnificaţie stabilit, regiunii de respingere a testului, atunci se respinge ipoteza H0 în favoarea ipotezei alternative. Fiecare test statistic conţine şi modul de definire a statisticii testului respectiv.
Statistică Z (Z statistic)
O statistică Z este o statistică a unui test a cărei distribuţie sub ipoteza nulă are valoarea aşteptată egală cu zero şi poate fi aproximată suficient de bine de curba normală.
În mod uzual, o statistică Z este construită prin standardizarea unei alte statistici după formula
Z = ( original – Exp(original) ) / SE(original).
Statistică t (Student) (Z statistic)
O statistică t este o statistică a unui test a cărei distribuţie sub ipoteza nulă este sau poate fi aproximată suficient de bine de repartiţia Student.
Strat (Stratum)
În sondajul aleatoriu, un eşantion este extras adesea separat din diferite submulţimi disjuncte ale populaţiei. Fiecare asemenea submulţime este denumită strat.
Estimatorii bazaţi pe eşantioane aleatorii stratificate pot să aibă erori de sondaj mai mici decât estimatorii calculaţi pentru eşantioane aleatorii simple de aceeaşi mărime, dacă variabilitatea medie a variabilei de interes în straturi este mai mică decât cea din întreaga populaţie (cu alte cuvinte dacă apartenentă la straturi este asociată cu variabila).
De exemplu, pentru a determina preţul mediu al locuinţelor, este mai avantajos să se utilizeze o stratificare după zona geografică, deoarece preţurile variază enorm după localizare. Se poate împărţi ţara în regiuni, acestea în zone urbane, suburbane, rurale; extragerea va fi apoi aleatorie din fiecare zonă astfel determinată.
Studiu de eşantion (Sample Survey)
Este un studiu bazat pe un eşantion şi nu pe întreaga populaţie.
Studiu longitudinal (Longitudinal study)
Un studiu longitudinal priveşte indivizi în momente diferite de timp, scopul fiind cel al evaluării efectului trecerii timpului asupra variabilelor observate. Posibilitatea de confundare cu alte efecte este mai mică decât într‑un studiu secţional (transversal).
Studiu observaţional (Observational Study)
Este un studiu în care datele sunt obţinute prin simpla observare, investigare. Noţiunea contrară este cea de experiment controlat.
Studiu transversal, secţional (Cross-sectional study)
Într‑un studiu transversal se compară diferite elemente la un moment de timp, cu alte cuvinte subiecţii aparţin la o secţiune prin populaţie (cum ar fi persoane de vârste diferite, măsurate la acelaşi moment de timp). În acest caz, diferenţele dintre elemente se pot confunda cu efectul urmărit. De exemplu, urmărind opiniile cetăţenilor într‑un studiu transversal, diferenţa dintre opinii poate fi atribuită procesului de îmbătrânire, deşi aceasta poate fi explicată prin educaţia diferită primită de cei chestionaţi.
Subiect, Subiect experimental (Subject, Experimental Subject)
Un element al grupului de control sau a celui experimental (de tratament).
Suma de sondaj (Sample Sum)
Este suma valorilor măsurate într‑un eşantion aleator.
Valoarea aşteptată a sumei de sondaj este de n ori media populaţiei, unde n este volumul eşantionului.
Abaterea standard a sumei de sondaj, pentru un sondaj cu repunere, este
unde s este abaterea standard a populaţiei iar n este volumul eşantionului. În cazul unui sondaj fără repunere dintr‑o populaţie finită, formula devine
.
unde N este volumul populaţiei.
T
Tabel de contingenţă (Contingency Table)
Este un tabel cu două intrări care conţine frecvenţele observaţiilor după nivelele a două variabile categoriale (sau continue discretizate), cu alte cuvinte repartiţia comună a celor două variabile. O variabilă determină liniile, iar cealaltă determină coloanele tabelului. Este uzual să se completeze cu o linie de total şi cu o coloană de total, acestea indicând distribuţiile fiecărei variabile.
Printr‑un test c2 de independenţă se poate verifica asocierea dintre variabile (deci dacă distribuţia unei variabile depinde de nivelul celeilalte variabile).
Tendinţă centrală (Central Tendency)
Indicatorii de tendinţă centrală sunt măsuri pentru localizarea “mijlocului” sau “centrului” distribuţiei. Deoarece noţiunea de “centru” este suficient de vagă, indicatorii de tendinţă centrală cuprind statistici diverse, cele mai uzuale fiind media, mediana, valoarea mod, media redusă, fiecare oferind o caracterizare diferită pentru datele procesate.
Teorema de limită centrală (Central Limit Theorem)
Teorema de limită centrală explică de ce relativ multe distribuţii tind să fie apropiate de distribuţia normală. O formă a teoremei este următoarea:
Fie X1, X2, … v.a. independente, identic distribuite, având media m şi abaterea standard s. Dacă notăm Sn = X1+X2+…+Xn, atunci
unde F(x) este funcţia de repartiţie a variabilei normale standard.
Formula anterioară poate fi rescrisă şi pentru media Sn/n.
Teoria probabilităţilor (Probability, Theories of)
O teorie a probabilităţilor este un mod de atribuire a unui sens la afirmaţii probabiliste de genul “şansa ca o pioneză să cadă cu vârful în sus este de 2/3.” Astfel, o teorie a probabilităţilor conectează teoria matematică a probabilităţilor (care este un set de consecinţe a axiomelor probabilităţii) cu lumea reală a observaţiilor şi experimentelor. Există mai multe teorii ale probabilităţii.
Potrivit teoriei probabilităţilor ca frecvenţe, probabilitatea unui eveniment este limita frecvenţei relative a apariţiilor evenimentului în încercări independente repetate în aceleaşi condiţii.
Potrivit teoriei subiective a probabilităţilor, probabilitatea este un număr care măsoară cât de puternică este încrederea noastră că un eveniment poate să apară. Acest număr este pe o scală de la 0 (sau 0%) la 1 (sau 100%), unde 0 arată că suntem siguri că evenimentul nu poate să apară, 1 arată că suntem siguri de apariţia evenimentului.
Potrivit teoriei ieşirilor egal verosimile, dacă un experiment are n ieşiri posibile, nu există nici un motiv pentru care unul dintre rezultate să apară în mod preferenţial faţă de celelalte. Rezultă că şansa de apariţie a oricărui rezultat este 100%/n.
Fiecare teorie are limitele ei, apărătorii şi detractorii ei.
Teoria probabilităţilor ca frecvenţe (Frequency theory of probability)
Vezi teoria probabilităţilor.
Test bilateral (Two-sided Hypothesis test)
Denumeşte un test în care ipoteza alternativă nu precizează sensul abaterii de la ipoteza nulă. De exemplu, dacă ipoteza nulă este µ = µ0, atunci ipoteza alternativă este µ < µ0 sau (adică µ ¹ µ0, fără precizarea abaterii lui µ de la µ0).
Într‑un test bilateral, probabilitatea critică a testului se referă la şansa ca statistica testului să fie mai depărtată de valoarea nulă decât valoarea calculată a statisticii, fără a preciza sensul în care are loc depărtarea.
Regiunea de respingere a unui test bilateral conţine o reuniune de două intervale.
Test exact Fisher pentru egalitatea a două procentaje (Fisher’s exact test for the equality of two percentages)
Să considerăm două populaţii cu elemente 0 şi 1. Fie p1 proporţia de elemente 1din prima populaţie şi p2 proporţia de elemente 1din a doua populaţie. Fie n1 şi n2 volumele a două eşantioane extrase din cele două populaţii, iar G numărul total de 1 din ambele eşantioane. Dorim să testăm ipoteza nulă p1 = p2. Dacă ipoteza nulă este adevărată, cele două eşantioane reunite formează un eşantion din populaţiile reunite. Alocarea eleementelor 1 între eşantioane este de aşteptat să fie, cu variaţii aleatoare, proporţională cu volumele eşantioanelor. Depinzând de G şi de volumele eşantioanelor, sub ipoteza nulă, elementele primului eşantion pot fi considerate ca formând un un eşantion aleator de volum n1 fără repunere dintr‑o mulţime având N = n1 + n2 elemente, dintre care G sunt egale cu 1. Astfel, sub ipoteza nulă, numărul elementelor 1 din primul eşantion are o distribuţie hipergeometrică cu parametrii N, G şi n1. Testul exact Fisher utilizează această distribuţie pentru determinarea numărului de elemente 1 din primul eşantion pentru care se respinge ipoteza nulă.
Test unilateral (One-sided Test)
Un test unilateral este un test statistic în care ipoteza alternativă precizează sensul abaterii de la ipoteza nulă (şi nu este, pur şi simplu, negaţia acesteia). Noţiunea contrară este test bilateral.
Testarea ipotezelor (Hypothesis testing)
Testarea ipotezelor statistice este formalizată ca procesul de a decide între respingerea şi nerespingerea unei ipoteze nule pe baza unui set de observaţii. Pot să apară două tipuri de erori: respingerea ipotezei nule deşi ea este adevărată (eroare de tip I); nerespingerea ipotezei nule, deşi ea este falsă (eroare de tip II). De menţionat că, în situaţiile practice, nu se poate şti dacă s‑a comis o eroare şi de ce tip este ea. Modul de abordare este atunci acela de minimiza riacul de producere a unei erori. În mod tipic, se specifică a priori riscul producerii unei erori de tip I, risc notat uzual cu a şi denumit nivelul de semnificaţie a testului. Pentru un nivel de semnificaţie dat, este apoi aleasă acea regulă de decizie (test) care are cea mai mică probabilitate de producere a unei erori de tip II când ipoteza alternativă este adevărată. Probabilitatea de a respinge în mod corect ipoteza nulă atunci când ipoteza alternativăeste adevărată este numită puterea testului în raport cu ipoteza alternativă.
Test t ( t test)
Se aplică un test t (Student) atunci când statistica testului se consideră repartizată Student. De regulă, testele t sunt utilizate pentru verificarea ipotezelor privind media populaţiei, atunci când eşantioanele sunt de dimensiuni reduse (<=30) şi distribuţia populaţiei este cunoscută ca fiind aproape normală.
Testul t pentru un coeficient de corelaţie (t test for correlation coefficient)
Fie r coeficientul de corelaţie estimat dintr‑un eşantion de volum n. În ipoteza H0: r = 0, statistica
este repartizată Student cu n‑2 grade de libertate, astfel încât se poate aplica regula de decizie dintr‑un test t (bilateral sau unilateral).
Test z (z-test)
Un test bazat pe o statistică Z (repartizată normal standard).
Transformare (Transformation)
Printr‑o transformare se converteşte o listă de valori într‑o altă listăde valori, sau o variabilă într‑o altă variabilă. O transformare afină este o transformare de tipul y = ax + b, unde x este variabila iniţială, iar y este variabila nouă (transformată). Astfel, standardizarea unei variabile este o transformare afină.
Transformările afine cu a > 0 au un efect simplu asupra mediei, medianei, valorii mod şi quantilelor: noile valori sunt obţinute din cele vechi după exact aceeaşi formulă de transformare. Dacă a < 0, atunci media, mediana şi valoarea mod sunt obţinute prin aceeaşi transformare, în timp ce quantilele au ordinea inversată. Efectul unei transformări afine asupra abaterii standard este acela că valoarea transformată se înmulţeşte cu |a| pentru a obţine noua abatere standard.
Transformare afină (Affine transformation)
Vezi transformare.
Transformarea z a lui Fisher (Fisher’s z Transformation)
Deoarece repartiţia de sondaj a coeficientului de corelaţie r (Fisher) nu este normală, testarea semnificaţiei coeficientului de corelaţie este dificil de efectuat direct. Din această cauză, Fisher a propus transformarea
v.a. z astfel obţinută fiind repartizată aproape normal şi având eroarea standard
unde n este volumul eşantionului.
Devine astfel posibilă calcularea unui interval de încredere pentru r sau pentru o diferenţă de coeficienţi de corelaţii (pentru compararea lor).
A se vedea şi testul t pentru un coeficient de corelaţie.
Tratament (Treatment)
Substanţa sau procedura studiată într‑un studiu experimental sau observaţional. În studiu se va urmări dacă tratamentul are efect asupra unei variabile de interes.
Trend secular (Secular Trend)
Prin trendul secular al unei variabile se înţelege asocierea liniară (regresia liniară) a variabilei cu timpul. Pentru a avea sens, trebuie, evident, ca obţinerea valorile variabilei să fie aibă loc în timp (mai general, este importantă ordinea măsurătorilor).
Trimedie (Trimean)
Definită drept o medie ponderată a quartilelor unei distribuţii prin
trimedia este un indicator de tendinţă centrală, rar utilizat totuşi, la fel de puţin influenţat de scorurile extreme ca şi mediana. Pentru distribuţii cu asimetrie pronunţată, indicatorul este mai puţin supus fluctuaţiilor de sondaj decât media aritmetică.
U
Unimodală (Unimodal)
O distribuţie este unimodală dacă are exact o singură valoare mod.
Unitate (Unit)
Un element al populaţiei. Cu acest sens noţiunea apare, de regulă, în probleme de sondaj.
Unitate de sondaj (Sampling unit)
Un eşantion dintr‑o populaţie poate fi extras câte un element sau câte un grup de elemente (în cazul grupării elementelor, clustere). Prin unitate de sondaj se înţelege unitatea fundamentală utilizată la formarea unui eşantion.
Unităţi standard (Standard Units)
O variabilă (set de date) se spune că este în unităţi standard dacă are media egală cu zero şi abaterea standard egală cu unu.
Se poate transforma un set de date în unităţi standard prin aşa‑zisa transformare Z:
Prin transformarea în unităţi standard se pot compara variabile măsurate pe scale diferite (cum ar fi greutatea şi înălţimea).
Univariat (Univariate)
Atributul se utilizează atunci când este implicată o singură variabilă.
V
Valoare aberantă (Outlier)
O valoare aberantă este o valoare care nu se încadrează în comportarea uzuală a unei variabile (de genul inundaţie în Sahara). În mod uzual, se va considera valoare aberantă una care este la cel puţin trei abateri standard distanţă de medie (există şi teste specializate pentru detectarea acestor valori).
Detectarea unei valori aberante produce, de regulă, eliminarea acesteia din setul de date. Totuşi, eliminarea trebuie să se bazeze pe identificarea exactă a valorii, a modului de obţinere etc., deoarece poate conduce la subestimarea variabilităţii reale a procesului măsurat. Sunt procese în care tocmai o valoare aberantă este de maxim interes.
Valoare critică (Critical value)
Valoarea critică într‑un test statistic apare atunci când decizia în test se ia pe baza regiunii de respingere şi reprezintă, în general, acea valoare sub/peste care trebuie să fie statistica testului pentru a respinge ipoteza nulă. Valoarea critică a testului este deci o extremitate finită a regiunii de respingere. Valoarea critică poate fi calculată, la un prag de semnificaţie dat, înainte de aplicarea efectivă a testului – este o quantilă a repartiţiei statisticii testului.
De exemplu, într‑un test z bilateral, la a = 0,05, valoarea critică este quantila z0,975 = 1,96. Dacă valoarea statisticii este mai mare în valoare absolută decât valoarea critică, atunci se respinge ipoteza nulă.
Variabilă (Variable)
Sensul curent în statistică este acela a unei valori numerice, a unui atribut care diferă de la un element la altul. A se vedea variabilă categorială, variabilă calitativă, variabilă cantitativă, variabilă discretă, variabilă continuă, variabilă aleatoare.
Variabilă aleatoare (Random Variable)
O variabilă aleatoare (notată uzual cu v.a.) este o funcţie reală definită pe mulţimea evenimentelor. Se acceptă, uzual, că o v.a. asignează numere la ieşirile posibile ale unui experiment aleatoriu.
O afirmaţie asupra unei v.a. defineşte un eveniment, de exemplu {XÎ B}= {sÎ S: X(s) Î B}, unde S este spaţiul evenimentelor, este evenimentul prin producerea căruia v.a. ia o valoare din B.
Variabilă aleatoare indicatoare (Indicator Random Variable)
Variabila indicatoare a unui eveniment A, notată adesea 1A, este v.a. egală cu 1 dacă se realizează A şi egală cu 0 dacă nu se realizează A. Valoarea aşteptată a indicatoarei lui A este probabilitatea lui A, P(A), iar eroarea standard este (P(A)×(1-P(A))½. Suma
1A + 1B + 1C + . . .
a indicatoarelor evenimentelor {A, B, C, . . . } numără câte dintre evenimente s‑au realizat într‑o încercare dată.
Variabilă binară (Binary Variable)
Este o variabilă discretă care are doar două valori posibile, descrise uzual ca “succes”, “insucces”. De regulă, o variabilă binară este de tip nominal. Codificarea valorilor prin 0 şi 1 permit calcule care nu sunt posibile, în general, pentru variabile discrete: de exemplu, suma produce frecvenţa valorilor codificate prin 1. Această caracteristică apropie o variabilă binară de tipul continuu de variabilă.
Variabilă calitativă (Qualitative Variable)
O variabilă calitativă are ca valori adjective cum ar fi culoarea, genul, naţionalitatea etc. Vezi şi variabilă nominală, variabilă ordinală.
Variabilă cantitativă (Quantitative Variable)
O variabilă care ia valori numerice şi pentru care au sens operaţiile aritmetice. De exemplu, temperatura este o variabilă cantitativă, dar codul numeric personal (CNP) nu. O variabilă cantitativă reprezintă, de regulă, cantitatea exactă dintr‑o anumită caracteristică prezentă la un element măsurat şi este o variabilă continuă.
Variabilă categorială (Categorical Variable)
O variabilă este categorială dacă valorile ei aparţin unei mulţimi de categorii distincte (cum ar fi apartenenţa etnică, sexul, culoarea etc.). O variabilă categorială este o variabilă discretă.
Variabilă continuă (Continuous Variable)
O variabilă cantitativă este o variabilă continuă dacă mulţimea valorilor sale posibile este continuă (nenumărabilă). De exemplu temperatura, înălţimea etc. În practică nu se poate niciodată să se măsoare o variabilă continuă cu o precizie infinită şi astfel variabilele continue sunt aproximate prin variabile discrete. O v.a. X este numită continuă dacă şi numai dacă funcţia de repartiţie este continuă. De observat că, în acest caz, P(X = x) = 0 pentru orice număr real x).
Variabilă dependentă (Dependent Variable)
În teoria regresiei, în care se estimează o relaţie de forma Y = f (X1, X2, …, Xn), variabila Y este denumită variabilă dependentă, în timp ce X1, X2, …, Xn sunt denumite variabile independente. Prin relaţia estimată, valorile Y se presupun explicate de valorile variabilelor independente. Rolurile de variabilă dependentă sau independentă sunt relative, interschimbabile în funcţie de aspectele cercetate.
Variabilă discretă (Discrete Variable)
O variabilă cantitativă este numită discretă dacă mulţimea valorilor posibile este numărabilă. Exemple tipice sunt variabilele care iau valori întregi: numărul persoanelor dintr‑o familie, vârsta rotunjită la ani etc. Funcţia de repartiţie a unei variabile discrete este o funcţie scară. O variabilă categorială este, de asemenea, discretă.
Variabilă explicativă (Explanatory Variable)
În teoria regresiei, o denumire echivalentă celei de variabilă independentă. Într‑un experiment, variabila explicativă este cea manipulată de experimentator (cea explicată fiind variabila dependentă).
Variabilă independentă (Independent Variable)
În teoria regresiei, o variabilă independentă este cea despre care se presupune că explică variaţia variabilei dependente. Se mai numeşte variabilă explicativă. În acest context, independent nu înseamnă statistic independent.
Un alt sens este oferit de modul în care este condus un experiment: anumite variabile sunt controlate, fixate, de experimentator, alte variabile sunt măsurate. Primele se numesc variabile independente (factori, explicative), ultimile fiind variabile dependente (explicate, efecte). Cum în asemenea cazuri analiza statistică va include, de regulă, o analiză de regresie, explicaţia dată vine în completarea primului sens.
Variabilă intra-subiecţi (Within-subjects Variable)
Este o variabilă independentă (factor) care este manevrată astfel încât fiecare subiect este testat (evaluat) la fiecare nivel al variabilei. Mai este denumită variabilă cu măsurători repetate, tocmai din cauză că acelaşi subiect este supus unor evaluări repetate (la nivele diferite ale factorului).
Variabilă între-subiecţi (Between-subjects Variable)
Este o variabilă independentă (factor) manevrată astfel încât la fiecare nivel al factorului este evaluat un alt grup de subiecţi.
Variabilă nominală (Nominal Variable)
O variabilă categorială este nominală dacă între categorii nu există stabilită o ordine (de exemplu, facultatea urmată de un student: matematică, filologie etc. Ordinea de enumerare este evident arbitrară şi nu constituie un atribut al variabilei facultate.
Variabilă ordinală (Ordinal Variable)
O variabilă ordinală este o variabilă categorială, dar între categorii există o ordine. De exemplu, locul terminării unei curse atletice: locul I, locul II etc. Este de menţionat că deşi există o ordine între categorii, nu se poate vorbi de distanţă între acestea. Atunci când valorile posibile sunt codificate prin valori numerice, operaţiile aritmetice între coduri nu au sens (de exemplu calcularea mediei), singura informaţie utilizabilă fiind aceea de ordine (mai mare, mai mult etc.).
Variabile aleatoare dependente (Dependent Random Variables)
Două v.a. sunt dependente dacă ele nu sunt independente..
Variabilitate de sondaj (Sampling Variability)
Se referă la variaţia valorilor luate de o anumită funcţie atunci când este calculată pentru eşantioane obţinute dintr‑o aceeaşi populaţie.
Variaţie întâmplătoare, eroare întâmplătoare (Chance variation, chance error)
O variabilă aleatoare poate fi descompusă în suma dintre valoarea aşteptată şi o variaţie întâmplătoare în jurul acestei valori. Valoarea aşteptată a variaţiei întâmplătoare este egală cu 0. Eroarea standard a variaţiei întâmplătoare este aceeaşi cu eroarea standard a variabilei aleatoare, ceea ce permite interpretarea că eroarea standard a v.a. este diferenţa tipică dintre valoarea variabilei şi valoarea ei aşteptată.
Volumul eşantionului (Sample Size)
Volumul eşantionului este numărul de elemente din eşantion.
Statistica An 1 , Fpse
Curs 1 Statistica
Statistica –stiinta (domeniu cu ramura aplicativa a matematici),care recolteaza,descrie si analizeaza datele(obiective ,de nautra empiric-inductiva) in vedere extragerii unor concluzii de tip probabilistic (inferente =este acea componentă a unui proces logic care derivă o concluzie dintr-o premiză, adică extrage o consecinţă necesară, o informaţie specifică, dintr-o descriere de stare dată),operand cu numere care descriu realitatea din jurul nostru,avand ca model de cunoastere =modelul stiintific ,bazat pe scepticism,cu un anumit nivel de generalitate prin intrepretarea datelor particulare supuse observatiei directe.
Statisticaàdescriptiva-descrie date asa cum sunt (nr,grafic)
àinferentiala-sustine concluzii (inferente cu privire la populatie,pe baza datelor unui esantion din acea populatie)àparametrica/neparametrica
Datele –informatii obtinute prin categorializare,numarare sau masurare <-metode adecvate.
Statistica –instrument al metodei stiintifice
Observatiaàdefinirea problemeiàipoteza(statistica)àdate(masurare,descriere)Testarea ipoteziei àrespingere /acceptare(decizia statistica )àpublicare(prezentarea rezultatelor)àteoria
Notiunea de variabila statistica
Definitie – variabila-caracteristica a realitatii care poate lua valori diferite (varsta ,gen ,inteligenta)
-valori-fem
-distributia variabilei-valorile si frecventa de aparitie a fiecarei valori(2,11,4,5)
-variabilitatea-masura in care o distributie este compusa din valori mai asemanatoare sau mai diferite una de alta (caracteristica cea mai importanta a variabilei)
Variabila dependenta-suporta un efect ,variaza in functie de ceva-face obiectul central cercetarii,variabila “effect”
Variabila independenta-determina un effect ,induce variatia variabilei dependente-reprezinta contextual incare se manifesta variabila dependenta,variabila “cauza”
Le plansam intr-un rationament de tip cauzal
Variabila “continua”-poate lua un numar teoretic infinit de niveluri ale valorilor(zecimale)-greutatea :50,7758585 kg
Variabila “discreta”-poate lua un nr finit de valori (fara zecimale )nr pers intr-o familie :3
Populatia cercetarii-totalitatea “unitatilor de informatie”care constituie obiectul de interes al unei investigatii (de regula,persoane)
àfinita pop fumatorilor,femeilor / finita –pop studentilor FPSE
Populatia statistica –valorile care descriu populatia cercetarii (elevii de liceu)
Esantionul- caracter relative,diferenta dintre esantion si pop =eroare de esantionare (mai mica- mai sigur)
-cercetarii-toate persoanele care fac obiectul studiului
-statistic-toate valorile unei variabile ,masurate pe esantionul cercetarii (elevii selectionati)
“Bias”-factor sistematic de eroare in constituirea esantionului(ora ,un singur mediu social)
Tehnici de esantionare-aleatoare-stratificat multistadiala
-prin clasificare unistadiala
-aleatoare globala
-pseudo-aleatoare sau de convenienta
Studii corelaţionale (observaţionale) -cercetătorul măsoară variabile (două sau mai multe…)sunt valorile unei variabile în legătură cu valorile alteia, sau altora?
-nu permit concluzii de tip cauzal–v. indep. este în relaţie cu v. dependentă
Exemplu:Un cercetător adună date cu privire la consumul unui medicament şi starea de sănătate, încercând să vadă dacă este o legătură între ele
•Studii experimentale-cercetătorul manipulează una sau mai multe variabile(independente) pentru a vedea efectul asupra alteia (dependentă)
-permit concluzii de tip cauzal–v. indep. este cauzav. dependente
Exemplu:Cercetătorul constituie două grupuri, administrează medicamentul unui grup (experimental) şi placebo, altui grup (de control) după care compară efectele
-alegerea procedurilor inferenţiale se bazează pe:
-identificarea naturii variabilei (indep./dep.)
-identificarea tipului scalei de măsurare, pentru fiecare variabilă
Curs 2 Statistica
S.S. Stevens (1946) „On thetheoryof scale of measurement”a măsura înseamnă ”a atribui valori numerice obiectelor și fenomenelor, în conformitate cu anumite reguli”
Masurarea-domeniu de ordin cantitativ,ce prespune identificare unei caracteristici atribuindu-i o valoare ;Judd și McClelland(1998)(nu toate au caracter numeric) conform unei reglui caruia ii s-a atribuit o semnificatie
Entități măsurabile
-de natura fizica(indicatori fiziologici)
- constructe psihice (teoretice) –ce trebuie sa fie probate,nu pot fi masurate direct, ci numai prin manifestările lor particulare
Constructul=variabilă latentă-stiu ca exista
Indicatorii=variabile observate
Niveluri (scale) de măsurare
Numerele diferă între ele prin semnificația și proprietățile lor
Stevens :
Nivelul nominal (cele mai putine info)àcategoria din care face parte
Nivelul ordinalà val nu si cantitatea
Nivelul de intervalà
Nivelul de raport (cele mai multe info)à
Scala nominală:redus nivel de măsurare,codurile valorilor sunt arbitrare,valorile au doar o semnificație calitativă,nu suportă operații aritmetice, în afară de însumare,pot fi grupate(mai multe diviziuni) sau rafinate(mai putine diviziuni):Extravert(coleric, sanguinic); introvert(flegmatic, melancolic) .Invers nu. :- De identificare (CNP, alte coduri arbitrare)
-Categoriale (m/f …)
Scala ordinală: Valorile au o semnificație cantitativă limitată la raportul de mărime, (mai mare/mai mic; mai mult/mai puțin), dar…precizează doar raportul de mărime dintre valori( intervalele dintre ne fiind precizate) codurile valorilor pot fi acordate si arbitrar+regula+semnificatie
Scale ordinale categoriale: anul de studiu (1, 2, 3)-grupa dar si gradu de cunostinte.
Scala de interval: Valorile au un caracter cantitativ, exprimat numeric,Intervalele dintre valori sunt egale,dar lipseşte zero absolut, suportă toate transformările matematice posibile,greu de demonstrat
Scala de raport: valori cantitative, exprimate numeric,intervale egale + zero absolut „gradele Kelvin „cel mai înalt nivel de măsurare (valorile au mai multă informație),suportă toate transformările matematice posibile,în practică, distincția dintre variabilele de interval (I) şi de raport (R) nu este relevantă, ambele suportând aceleaşi proceduri statistice (I/R)
Variabile categoriale
O variabilă se numește categorială atunci când valorile acesteia descriu categorii.În mod obișnuit, variabilele măsurate pe scală nominală sunt categoriale.
Variabilele ordinale pot fi și ele categoriale
Categoriile de vârstă: 1 (21-0 ani), 2 (31-40 ani) și 3 (41-0 ani) Variabilele cantitative (I/R) pot fi și ele categoriale:Categoriile de motoare: 1100 cmc; 1400cmc; 1600 cmc …
Statistica parametrică/statistica neparametrică
s. parametrică:proceduri inferențiale pe v. măsurate pe scale cantitative (Interval sau Raport),se bazează pe estimarea prin eşantionare a parametrilor populației (medie, ab. std.)
s. neparametrică:proceduri inferențiale pe v. măsurate pe scală calitative (nominale şi ordinale),nu se bazează pe estimarea parametrilor populației
Scale de măsurare şi variabile
variabila=caracteristica supusă măsurării
scala de măsurare=tipul de valori pe care le ia variabila
Expresia ”variabilă nominală” se va înțelege ca ”variabilă măsurată pe scală nominală”
Teoria măsurării
Modelul scorului adevărat este un construct teoretic.Nu există posibilitatea cuantificării erorilor
X=T+E / X=T+(eA+ eS)/ var(X)=var(T)+var(E)
(X=valoarea măsurată,T=scorul adevărat (exprimă caracteristică supusă măsurării,E=eroarea de măsurare /exprimă ”altceva” decât caracteristica supusă măsurării)
Tipuri de erori:
-erori aleatoare”zgomot de măsurare” (eA) produse de surse care ar putea afecta oricare dintre valorile rezultate din măsurare, fără să știm dacă și în ce măsură acest lucru se întâmplă
,pot fi în orice sens (mai mari sau mai mici decât scorul adevărat),caracterul aleatoriu face ca abaterile în plus și cele în minus față de scorul adevărat să se anihileze,erorile aleatoare afectează valorile individuale, dar nu și media eșantionului („motivatia”)
-erori sistematice (eS) :Se manifestă într-un anume sens față de valoarea adevărată („oboseala”)
Expresia X=T+E se are în vedere o anumită valoare măsurată (oricare dintre acestea)
Putem privi lucrurile și din perspectiva tuturor valorilor măsuratefiecare componentă a expresiei poate fi descrisă prin variabilitatea ei (diferențele între valorile respective existente la fiecare caz în parte)
var(X)=var(T)+var(E)
Expresia descrie sursa variației fiecărei componente a scorului adevărată ,fundamentează teoria fiabilității datelor de măsurare gradul în care măsurări repetate ale aceleiași realități produc aceleași valori
Proceduri de organizare, sintetizare şi descrierea datelor:
A.Tehnici de organizare şi prezentare a datelor numerice (analiza de frecvenţe -simplă/grupată)
grafice
B.Indicatori numerici sumativiindicatori ai tendinţei centrale
indicatori ai împrăştierii
indicatori ai formei distribuţiei
Frecvenţa absolută (Fa)-nr aparitiei fiecarei valori
Frecvenţa cumulată(Fc)-nr aparitilor adunate de jos in sus
Frecvenţa relativă raportată la unitate(Fr)-fr(1)=fa/Σfa
Frecvenţa relativă cumulată, raportată la unitate(Frc)-fr adunate de jos in sus
Frecvenţa relativă procentuală(Fr(%))-fr(1)x100
Frecvenţa relativă cumulată procentuală(Frc(%)-Fr(%)adunate de jos in sus
Entile “speciale”
Decilele → împart distribuţia în 10 părţi egale
àdecila 1 2 3 4 5… 9 10
→percentila 10 20 30 40 50… 90 100
Quartilele →împart distribuţia în patru părţi egale ca număr de valori)
quartila 1 (percentila 25)
quartila 2 (percentila 50)
quartila 3 (percentila 75)
Alegem numărul de clase, categorii:recomandabil, între 5 şi 15 (convenţional)
Alegem mărimea intervalului de clasă:toate intervalele trebuie să fie egale ,limitele intervalelor trebuie să cuprindă toate valorile (între limitele intervalelor alăturate să nu existe „goluri” sau suprapuneri)
Realizarea claselor: Se face diferenţa dintre valoarea cea mai mare şi valoarea cea mai micăàSe împarte valoarea obţinută la mărimea posibilă a intervalului de clasă (2, 3, 5 sau 10) pentru a realiza numărul de clase al noii distribuţiiàSe selectează mărimea intervalului care conduce la un număr de clase cuprins între 5 şi 15 àSe determină limita inferioară a primului interval (trebuie să fie un multiplu al mărimii intervalului-Alegem valoarea 85 ca limită inferioară(chiar dacă 86 este valoarea minimă)à Se determină limita superioară a primului interval(Dacă mărimea intervalului este 5, limita superioară va fi 89 (85,86,87,88,89))
limite aparente valori care sunt scoruri posibile ale variabilei (125, 129, etc.),mijlocul intervalului=(125+129)/2)=127
limite reale-extind mărimea intervalului pentru a lua în considerare natura continuă a scalei de măsurare
media a două mijloace de interval:(127+122)/2=124.5
-distanţa dintre limitele reale este egală cu distanţa dintre limitele aparente
Grafice
-Graficul de tip bară
Axa orizontală (Ox)
→valorile distribuţiei
Axa verticală (Oy)
→ frecvenţele fiecărei valori,
Exigenţe•Barele trebuie sa aibă aceeaşi lăţime
•Între bare se lasă un spaţiu
•Barele pot fi puse în orice ordine•Ordonarea barelor, descrescător sau crescător (grafic Pareto)
-histograma
-poligonul de frecvenţe
-graficul frecvenţei cumulate
-graficul circular
-graficul de tip „stem and leaf” („tulpină şi frunze”) -Valorile stem pot fi atribuite, opţional,pentru grupe de valori leaf, In cazul distribuţiilor mari,valorile leaf se pot referila mai multe valori
Stem-plot este potrivit pentru a vizualiza distribuţii de dimensiuni relativ mici.Scoate în evidenţă gradul de simetrie al distribuţieiScoate în evidenţă valorile excesiveImportantă nu este forma graficului ci înţelegerea datelor
| Valoare | fa | fc | fr (1) | frc (1) | fr (%) | frc(%) |
| 10 | 2 | 25 | 0,08 | 1,00 | 8% | 100% |
| 9 | 2 | 23 | 0,08 | 0,92 | 8% | 92% |
| 8 | 5 | 21 | 0,20 | 0,84 | 20% | 84% |
| 7 | 3 | 16 | 0,12 | 0,64 | 12% | 64% |
| 6 | 7 | 13 | 0,28 | 0,52 | 28% | 52% |
| 5 | 1 | 6 | 0,04 | 0,24 | 4% | 24% |
| 4 | 4 | 5 | 0,16 | 0,20 | 16% | 20% |
| 3 | 0 | 1 | 0 | 0,04 | 0% | 4% |
| 2 | 1 | 1 | 0,04 | 0,04 | 4% | 4% |
Rang percentil (Percentile Rank)
Rangul percentil al unui element dintr‑o repartiţie de valori numerice este definit ca proporţia numerelor care sunt mai mici sau egale cu numărul considerat. Este utilizat pentru fixarea locului ierarhic ocupat de un element: dacă un elev are nota 9,25 la matematică şi 94% dintre elevi au note mai mici sau egale cu 9,25, atunci rangul percentil al elevului este 94.
Percentilă (Percentile)
Percentila de ordin p a unei serii numerice (observate) este cel mai mic număr astfel încât cel puţin p% dintre numere nu sunt mai mari decât el. Percentila de ordin p a unei v.a. este cel mai mic număr astfel încât probabilitatea ca v.a. să ia valori nu mai mari decât el să fie p. Vezi şi quantile.
Categorii de indicatori
• Indicatori ai tendintei centrale-valori tipice, reprezentative, care descriu
distributia in intregul ei
• Indicatori ai imprăstierii– descriu caracteristica de imprăstiere a
valorilor distributiei
• Indicatori ai formei distributiei– se referă la forma curbei de reprezentare
grafică a distributiei
Indicatori ai tendintei centrale
• modul
• mediana
• media
Modul (Mo)
• Definitie:– valoarea– clasa de interval expresia ce mai directă a valorii tipice
(reprezentative)-cu frecventa cea mai mare
• se află prin alcătuirea tabelei de frecvente (simple sau grupate) si este valoarea (clasa) căreia ii corespunde frecventa absolută cea mai ridicată.
• distributii unimodale (583254 Mo=5)
• distributii bimodale (5832254 Mo=5; =2)
• distributii multimodale (58832254 Mo=5; =2; =8)
MEDIANA (Me)
• valoarea din mijlocul unei distributii
– are 50% dintre valori deasupra ei
– si 50% dintre valori dedesubtul ei
• este percentila ?- corespunde valorii de 50% pe coloana frc%.
• distributie cu număr impar de valori– Me este chiar valoarea respectivă.
• distributie pară– Me se calculează ca medie a valorilor din mijlocul
distributiei• 5,8,3,2,5,4, → 2,3,4,5,5,8 → Me=4,5
MEDIA ARITMETICĂ (m)
• Nota_ii uzuale:
– μ (miu) → media populatiei
– m → media unui esantion
• Calcul frecvente simple (583254)m=Sx/N
• Calcul frecvente grupate (55833332244)m=S(X x f)/ Sf
Proprietătile mediei aritmetice
• Adăugarea\scăderea unei constante la fiecare valoare a distributiei, măreste\scade media cu acea valoare
• inmultirea\impărtirea fiecărei valori a distributiei cu o constantă, multiplică\divide media cu acea constantă
• Suma abaterii valorilor de la medie este intotdeauna egală cu zero
• Suma pătratului abaterilor de la medie va fi intotdeauna mai mică decat suma pătratelor abaterilor in raport cu oricare alt punct al distributiei
Valori nedeterminate si clase
deschise
• Valorile „nedeterminate”
– valori a căror mărime nu decurge din procesul de măsurare, in acelasi mod in care rezultă oricare valoare a seriei
– Exemplu: testul de asociere verbală (10 sec)
• Clase (categorii) deschise– categorii care au una dintre limite „liberă”
• In astfel de cazuri se utilizează mediana
Avantajele indicatorilor tendintei centrale
MODUL
- Usor de calculat (nesemnificativ in prezent);
- Poate fi utilizat pentru orice tip de scală;
- Este singurul indicator pentru scale nominale;-
- Corespunde unui scor real al distributiei;
- Poate fi utilizată pe scale ordinale si de interval\raport;
MEDIANA
- Poate fi utilizată si pe distributii de frecventă cu clase deschise sau scoruri nedeterminate la marginile distributiei;
MEDIA
- Reflectă valorile intregii distributii;
- Are multe proprietăti statistice dezirabile;
- Adecvată pentru utilizare in statistici avansate;
Dezavantajele indicatorilor tendintei centrale
MODUL
- in general, nesigur, mai ales in cazul esantioanelor mici,cand se poate modifica dramatic la o modificare minoră a unei valori;
- Poate fi gresit interpretat. Se identifică total cu un scor anume, fără a spune nimic despre celelalte valori;
- Nu poate fi utilizat in statistici inferentiale;
- Poate să nu corespundă unei valori reale (N par);
MEDIANA
- Poate să nu corespundă unei valori reale (N par);
- Nu reflectă valorile distributiei (un scor extrem se poate
modifica, fără a afecta Me);
- Este mai putin sigură in extrapolarea de la esantion la
populatie;
- Greu de utilizat in statistici avansate
MEDIA
- De obicei nu corespunde unei valori reale;
- Nu este tocmai adecvată pentru scale ordinale;
- Conduce la interpretări gresite pe distributii asimetrice
- Poate fi puternic afectată de scorurile extreme;
Valori extreme (excesive) ale distributiei
• valori excesive, neobisnuit de mari sau de mici fată de celelalte valori ale unei distributii
• Identificare
– metoda grafică Box-and-Whisker-Plot (Box-
Plot)
– autor Tukey
O diagramă de tip boxplot reflectă grafic rezumarea prin cele 5 valori a unei distribuţii: valoarea minimă, prima quartilă, mediana, a treia quartilă şi valoarea maximă.
Prin compararea intervalelor figurate se obţine o imagine a gradului de împrăştiere a valorilor în domeniul observat.
De regulă, se marchează pe diagramă şi valorile aberante: situate la mai mult de 1,5D sub prima quartilă sau peste a treia quartilă, unde D notează distanţa dintre prima şi a treia quartilă (intervalul interquartil) – în figura anterioară, poziţia valorii aberante este distorsionată din necesităţi de prezentare. Uneori, între valorile aberante se face distincţia celor situate la mai mult de 3D de quartilele extreme.
Prin reprezentarea simultană a celor cinci valori pentru grupuri diferite, se oferă suport pentru o comparare rapidă a grupurilor.
Tratarea valorilor extreme
• Stabilirea naturii valorilor extreme:
– erori de inregistrare (tastare);
– erori de măsurare;
– rezultate influentate de anomalii ale conditiilor experimentale.
– esantionul a fost extras dintr-o populatie asimetrică
– valorile respective fac parte din altă populatie devalori
– esantion prea mic
• Tratarea lor pe una din căile posibile:
– eliminare (dacă sunt erori necorectabile);
– corectare (dacă este posibil);
– utilizarea mediei 5%trim,
– transformare (extragerea radicalului din toate valorile
distributiei, logaritmarea distributiei, etc.)
Indicatori sintetici ai împrăstierii
• măsoară gradul de diversificare a valorilor
Tipuri de indicatori
- Amplitudinea absolută(R): R=Xmax-Xmin=7-1=6
diferenta dintre valoarea maximă si valoarea minimă a unei distributii, indică in mod absolut plaja de valori intre
care se intinde distributia, poate fi influentată de o singură valoare aflată la extremitatea distributiei
2. Amplitudinea relativă(R%):R%=R/m x 100
raportul procentual dintre amplitudine si medie, utilă cand cunoastem plaja teoretică de variatie a valorilor
Imprecizie:Distributia A are o amplitudine
mai mare dar si o variabilitate
mai mare decat distributia B/Amplitudinile distributiilor A si B sunt identice, dar distributia A are mai multă variabilitate.
3. Abaterea quartilă (cvartilă, intercvartilă) (RQ) Rq=Q3- Q1
diferenta dintre quartila 3 si quartila 1, este distanta dintre limita superioară si cea inferioară a casetei Box-Plot (valoarea H)
4. Abaterea semi-interquartilă(RSQ) Rsq=(Q3- Q1)/2
distanta unui un scor „tipic” fată de amplitudinea intregii distributii, este abaterea quartilă impărtită la 2, intr-o distributie perfect simetrică RSQ=Q2=Me, RSQ nu este afectată de valorile aberante
– indicator „robust” al imprăstierii
5. Abaterea medie (d) d= Z(x-m)/N
valoarea minus media
6. Dispersia (varianta,abaterea patratica) s2= Z(x-m)putera 2/N
Notatii uzuale:
– s2 (esantion)
– es2 (populatie)
• Se calculează ca sumă a abaterilor de la medie ridicate la pătrat
7. Abaterea standard s=Radical din Z(x-m)putera 2/N
se calculează prin extragerea radicalului din expresia dispersiei
Abaterea standard nu este definită pentru (n-1), ci pentru “n”
Dar… suma abaterilor de la medie este întotdeauna 0
… dacă stim n-1 abateri, o cunoastem pe ultima
… doar primele n-1 abateri pot varia “liber”.
…(n-1) sunt definite ca “grade de libertate”
S2= Z(x-m)putera 2/N -1 ,S=radical din Z(x-m)putera 2/N-1
Proprietătile abaterii standard
Dacă se adaugă/scade o constantă la fiecare valoare a unei distributii, abaterea standard nu este afectată
Dacă se multiplică/divide fiecare valoare a unei distributii cu o constantă, abaterea standard se multiplică/divide cu acea constantă
Abaterea standard fată de medie este mai mică decat abaterea standard fată de orice altă valoare a unei distributii
8. Coeficientul de variatie (Cv) Cv=s/m x 100
abaterea medie si abaterea standard se exprimă in unitătile de măsură ale variabilei de referintă
• ca urmare, nu pot fi comparate in mod direct, pentru variabile diferite
cv poate fi calculat numai pe scale de
raport (origine in 0)
cv<15%, imprăstierea este mică si, deci,media este reprezentativă
cv este intre 15%-30%, imprăstierea este mijlocie si media este suficient de reprezentativă
cv > 30%, imprăstierea este mare si media are o reprezentativitate redusă
Alegerea indicatorului imprăstierii
• Abaterea standard este cea mai utilizată pentru
scale de măsurare interval/raport. Realizează cea mai bună combinatie intre calitatea estimării si posibilitatea de a fundamenta inferente statistice.
• Amplitudinea este un indicator nesigur si care nici nu poate fi calculat in cazul scalelor nominale
• Pe distributii cu valori nedeterminate sau cu intervale deschise, se alege abaterea interquartilă (semi-interquartilă).
Indicatori ai formei distributiei
• simetrie (skewness)
Simetrică(media,mediana,mod =0) asimetrică negativ (media,mediana,mod) asimetrică pozitiv (mod,mediana,medie)
Profesor :M.POPA