Централни мерки за тенденции за групирани данни

Мерките за централна тенденция на групираните данни се използват в статистиката, за да се опишат определени поведения на дадена група данни, като например каква стойност са близки до тях, каква е средната стойност на събраните данни, наред с други.

При вземането на голямо количество данни е полезно да ги групирате, за да имат по-добър ред от тях и по този начин да можете да изчислите някои мерки с централна тенденция.

Сред мерките с централна тенденция, които най-често се използват, са средноаритметичната, медианата и режима. Тези цифри показват определени качества за данните, събрани в даден експеримент.

За да се използват тези мерки е необходимо първо да се знае как да се групира набор от данни.

Групирани данни

За да групирате данните първо трябва да изчислите обхвата на данните, който се получава чрез изваждане на най-високата стойност минус най-ниската стойност на данните.

След това изберете число "k", което е броят на класовете, в които искате да групирате данните.

Продължаваме да разделяме диапазона между «k», за да получим амплитудата на класовете, които ще бъдат групирани. Това число е C = R / k.

Накрая се стартира групирането, за което се избира по-малък брой от най-ниската стойност на получените данни.

Този номер ще бъде долната граница на първия клас. Към това се добавя В. Получената стойност ще бъде горната граница на първия клас.

След това към тази стойност се добавя С и се получава горната граница на втория клас. По този начин продължаваме, докато не получим горната граница на последната класа.

След като данните са групирани, можете да преминете към изчисляване на средната стойност, медианата и режима.

За да илюстрираме как се изчисляват средноаритметичното, медианата и режима, ще продължим с пример.

пример

Следователно, когато групирате данните, ще получите таблица като следната:

Трите основни мерки за централна тенденция

Сега ще продължим да изчисляваме средното аритметично, медианата и режима. Предишният пример ще бъде използван за илюстриране на тази процедура.

1 - Средно аритметично

Средната аритметична стойност се състои от умножаване на всяка честота със средната стойност на интервала. След това всички тези резултати се добавят и накрая се разделят между общите данни.

Използвайки предишния пример, ще получим, че средната аритметична стойност е равна на:

(4 * 2 + 4 * 4 + 6 * 6 + 4 * 8) / 18 = (8 + 16 + 36 + 32) / 18 = 5, 11111

Това показва, че средната стойност на данните в таблицата е 5.11111.

2- Средна

За да изчислим медианата на даден набор от данни, първо всички данни се подреждат от най-малко до най-голямо. Могат да бъдат представени два случая:

- Ако номерът на данните е нечетен, то медианата е данните, които са в центъра.

- Ако номерът на данните е четен, то медианата е средната стойност на двете данни, които остават в центъра.

Когато става въпрос за групирани данни, изчисляването на медианата се извършва по следния начин:

- N / 2 се изчислява, където N е общата информация.

- Първият интервал се търси, когато натрупаната честота (сумата на честотите) е по-голяма от N / 2 и се избира долната граница на този интервал, наречена Li.

Медианата се дава по следната формула:

Me = Li + (Ls-Li) * (N / 2 - Натрупана честота преди Li) / Честота на [Li, Ls]

Ls е горната граница на гореспоменатия обхват.

Ако се използва горната таблица с данни, имаме N / 2 = 18/2 = 9. Натрупаните честоти са 4, 8, 14 и 18 (по един за всеки ред от таблицата).

Следователно трябва да се избере третия интервал, тъй като натрупаната честота е по-голяма от N / 2 = 9.

Така Li = 5 и Ls = 7. Прилагайки формулата, описана по-горе, трябва да:

Me = 5 + (7-5) * (9-8) / 6 = 5 + 2 * 1/6 = 5 + 1/3 = 16/3 ≈ 5.3333.

3 - Мода

Модата е стойността, която е най-често срещана сред всички групирани данни; това е стойността, която се повтаря най-често в първоначалния набор от данни.

Когато имате много голямо количество данни, за изчисляване на режима на групираните данни се използва следната формула:

Mo = Li + (Ls-Li) * (честота на Li - честота на L (i-1)) / ((честота на Li-честотата на L (i-1)) + (честота на Li-честотата на L ( i + 1)))

Интервалът [Li, Ls) е интервалът, в който се намира най-високата честота. За примера, направен в тази статия, модата е дадена от:

Mo = 5 + (7-5) * (6-4) / ((6-4) + (6-4)) = 5 + 2 * 2/4 = 5 + 1 = 6.

Друга формула, която се използва за получаване на приблизителна стойност за модата, е следната:

Mo = Li + (Ls-Li) * (честота L (i + 1)) / (честота L (i-1) + честота L (i + 1)).

С тази формула сметките са както следва:

Mo = 5 + (7-5) * 4 / (4 + 4) = 5 + 2 * 4/8 = 5 + 1 = 6.