Zostałeś poproszony o obliczenie wariancji za pomocą programu Excel, ale nie wiesz, co to oznacza ani jak to zrobić. Nie martw się, to łatwa koncepcja i jeszcze łatwiejszy proces. W mgnieniu oka staniesz się zawodowcem!
Co to jest wariancja?
„Wariancja” to sposób pomiaru średniej odległości od średniej. „Średnia” to suma wszystkich wartości w zbiorze danych podzielona przez liczbę wartości. Wariancja daje nam wyobrażenie o tym, czy wartości w tym zbiorze danych mają tendencję do równomiernego trzymania się średniej, czy też do rozproszenia.
Matematycznie wariancja nie jest tak skomplikowana:
- Oblicz średnią zestawu wartości. Aby obliczyć średnią, weź sumę wszystkich wartości podzieloną przez liczbę wartości.
- Weź każdą wartość ze swojego zestawu i odejmij ją od średniej.
- Podnieś wynikowe wartości do kwadratu (aby usunąć liczby ujemne).
- Dodaj wszystkie kwadraty razem.
- Oblicz średnią z kwadratów wartości, aby uzyskać wariancję.
Jak więc widać, nie jest to trudna wartość do obliczenia. Jeśli jednak masz setki lub tysiące wartości, ręczne wykonanie zajęłoby wieczność. To dobrze, że Excel może zautomatyzować ten proces!
Do czego używasz wariancji?
Sama wariancja ma wiele zastosowań. Z czysto statystycznego punktu widzenia jest to dobry skrótowy sposób wyrażenia stopnia rozłożenia zbioru danych. Inwestorzy wykorzystują wariancję do oszacowania ryzyka danej inwestycji.
Na przykład, biorąc pod uwagę wartość akcji w pewnym okresie czasu i obliczając jej wariancję, uzyskasz dobre pojęcie o jej zmienności w przeszłości. Przy założeniu, że przeszłość przewiduje przyszłość, oznaczałoby to, że coś o niskiej wariancji jest bezpieczniejsze i bardziej przewidywalne.
Możesz także porównać wariancje czegoś w różnych okresach czasu. Może to pomóc wykryć, kiedy inny ukryty czynnik wpływa na coś, zmieniając jego wariancję.
Wariancja jest również silnie związana z inną statystyką znaną jako odchylenie standardowe. Pamiętaj, że wartości użyte do obliczenia wariancji są podniesione do kwadratu. Oznacza to, że wariancja nie jest wyrażona w tej samej jednostce wartości pierwotnej. Odchylenie standardowe wymaga pierwiastka kwadratowego z wariancji, aby przywrócić wartość do pierwotnej jednostki. Więc jeśli dane były w kilogramach, odchylenie standardowe również.
Wybór między populacją a wariancją próby
Istnieją dwa podtypy wariancji z nieco innymi formułami w Excelu. To, który wybrać, zależy od Twoich danych. Jeśli twoje dane obejmują całą „populację”, powinieneś użyć wariancji populacji. W tym przypadku „populacja” oznacza, że masz każdą wartość dla każdego członka docelowej grupy populacji.
Na przykład, jeśli patrzysz na wagę osób leworęcznych, populacja obejmuje każdą osobę leworęczną na Ziemi. Gdybyś zważył je wszystkie, użyłbyś wariancji populacji.
Oczywiście w prawdziwym życiu zwykle zadowalamy się mniejszą próbką z większej populacji. W takim przypadku użyłbyś wariancji próbki. Wariancja populacji jest nadal praktyczna w przypadku mniejszych populacji. Na przykład firma może mieć kilkaset lub kilka tysięcy pracowników z danymi o każdym pracowniku. Reprezentują „populację” w sensie statystycznym.
Wybór odpowiedniego wzoru na wariancję
W programie Excel dostępne są trzy przykładowe formuły wariancji i trzy formuły wariancji populacji:
- VAR , VAR.S i VARA dla wariancji próbki.
- WARIANCJA.POPUL , WARIANCJA.P i WARIANCJA.P. dla wariancji populacji.
Możesz zignorować VAR i VARP. Są one przestarzałe i dostępne tylko ze względu na zgodność ze starszymi arkuszami kalkulacyjnymi.
Pozostaje więc VAR.S i VAR.P, które służą do obliczania wariancji zestawu wartości liczbowych, oraz WARIANCJA.WARIANCJA i WARIANCJA.PA, które zawierają ciągi tekstowe.
WARIANCJA i WARIANCJA.WARPA konwertują dowolny ciąg tekstowy na wartość liczbową 0, z wyjątkiem „PRAWDA” i „FAŁSZ”. Są one konwertowane odpowiednio na 1 i 0.
Największa różnica polega na tym, że VAR.S i VAR.P pomijają wszelkie wartości nieliczbowe. To wyklucza te obserwacje z całkowitej liczby wartości, co oznacza, że wartość średnia będzie inna, ponieważ dzielisz przez mniejszą liczbę obserwacji, aby uzyskać średnią.
Jak obliczyć wariancję w programie Excel
Wszystko, czego potrzebujesz do obliczenia wariancji w Excelu, to zestaw wartości. W poniższym przykładzie użyjemy WARIANCJA.S, ale formuła i metody są dokładnie takie same, niezależnie od użytego wzoru na wariancję:
- Zakładając, że masz gotowy zakres lub dyskretny zestaw wartości, wybierz pustą komórkę do wyboru.
- W polu formuły wpisz =VAR.S(XX:YY) , gdzie wartości X i Y są zastępowane pierwszym i ostatnim numerem komórki zakresu.
- Naciśnij Enter , aby zakończyć obliczenia.
Alternatywnie możesz określić określone wartości, w którym to przypadku formuła wygląda następująco =VAR.S(1,2,3,4) . Z liczbami zastąpionymi czymkolwiek, czego potrzebujesz do obliczenia wariancji. W ten sposób możesz ręcznie wprowadzić do 254 wartości, ale jeśli nie masz tylko kilku wartości, prawie zawsze lepiej jest wprowadzić dane w zakresie komórek, a następnie użyć omówionej powyżej wersji formuły z zakresem komórek.
Możesz Excel w, eee, Excel
Obliczanie wariancji to przydatna sztuczka dla każdego, kto musi wykonać trochę pracy statystycznej w Excelu. Ale jeśli jakakolwiek terminologia programu Excel, której użyliśmy w tym artykule, była myląca, rozważ zapoznanie się z samouczkiem dotyczącym podstaw programu Microsoft Excel — Nauka korzystania z programu Excel .
Z drugiej strony, jeśli chcesz więcej, zapoznaj się z artykułem Dodawanie linii trendu regresji liniowej do wykresu punktowego programu Excel, aby móc wizualizować wariancję lub dowolny inny aspekt zbioru danych w odniesieniu do średniej arytmetycznej.
Czy różnice można zignorować?
Wariancja jest jednym z najbardziej przydatnych narzędzi w teorii prawdopodobieństwa i statystyce. Służy do pomiaru zmienności zbioru danych. Jednak wariancji nie można ignorować w statystykach, ponieważ pomaga ona ocenić zmienność danych i wyciągnąć ważne wnioski na temat relacji między zmiennymi. Jeśli zignorujesz wariancję, możesz przeoczyć ważne informacje o swoich danych i doprowadzić do mylących wyników. Dlatego najlepiej nie ignorować rozbieżności w statystykach.