Analiza danych: podstawowe problemy

Grupa 1 

Typ danych

Poprawna klasyfikacja danych, zakłada, że właściwa technika pomiaru danych zależy od ich typu. Użyteczny podział obejmuje skalę nominalną, porządkową, przedziałową i stosunkową.

SKALA NOMINALNA pozwala na stwierdzenie różności lub równości między mierzonymi cechami. Podstawą przyporządkowania są jakościowe cechy zjawisk. Do analizy danych z pomiaru nominalnego stosuje się proporcje, odsetki, stopy, tempo wzrostu i inne wskaźniki. SKALA PORZĄDKOWA reprezentuje wyższy poziom pomiaru niż skala nominalna. Przypisane jej wartości odzwierciedlają porządek oraz służą do zidentyfikowania obiektów. Taka skala umożliwia odwzorowanie równości i różności. Pomiar porządkowy nie daje informacji o wielkości kolejnych różnic między przedziałami. Skale przedziałowe mają duże zastosowanie w badaniach marketingowych, ponieważ służą głównie do pomiaru preferencji i postaw nabywców. Wyróżnia się skale porządkowe ze względu na różnice w ich konstrukcji i przeznaczeniu: Skale jednobiegunowe (na danym jednym biegunie drugi biegun jest jego negacją, jest on z góry określony) np. (I biegun) SILNY.........................NIESILNY (II biegun) Skale dwubiegunowe (drugi biegun nie jest określony, jest on zwykle przeciwieństwem, ale nie negacją) np. (I biegun) SILNY...............SŁABY (II biegun) Skale stopniowe (są podzielone na kilka stopni w formie przedziałów) Skale ciągłe (nie mają wyodrębnionych stopni np. WYSOKI.................NISKIStruktura skali porządkowej pozostaje niezniekształcona przy wszelkich podstawieniach, które zachowują porządek, gdyż przypisanie numerów oznacza tyko porządek i nic więcej. SKALE PRZEDZIAŁOWE porównują różnice wielkości między obiektami. Przykładowo możemy określić, o ile jedna kategoria jest większa od innej. Nie możemy jednak porównać stosunku absolutnych wielkości przedmiotów (np. A jest piec razy większe od B) . Wszelkie porównania musza być dokonywane przy użyciu różnic pomiędzy obiektami. Powodem tego jest fakt, iż skala przedziałowa zawiera wybrany arbitralnie punkt zerowy. SKALA STOSUNKOWA jest podobna do skali przedziałowej, rożni się tylko tym, ze posiada naturalny punkt zerowy. Przykładowo można stwierdzić, że A jest dwa razy cięższe lub dwa razy wyższe niz. B, ponieważ obie skale mają naturalne zero. Wszelkie statystyki, które stosuje się dla skali przedziałowej, można również z powodzeniem stosować dla skali stosunkowej.[1]

Odmienna interpretacja respondentów

Jedną z przesłanek, która wpływa na wybór techniki analizy danych jest odmienna interpretacja respondentów. By wytłumaczyć to zjawisko posłużymy się przykładem. Na slajdzie widać  jak wrażliwy może być rozkład odpowiedzi na określenia używane do oznaczenia rożnych kategorii. Porównanie dwóch wersji każdego kwestionariusza, przedstawionego rożnym próbom respondentów, pokazuje, że główna różnica w każdym przypadku polegała na sposobie opisu drugiej od góry i średniej pozycji na skali. Odsetek respondentów odpowiadających „dobry” był jednak różny, tak jak różny był łączny rozkład odpowiedzi dla obu wersji w każdym przypadku.

Kolejny rysunek (slajd) pokazuje, że równe przyrosty charakterystyki na skali są możliwe do uzyskania dzięki właściwemu doborowi określeń. W porównaniu do poprzedniej ankiety, zmieniono tutaj niektóre określenia. Można zauważyć, że w tej chwili rozkład odpowiedzi „dobra” w obu wersjach jest zbliżony.

Wnioski z tego płynące są następujące: Warto traktować łączna punktację, wynikającą z ocen pewnej liczby cech, jako skalę przedziałową Oceny poszczególnych cech również warto traktować w ten sposób, na przykład, gdy podjęto specjalne zabiegi dla zapewnienia przedziałowego charakteru kategorii odpowiedzi Kiedy nie jest spełniony ani warunek 1 ani 2, wtedy zawsze uzasadnione jest traktowanie skali, jako porządkowejZrozumienie, w jaki sposób dokonano pomiaru danych, ma zasadnicze znaczenie dla właściwej ich interpretacji. Warto dodać, ze uwaga ta stosuje się również do życia codziennego. [2]

Projekt badania

Następną ważną kwestią wpływającą na wybór techniki analizy, jest projekt badania poprzedzający uzyskanie danych. Analityk musi się zmierzyć z ważnymi problemami, takimi jak:

  • Zależność i liczba obserwacji na jeden obiekt,  
  • liczba analizowanych grup
  • kontrola interesujących go zmiennych

Dalej postaramy się przedstawić i wyjaśnić każde z tych trzech zagadnień.

Próby zależne i niezależne

Zależność prób pokażemy grupie na przykładzie broszury reklamowej. Załóżmy, że interesuje nas określenie skuteczności broszury rozsyłanej pocztą. Miarą takiej skuteczności maja być postawy konsumentów wobec produktu. Do ich mierzenia można użyć skali przedziałowej. Przykładowo projekt może wyglądać tak: (slajd)

gdzie O1 reprezentuje postawy osób, które otrzymały broszurę, a O2 postawy osób, które broszury nie otrzymały. Pomiary O2 nie należą do pomiarów O1, czyli mamy do czynienia z niezależnymi próbami. Odpowiedni test istotności przewiduje niezależność prób. W tym przypadku właściwe będzie zastosowanie testu t względem różnicy miedzy dwiema średnimi.

W innym projekcie badania, który można schematycznie przedstawić w ten sposób: (slajd)

mamy 2 zestawy obserwacji: O1 i O2. Teraz jednak składają się one z tych samych jednostek-przed oraz po otrzymaniu broszury. Nie możemy już zastosować testu t różnicy pomiędzy dwiema średnimi. Tutaj chcemy porównać różnice w postawach przed i po zetknięciu z broszurą. Pomiary O2są zależne od pomiarów O1, dlatego w tym przypadku należy skorzystać z testu różnic parami.

Liczba grup

Następnym zagadnieniem jest liczba porównywanych grup. Załóżmy ze chcemy zbadać skuteczność dwóch rożnych broszur poprzez kontrolowany eksperyment. W trakcie takiego eksperymentu  niektórzy respondenci otrzymują broszury X1, inni X2, a trzecia grupa nie otrzymuje nic. Schemat takiego projektu wygląda tak: (slajd)

W tej chwili mamy już trzy grupy (dwie eksperymentalne i jedna kontrolna). Problem tego typu najlepiej rozwiązać za pomocą procedur analizy wariancji.

Liczba zmiennych

Kolejnym problemem w analizowaniu danych jest liczba zmiennych. Tutaj znowu pokażemy przykład, by pokazać, w jaki sposób liczba pomiarów każdego obiektu wpływa na procedurę analizy. Poprzednio zakładaliśmy, ze postawa wobec produktu może służyć jako miernik skuteczności broszury, czyli porównywaliśmy postawy tych, którzy otrzymali broszurę, z postawami tych, którzy jej nie otrzymali. Tym razem chcemy również wziąć pod uwagę wpływ broszury na wielkość sprzedaży. Krotko mówiąc chcemy porównać obie grupy nie tylko pod kątem różnic w postawie, ale również kupowania przez nie reklamowanego produktu. Projekt uległ zmianie, ale możemy użyć podobnego schematu jak przedtem, z tym, że teraz O1 i O2 przedstawiają miary sprzedaży jak i postaw (slajd).

W takiej sytuacji można by przeprowadzać testy oddzielnie, osobno na różnice w postawach i na różnice w kupowaniu przez obie grupy badanych. Jednak, jeśli różnice w kupowaniu i w postawach będą się różniły w małym stopniu, to testy nie będą w stanie wychwycić istotnych różnic. Może być też tak, że testy będą statystycznie istotne, ale niespójne, tzn. jeden wynik będzie bardziej korzystny dla grupy kontrolnej a drugi dla grupy eksperymentalnej. By rozwiązać powyższe problemy, musimy mieć możliwość uwzględniania różnic między grupami i jednocześnie porównywania różnic kilku charakterystyk. Tego typu kwestiami zajmują się metody statystyczne dla wielu zmiennych.

Zmienna kontrolowana

Inna ważna kwestia dotyczy wprowadzenia do analizy zmiennej kontrolowanej, która może wpływać na wynik. Tutaj znowu posłużymy się przykładem z jedna broszurą, w którym punkt ciezkosci spoczywa na różnicach w postawach miedzy dwiema grupami. Zmienną, która na pewno ma wpływ na postawy, jest wcześniejsze użycie produktu. W projekcie eksperymentalnym, w celu zminimalizowania jego wpływu, analityk będzie chciał kontrolować wystąpienie użycia produktu. Dobrym rozwiązaniem może być wyrównanie składów grupy eksperymentalnej i kontrolnej ze względu na zaistnienie wcześniejszego użycia produktu za pomocą dopasowania, symulacji rozkładu losowego lub polaczenia obu podejść. Jeżeli zastosuje się taka procedurę kontrolną, uzasadnione będzie zastosowanie testu t dla sprawdzenia istotności różnicy średnich obu grup.

Jeśli nie wykonamy procedury kontrolnej a postawy faktycznie zależą od wcześniejszego użycia produktu, to wnioski wyciągnięte przy użyciu testu t będą błędne. Będą błędne w takim stopniu, w jakim składy obu grup różnią się od siebie wcześniejszym użyciem produktu. Takie różnice można skorygować przez dopuszczenie współzmienności tzn. przez wyliczenie regresji postawy wobec użycia i korektę oceny postaw wyrażonych przez O1 i O­2. [3]

Wiarygodność testów statystycznych

Podsumowując tą część referatu, warto dodać, że wiarygodność testów statystycznych zależy od spełnienia określonych założeń. Jeżeli te założenia nie są spełnione, wtedy analityk ma do wyboru kilka sposobów postępowania.

Może próbować sprostać założeniom poprzez przekształcenia. Może wybrać inna statystykę próbną, do której stosuje się odmienne założenia. Może nawet próbować zastosować test statystyczny wolny od rozkładu. Jeśli analityk jest osobą dokładną, to nie zaniedba założeń, które leżą u podstaw przyjętej przez niego techniki. Nie będzie tez zakładał w ciemno, ze wszystkie warunki testu są spełnione. Poprawność wyników będzie dla niego priorytetem, przez co nie zaniedba sprawdzenia założeń[4]

Przegląd procedur statystycznych

Wybierając technikę analizy danych właściwą do danego problemu, warto ustalić ilu zmiennych dotyczy zagadnienie. Problem dotyczy jednej zmiennej, jeżeli istnieje jeden jedyny pomiar dla każdego z n przedmiotów należących do próby. Może się zdarzyć tak, że wystąpi kilka pomiarów dla n obserwacji, wtedy każdą zmienną będziemy analizowali w izolacji od innych.

W problemie wielu zmiennych istnieją dwie lub więcej miar dla każdej obserwacji (np. liczba pozyskanych nowych klientów i łączna sprzedaż w rozbiciu na sprzedawców), a zmienne są analizowane równocześnie. Biorąc pod uwagę to, że występuje wiele miar dla każdej obserwacji w próbie, mamy do czynienia z dwoma różnymi aspektami: poszukiwaniem różnic i badaniem związku.

Analiza jednej zmiennej

Na schemacie (slajd) widać decyzje, które muszą zostać podjęte, jeżeli problem dotyczy jednej zmiennej.

Pierwsze pytanie dotyczy sposobu mierzenia danych. Czy zmienna jest oceniania według skali nominalnej, porządkowej czy stosunkowej. Jeżeli zdecydujemy się na skalę nominalną lub porządkową, wtedy będziemy stosowali procedury statystyczne wolne od rozkładu. Jeżeli dane mierzone są na skali przedziałowej lub stosunkowej, to zmienna ma charakter metryczny i powinniśmy się zdecydować na procedury parametryczne.

Teoria statystyczna zakłada, że przy wyborze techniki sposób pomiaru nie jest ważny. Techniki statystyczne „nie wiedza”, jaki charakter ma pomiar danych wyjściowych. Kluczem do określenia czy jakaś technika statystyczna nadaje się do analizowania określonego zestawu danych, są dotyczące jej założenia. Jeżeli założenia są spełnione albo, jeżeli technika statystyczna jest odporna na naruszanie założeń, to wybrana technika może być użyta.

Chociaż skala pomiaru może nie być ważna z punktu widzenia teorii statystycznej to ma znaczenie z perspektywy teorii pomiaru. W tym sensie ważne jest, by przypisane liczby miały swoje odniesienie do atrybutów, by ostrożnie interpretować to, co wynika z tych liczb w odniesieniu do „wielkości atrybutu” związanego z obiektem, i by uważać na sposób manipulacji liczbami przy wydobywaniu wniosków, co do znaczenia danych. Trudno jest w ogóle podjąć się wyboru testu statystycznego bez rozważania sposobu pomiaru, ponieważ ten często dostarcza ważnych wskazówek o założeniach statystycznych. [5]

Analiza wielu zmiennych

W analizie wielu zmiennych o wyborze techniki decydują dwa czynniki. Są to:

  • typ skali pomiarowej
  • rola zmiennych w modelu.

Jak wspomnieliśmy wcześniej wyróżnia się tutaj zmienne niezależne (objaśniające) i zależne(objaśniane). Zadaniem analityka jest ustalenie w jaki sposób zmienna objaśniana zależy od pozostałych. Problem pojawiają się, gdy mamy do czynienia z bardzo dużą liczbą zmiennych, które mogą przedstawiać różne sposoby pomiaru. By określić właściwy sposób pomiaru należy zadać następujące  pytania:

  • Czy należy wyróżnić jedna lub kilka zmiennych i zając się nimi odrębnie jako zmiennymi zależnymi ? Jeżeli tak, to o ile i jakie poziomy pomiaru one odzwierciedlają ?
  • Ile mamy zmiennych niezależnych? Jaki poziom pomiaru odzwierciedla każda z nich?

Schemat (slajd) przedstawia, którą technikę statystyczną powinniśmy wybrać, podczas analizowania wielu zmiennych. Są to najbardziej przydatne procedury dla analityka badan marketingowych. Na rysunku można zauważyć, że technika jest mocno związana z liczbą i pomiarami zmiennych.

Podsumowanie

W naszej pracy chcieliśmy pokazać jak ważną rolę w analizie danych pełni wybór odpowiedniej metody statystycznej. Na wybór ten wpływają:

  • skala pomiaru
  • projekt badania  
  • założenia testu statystycznego

Jednym z głównych problemów w analizowaniu danych to rozpatrywanie skali pomiaru. Analityk musi umieć znaleźć różnicę między warunkami teorii pomiaru a założeniami teorii statystyki. Pierwsza zakłada, że ważne jest czy poziom pomiaru jest nominalny, porządkowy, przedziałowy czy stosunkowy. Teoria statystyki mówi natomiast, że skala pomiaru nie ma znaczenia i koncentruje się na założeniach testu statystycznego.

Ponadto, jak wspomnieliśmy wcześniej, na wybór odpowiedniej metody ma też kilka czynników wynikających z projektu badania. Są to miedzy innymi przytaczana poprzednio niezależność obserwacji prób, liczba grup, liczba zmiennych oraz możliwość kontroli zmiennych.

Literatura:

  1. G. A. Churchill, Badania marketingowe - podstawy metodologiczne, PWN, Warszawa 2002
  2. Mazurek-Łopacińska,  Analizowanie i interpretowanie danych, PWN, 2005
  3. P. Hague, Badania marketingowe:planowanie, metodologia i ocena wyników, Wydawnictwo Helion 2002

[1] http://pl.wikipedia.org/wiki/Skala_pomiarowa

[2] G. A., Churchill, Badania marketingowe-podstawy metodologiczne, str. 663-664 , PWN, Warszawa 2002

[3] G. A., Churchill, Badania marketingowe-podstawy metodologiczne, str. 666-668, PWN, Warszawa 2002

[4] Mazurek-Łopacińska,  Analizowanie i interpretowanie danych, str.31, PWN, 2005

[5] P. Hague, Badania marketingowe:planowanie, metodologia i ocena wyników, str. 270-274, Wydawnictwo Helion 2002