Skip to content

pa0/datasharing

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

33 Commits
 
 
 
 
 
 

Repository files navigation

Jak udostępnić dane statystykowi?

To jest przewodnik dla tych, którzy chcą skorzystać z pomocy statystyka, co wiąże się z przekazaniem mu jakiś danych. Szczególnie mam na myśli:

  • współpracujących nad pracą badawczą
  • studentów i doktorantów, którzy potrzebują pomocy w obliczeniach lub konsultacji

Celem tego przewodnika jest spisanie wytycznych, które ułatwią współpracę i wskażą najlepszy sposób udostępniania danych oraz unikania pułapek. Wszyscy statystycy szacują, że proces przygotowania danych zajmuje im 80-95% czasu poświęconego na analizy. Przestrzeganie zawartych tu wskazówek pozwoli uzyskać wyniki bardzo szybko, ponieważ czas statystyka będzie spożytkowany bardziej produktywnie.

Oczywiście statystycy przeważnie potrafią z każdej formy danych przygotować analizowalną formę, ale osoba zbierająca dane zrobi to lepiej i szybciej, ponieważ ma informacje na temat danych, które statystyk często musi zdobyć (co zajmuje czas).

Co powinien otrzymać statystyk?

Dla przyśpieszenia i ułatwienia analiz dane powinny być:

  1. Danymi surowymi,
  2. zapisane wg schludnego schematu:
    • każda zmienna zawiera jedną kolumnę
    • każdy wiersz zawiera jedną obserwację
    • każdy pomiar tworzy tabelę
  3. z książką kodową opisującą każdą zmienną z jej możliwymi wartościami (np. zakres, lub kategorie)
  4. oraz dokładny przepis jak z danych surowych uzyskać zmienne.

Osobną kwestią jest umiejętne sformułowanie problemu badawczego i pytania do statystyka. Ale zajmijmy się najpierw danymi ;-)

Pokrótce o każdym z punktów:

Surowe dane

Surowe dane mają tą cechę, że są efektem pomiaru nie poddanym żadnym manipulacjom. Czy to będzie plik wynikowy z przyrządu pomiarowego, czy ręcznie wprowadzone liczby z pomiaru kwestionariuszowego - dane są ok, jeśli nic z nim nie robiono. Nic to znaczy:

  1. żaden program komputerowy ich nie obrabiał
  2. nie były zmieniane żadne wartości
  3. nic nie było też usuwane
  4. nie były też dokonywane żadne podsumowania i analizy w pliku

Kilka przykładów:

Przeliczanie lub zmienianie danych jest częstym błędem, który sprawia, że statystyk musi najpierw wykonać detektywistyczną pracę analizując dlaczego dane wyglądają właśnie w taki sposób.

Schludny format danych

Wielkość i format pliku nie ma znaczenia. Ważny jest porządek. Zgodnie z zasadą "garbage in = garbage out" to co jest potrzebne do analizy to przejrzystość sposobu zapisania danych. Na poziomie ogólnym można o tym poczytać u Hadley Wickham w tym artykule lub zobaczyć na tym filmie. Przedstawiony tam punkt widzenia dotyczy pakietu R, który może jest, a może nie jest Tobie znany, ale ma zastosowanie w większości przypadków przygotowywania danych. O danych do SPSS pisałem tu.

Dla przypomnienia 4 reguły dotyczące przygotowania danych:

  1. każda zmienna zawiera się w jednej kolumnie
  2. każda obserwacja zawiera się w jednym wierszu
  3. dane powinny mieścić się w jednej tabeli
  4. jeśli z różnych względów potrzebne jest kilka tabel powinny one zawierać kolumnę z wartościami (ID) pozwalającymi połączyć je ze sobą

Jednym z dobrych zwyczajów jest umieszczenie w pierwszym wierszu danych pełnej nazwy zmiennej, np.: 'WiekPodczasBadania' zamiast 'WPB' W przypadku danych kwestionariuszowych często kolejne pytania składają się na jakiś wynik sumaryczny - w nazwie kolumn można to zawrzeć podając kolejno kw1, kw2, ... kwN, gdzie "kw" jest nazwą kwestionariusza a jeszcze lepiej skali.

Dane mogą być zapisane w Excelu, lecz najlepiej w jednym arkuszu bez makr i formuł. Alternatywnym dobrym formatem jest plik tekstowy CSV lub TAB-delimited.

Reguły przeliczania (książka kodowa)

W większości przypadków dane powinny być opisane szerzej niż wynika to z ich charakterystyki liczbowej. Minimalnie powinny być podane:

  1. Informacja o zmiennych (wraz z jednostkami, np. wiek w latach)
  2. Sposób uzyskania z danych surowych zmiennych
  3. Informację o planie badawczym - w jaki sposób dane zostały pozyskane (np. powtarzane pomiary, badania kwestionariuszowe, itp.)

Format tego dokumentu jest dowolny tekstowy, który jest Tobie wygodny.

Jak opisać zmienne

Jeśli w zbiorze z danymi zamieszczono cyfry także dla zmiennych kategorialnych (np. wykształcenie, płeć) koniecznym jest podanie jakie cyfry jakim kategoriom odpowiadają, ale preferowanym sposobem zapisu jest używanie opisów tekstowych: "kobieta" - "mężczyzna", "niski" - "średni" - "wysoki". Ten sposób zmniejsza liczbę błędów związaną z kodowaniem.

Braki danych powinny być zakodowane wartością NA.

Wszelkie informacje zawarte w plikach z danymi powinny być dostępne w postaci tekstowej, tzn. jeśli np. w Excelu kolorami zaznaczone są osoby o określonej płci lub grupy to po imporcie do pakietu statystycznego ta informacja zginie.

Czego można się spodziewać po statystyku

Jeśli otrzyma on tak przygotowane dane wynik analiz będzie dostępny dużo szybciej. Oczywiście nie oznacza to braku pytań i wiele sytuacji z danymi wymyka się z tych ram. Ale ich przestrzeganie pozwoli ograniczyć do minimum inżynierię wsteczną aby uzyskać czyste, analizowalne dane.

Dobrze zrobiona analiza statystyczna zawiera:

  1. Opis procedur analitycznych
  2. Skrypt do ich przeprowadzenia samodzielnie (w przypadku R)
  3. Pliki wynikowe w postaci raportu z tabelami i rycinami, które analiza wygenerowała

Na podstawie tych informacji powinno być możliwe powtórzenie analiz, a każdy ich etap powinien być jasny i zrozumiały. Jeśli tak nie jest należy pytać statystyka do skutku, tak aby nawet jeśli nie będzie możliwe powtórzenie analiz, to zrozumiałe będą jego poszczególne etapy.

Autorzy

====================

Na podstawie wersji angielskiej napisanej przez:

Przygotował wersję polską i zlokalizował dla Nauk Społecznych:

About

The Leek group guide to data sharing

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published