Identyfikacja związków przyczynowo-skutkowych w badaniach edukacyjnych
- Opublikowano: 9 Wrz 2010
14-16 lipca Uniwersytet w Jenie (Niemcy) zorganizował międzynarodową konferencję na temat identyfikacji związków przyczynowych w badaniach edukacyjnych (Symposium on Causality 2010). Obrady miały miejsce na zamku Dornburg niedaleko Jeny. Uczestniczyło w nich 60 badaczy z 16 krajów świata.
.Problem identyfikacji związków przyczynowo-skutkowych występuje we wszystkich badaniach, których celem jest oszacowanie efektów pewnych celowo podjętych działań. W wielu dziedzinach nauki (zwłaszcza w naukach stosowanych) korzysta się w tym celu ze schematów eksperymentalnych. W naukach społecznych, w tym badaniach edukacyjnych, czy też w badaniach nad efektywnością polityk interwencyjnych na rynku pracy, stosowanie schematów eksperymentalnych podlega licznym ograniczeniom. Wynikają one głównie stąd, że badanych jednostek (np. uczniów, bezrobotnych) nie da się w sposób losowy przypisać do grup wyróżnionych w zależności od zastosowanych sposób narzędzi interwencji.
Większość prezentowanych na konferencji metod i ich zastosowań dotyczyła właśnie problemu obiektywizacji efektów pracy szkoły. Polega on na tym, aby uniezależnić wskaźniki przyrostu wiedzy i umiejętności uczniów od czynników kontekstowych (ang. confounders), które mogą zaciemnić czy wręcz uniemożliwić porównania szkół ze sobą. Jak wyraził to jeden z organizatorów konferencji, prof. Rolf Steyer z Uniwersytetu w Jenie:
In comparing schools, we are striving towards fair comparisons. Comparisons are fair when they adequately take into account that schools differ in their student populations.
Zestaw czynników kontekstowych z reguły postrzega się dość szeroko, zaliczając do niego wszystkie potencjalne powody i okoliczności, które mogą wpłynąć na wyniki uczniów, a nie stanowią składowej stosowanych w szkole metod nauczania. Czynniki dzieli się na ogół na dwie kategorie: (1) zdolności uczniów oraz wyniki uzyskiwane w testach przed rozpoczęciem nauki w szkole (pretest) (2) czynniki terytorialne i środowiskowe.
Omawiane na konferencji metody pozwalają zestandaryzować wpływ czynników kontekstowych. Przeglądu dostępnych w tym zakresie metod dokonał Peter M. Steiner z Uniwersytetu Wisconsin-Madison (USA). Na podstawie prowadzonych przez lata analiz, w których testował znaczenie prawie 200 (!) czynników kontekstowych, sformułował szereg wskazówek co do stosowania tych metod w praktyce. Pierwsze i najważniejsze ustalenie to takie, że różne grupy czynników mają niejednakowe znaczenie podczas szacowania czystych efektów pracy szkoły. Najważniejsze pod tym względem są wyniki wcześniejszych testów i egzaminów, a także ocen otrzymywanych w poprzednich szkołach. Natomiast czynniki demograficzne, uwarunkowania środowiskowe, predyspozycje psychologiczne czy też postawy i motywacje wobec nauki mają wyraźnie mniejsze znaczenie.
Inny wniosek dotyczył problemu rzetelności pomiaru uwzględnionych czynników. Ze względu na fakt, że stosowane modele analityczne pozwalają uwzględnić dużą liczbę czynników jednocześnie, rzetelność pomiaru każdego z nich z osobna nie ma tak dużego znaczenia. Autor prezentacji zilustrował to wynikami analizy symulacyjnej, w której na uwzględnione czynniki kontekstowe nakładał losowy składnik błędu, co odpowiadało redukcji rzetelności pomiaru od wyjściowej wartości 1,0, poprzez 0,9, 0,8, aż do 0,5. Nawet w tym ostatnim wypadku wnioski formułowane na podstawie parametrów szacowanego modelu nie zmieniały substantywnych ustaleń dotyczących efektów uzyskiwanych przez poszczególne szkoły.
Wystąpienia innych mówców również poświęcone były systematyzacji wiedzy na temat metod analizy przyczynowości. Jednakże nie one nadawały zasadniczy ton konferencji. Podstawy statystycznych modeli służących do identyfikacji związków przyczynowych sformułowano bowiem jeszcze w latach 70-80 ubiegłego stulecia, do czego przyczynił się w dużej mierze obecny na konferencji Donald B. Rubin. Od tego czasu gros uwagi poświęcano przede wszystkim zastosowaniom tych metod w praktyce, co weryfikowało trafność i przydatność poszczególnych modeli i wskazywało kierunki rozwoju teorii. Można wręcz powiedzieć, że praktyczne zastosowania wypromowały tę dziedzinę wiedzy, która z akademickich gabinetów trafiła do instytucji i programów rządowych w wielu krajach.
Najbardziej spektakularnym przykładem zastosowań omawianych metod jest amerykański program rządowy „No Child Left Behind” (NCLB), wprowadzony w Stanach Zjednoczonych w 2002 roku za czasów prezydentury George’a Busha. Podczas konferencji założenia tego programu i stosowaną w nim metodologię oceny szkół przedstawił Thomas D. Cook z Uniwersytetu Northwestern. Celem programu było stworzenie mechanizmów systemowych zwiększających skuteczność amerykańskiego szkolnictwa. Ocena efektów pracy szkoły w tym programie dokonywana bjest na podstawie corocznego testowania nabytych przez uczniów umiejętności, przy czym wybór wersji testów pozostawiono kompetencji władz w każdym stanie. W oparciu o te wyniki Amerykański Departament Edukacji określa wskaźnik Adequate Yearly Progress (AYP). Gdy osiągnięcia uczniów w szkole są poniżej tego kryterium, to w pierwszym roku szkoła ma obowiązek powiadomić o tym rodziców. Jeżeli sytuacja powtórzy się w kolejnym roku, to rodzicom należy przedstawić rekomendacje dotyczące zmiany szkoły. W następnych latach sankcje są bardziej surowe, aż do zwolnienia wszystkich nauczycieli i zamknięcia szkoły, gdy przez kolejne 5 lat efekty jej pracy są poniżej standardu AYP.
Systematycznie prowadzone analizy wykazują, że dzięki programowi NCLB na szczeblu ogólnokrajowym obserwuje się systematyczny wzrost wyników uzyskiwanych przez uczniów. Przy czym szybszy wzrost następuje w szkołach publicznych, które przed wprowadzeniem programu NCLB uzyskiwały wyraźnie gorsze wyniki od szkół prywatnych. Program spowodował więc uruchomienie rezerw przede wszystkim w szkołach, które przez lata wykazywały symptomy zaniedbania pod względem jakości kształcenia. Jak pokazał Thomas D. Cook, program pozwolił również częściowo zniwelować różnice między poszczególnymi stanami.
Również w Europie wskazać można zastosowania metodologii identyfikacji związków przyczynowych w programach rządowych. Christiane Fiege z Uniwersytetu w Jenie omówiła prace aktualnie prowadzone dla potrzeb Federalnego Ministerstwa Edukacji Niemiec. Dotyczą one identyfikacji czynników kontekstowych, których wpływ należy wyeliminować, aby w obiektywny sposób móc oceniać wyniki pracy poszczególnych szkół na podstawie testu kompetencji w dziedzinie języka niemieckiego, matematyki i języka angielskiego, który przeprowadzany jest w 3, 6 i 8 klasie szkół niemieckich (www.kompetenztest.de). Celem tych prac jest przede wszystkim stworzenie narzędzia dla nauczycieli, które pozwoli im ocenić uzyskiwane efekty.
Najbardziej zaawansowany przykład praktycznego zastosowania metod identyfikacji związków przyczynowo-skutkowych przedstawiony na konferencji odnosił się jednak nie do obszaru badań edukacyjnych, a do programu przeciwdziałania bezrobociu. Susan Rässler z Uniwersytetu w Bambergu (który nota bene przez wiele lat był Wyższą Szkołą Pedagogiczną), przedstawiła stan zaawansowania projektu ALMP (Active Labor Market Policy) realizowanego przez biuro federalne w Niemczech (niem. TrEffeR). W projekcie tym stworzono unikalny na świecie komputerowy system estymowania na bieżąco efektów różnych programów przeciwdziałania bezrobociu. W chwili obecnej system zawiera informacje o skuteczności działań podjętych od 2002 r wobec osób zarejestrowanych jako bezrobotni i korzystających z różnych form aktywizacji zawodowej. Na podstawie tej wiedzy dokonywana jest estymacja efektywności programów, które wprowadziły lub planują wprowadzić na swoim terenie lokalne biura zatrudnienia. W estymacjach tych uwzględnia się region zamieszkania, a także strukturę płci, wieku, wykształcenia, przyczyn bezrobocia a także szereg innych czynników (np. niepełnosprawność) charakteryzujących zbiorowość, do której będzie adresowany nowy program. Warto wspomnieć, że system powstał w ścisłej współpracy z Donaldem B. Rubinem.
W krótkim artykule nie sposób wymienić wszystkich istotnych kwestii, jakie poruszano podczas konferencji. Wspomnijmy jednak o wniosku sformułowanym przez Kelly Hallberg (Northwestern University), która wykazała, że w wypadku braku informacji o wynikach wcześniejszych testów badanych uczniów równie skutecznie można posługiwać się oceną zdolności ucznia dokonaną przez nauczyciela. Z kolei Ulf Kröhne z Deutsches Institut für Internationale Pädagogische Forschung we Frankfurcie nad Menem zwrócił uwagę, że sposób funkcjonowania poszczególnych rodzajów szkół tego samego szczebla (np. prowadzących do zawodu i prowadzących do studiów wyższych) różnić się może na tyle, że wymaga to estymacji osobnych modeli dla każdej ścieżki kształcenia. W wypowiedziach wielu prezenterów i uczestników przewijał się ponadto wątek, że o ile jest to możliwe, to warto przynajmniej część uczniów dobrać do eksperymentu pedagogicznego w losowy sposób. Znacznie zwiększa to precyzję dokonanych ustaleń, co jest ważne zwłaszcza wtedy, gdy eksperyment obejmuje niewielką liczbę uczniów. Inne wątki, a także pełny program konferencji, można znaleźć na stronie http://www.metheval.uni-jena.de/projekte/symposium2010/program.php.
Na konferencji nie brakowało też głosów krytycznych wobec metodologii, która współcześnie wyznacza podejście do identyfikacji związków przyczynowych. Derek Briggs z Uniwersytetu w Colorado poświęcił swoje wystąpienie uzasadnieniu tezy, że niekiedy nie da się oddzielić efektu pracy szkoły – czyli wzrastających z roku na rok wyników osiąganych przez uczniów w testach, od wzrostu, który wynika z ich rozwoju poznawczego, ze zmian w kompozycji społecznej ogółu uczniów w szkole, czy też z innych przyczyn nie mających wiele wspólnego z wysiłkiem podejmowanym przez nauczycieli. Dlatego radził, aby najczęściej stosowany wskaźnik oceny pracy szkoły – w postaci tak zwanej Edukacyjnej Wartości Dodanej EWD (Value-added Model) – relatywizować każdorazowo do faktycznej sytuacji w danej szkole. W wielu sytuacjach pozwoli to uchronić się od przypadkowych interpretacji, które pomijają faktyczne przyczyny uzyskanej takiej, a nie innej wartości wskaźnika EWD. Swoją prezentację Derek Briggs zakończył w nieoczekiwany sposób. Mianowicie odśpiewał na melodię stanowiącą motyw główny IX Symfonii Beethovena pieśń z własnym tekstem, przestrzegającym przed nieuprawnionym stosowaniem metody EWD. Wydaje się, że ta nietypowa forma zwrócenia uwagi na prezentowane argumenty była uzasadniona, gdyż na konferencji do omawianych metod podchodzono w sumie jednostronnie – eksponując korzyści, zaś pomijając zagrożenia związane z ich stosowaniem.
Krytycznie można się też odnieść do niektórych kwestii organizacyjnych. Trudno domyślić się, jakie kryteria wzięto pod uwagę ustalając kolejność wystąpień. Były one przemieszane tematycznie, przez co nie układały się w spójny obraz. Dość powiedzieć, że omówione wyżej wystąpienie Petera M. Steinera, które ze względu na swój przeglądowy charakter stanowić mogło dobre wprowadzenia w problematykę konferencji, wygłoszone zostało jako jedno z ostatnich. Wyniki analiz empirycznych przeplatały się z prezentacjami teoretycznymi. W wystąpieniach z różnych dni odwoływano się do tych samych danych. Nie ułatwiało to ogarnięcia całości omawianej problematyki komuś, kto w tych kwestiach nie był dostatecznie biegły przed konferencją.
Uchybienia organizacyjne nie zmniejszyły jednak merytorycznej wartości konferencji. Stanowiła ona unikalną możliwość spotkania się osób z całego świata, które podzielają pogląd, że oceny osiągnięć szkół i nauczycieli dokonywać trzeba w sposób sprawiedliwy. To znaczy, uwzględniając warunki, w których pracuje szkoła, a także zdolności i postawy młodzieży, która do szkoły trafiła. Konferencja dotyczyła jednego z podejść do formułowania tego rodzaju sprawiedliwych ocen, opartego na statystycznym modelowaniu danych. Dodajmy, że jest to podejście, któremu zaufało wiele agencji rządowych.
Zbyszek Sawiński i Dorota Węziak-Białowolska