(Wie) lässt sich die Wirksamkeit komplexer Interventionen evaluieren?

Die Gesundheitsförderung und Prävention steht zunehmend unter Druck, die Wirksamkeit ihrer Projekte und Programme nachweisen zu müssen. In der einschlägigen Literatur wird derzeit eine engagierte Debatte über Evidenz und die ‚richtige‘ Evaluationsform für Wirkungsbeurteilungen in diesem Handlungsfeld geführt. Randomisierte kontrollierte Studien, welche sich in der evidenzbasierten Medizin als ‚Goldstandard‘ der Wirksamkeitsforschung etabliert haben, werden für die Evaluierung von Interventionen der Gesundheitsförderung und Prävention weitgehend als unangemessen zurückgewiesen, weil sie der Komplexität der Interventionen in den meisten Fällen nicht gerecht würden.

Daraus ergibt sich für die Gesundheitsförderung folgendes ‚Evidenzdilemma‘: obwohl die Gesundheitsförderung ihre Wirksamkeit belegen und evidenzbasiert intervenieren soll, lehnt sie gerade jenen Studientyp als ungeeignet ab, welchem exklusiv zugestanden wird, Wirksamkeit nachweisen zu können. Dieser Umstand hat mich vor Jahren dazu bewogen, mich intensiver mit komplexen Interventionen und deren Evaluation zu beschäftigen. Im Rahmen einer Dissertation am soziologischen Institut der Universität Basel (bei Prof. Dr. Manfred Max Bergman) habe ich mich eingehend mit der Komplexität sozialer Systeme und mit der Wirkungsevaluation komplexer Interventionen beschäftigt:

In der inhaltsanalytischen Untersuchung von Evaluationsberichten aus dem Feld der Gesundheitsförderung und Prävention hat sich sehr schön gezeigt, wie Wirkungen nicht einfach ‚nachgewiesen‘, sondern vielmehr sozial konstruiert werden. Bei der Wirkungskonstruktion hat die Evaluation einen grossen Handlungsspielraum. Sie fällt bei der Eingrenzung, Erfassung und Verarbeitung von Komplexität sowie bei der Wirkungsbeurteilung laufend Entscheide, welche die Wirkungskonstruktion und damit die postulierten Wirkungen beeinflussen. Wirkungsevaluation bewegt sich immer im Spannungsfeld zwischen Einfachheit, die Wichtiges vernachlässigt, und Komplexität, die nicht mehr zu bewältigen ist. In der Arbeit wird dieses Handlungsspektrum detailliert herausgearbeitet und es wird gezeigt, mit welchen Strategien Evaluationen Komplexität einerseits breit erfassen und andererseits stark reduzieren.

Wirkungsnachweise werden in der Evaluationspraxis auch, aber nicht alleine über randomisierte kontrollierte Studien erbracht. Neben kontrafaktischen Vergleichen werden Wirkungsaussagen vor allem mittels detaillierter Rekonstruktion von Wirkungszusammenhängen begründet. Gut gemachte (quasi-) experimentelle Studien können auf einer übergeordneten Ebene wertvolle Hinweise auf das Wirkungspotenzial von Interventionen geben. Da sie allerdings kaum Rückschlüsse auf die Wirkungsrelevanz zielgruppen-, kontext- oder interventionsspezifischer Besonderheiten ermöglichen und keine Erkenntnisse über differenzierte Wirkungsmechanismen und über nicht intendierte Nebenwirkungen liefern, sind sie für fundiertes Entscheiden und Handeln in der Gesundheitsförderung und Prävention nur begrenzt tauglich.     Weiterlesen

Die Entwicklung grosser Programme beurteilen

Grosse Interventionsprogramme, z.B. nationale Gesundheitsförderungsprogramme, setzen gleichzeitig auf unterschiedlichen Wirkungsebenen an. Es geht beispielsweise darum, auf politischer Ebene zu sensibilisieren, Organisationen und ihre Angebote besser zu koordinieren, die Akzeptanz eines Themas in der Öffentlichkeit zu fördern, Settings wie beispielsweise Schulen gesundheitsförderlicher zu gestalten, Multiplikatorinnen und Multiplikatoren weiter zu bilden sowie Gesundheitskompetenzen und –verhalten von unterschiedlichen Zielgruppen zu fördern.

Um die Entwicklungen auf den verschiedenen Wirkungsebenen beurteilen zu können, braucht es unterschiedliche Datenerhebungen und Analysen. Wirkungsmodelle können dabei helfen, die relevanten Wirkungsebenen zu ordnen und zu definieren, wo es Monitorings für die kontinuierliche Überwachung von Entwicklungen braucht und wo Evaluationen spezifische Fragestellungen vertieft untersuchen sollen. Die folgende Grafik zeigt am Beispiel des Schwerpunktprogramms Gesundes Körpergewicht von Gesundheitsförderung Schweiz auf, wie Monitoring- und Evaluationsprojekte kombiniert werden können, um eine Gesamtsicht über die Entwicklung eines Programmes zu erhalten (zum Vergrössern auf das Bild klicken):

Abb. Monitoring- und Evaluationsprojekte von Gesundheitsförderung Schweiz im Bereich Ernährung, Bewegung, Gesundes Körpergewicht (2015)

Eine wissenschaftliche Publikation aus dem Jahr 2015 fasst die Erkenntnisse aus sechs Jahren Evaluation und Monitoring zu diesem Schwerpunktprogramm zusammen. Sie zeigt das Potenzial und die Grenzen des gewählten methodischen Ansatzes auf und gibt Einblicke in die Ergebnisse der Monitorings und der Evaluationen: Publikation (in Englisch)

Ist Monitoring ohne Indikatoren und Zahlen möglich?

Mit Monitoring verbinden wir in der Regel ein Set an Indikatoren, zu welchem kontinuierlich Daten erhoben werden. Mittlerweile gibt es wohl kaum mehr Lebensbereiche, zu welchen nicht laufend Zahlen gesammelt und aufbereitet werden, um Entwicklungen beurteilen zu können: Lebensqualitätsindikatoren, Finanzkennzahlen, Gesundheitsindikatoren, Schadstoffmessgrössen, Indikatoren für Spitalvergleiche, etc. Wir sind uns derart gewohnt, Entwicklungen in Zahlen auszudrücken, dass wir uns ein Monitoring ohne Indikatoren und Zahlen kaum vorstellen können. Es gibt aber Alternativen.

In der Entwicklungszusammenarbeit wurde in den letzten Jahren ein Monitoringansatz entwickelt, welcher ohne Indikatoren und Zahlen auskommt. Der am story telling angelehnte Ansatz, welcher sich „Most Significant Change (MSC) Technique“ nennt, bittet Akteure im Feld, regelmässig (z.B. einmal monatlich) über massgebliche Veränderungen zu berichten. Dazu wird eine Stimulusfrage vorgegeben, welche typischerweise etwa so lautet:

„Welches war aus Ihrer Sicht im letzten Monat die massgeblichste Veränderung im Quartierleben, die durch das Programm bewirkt wurde?“  

Die Geschichten werden in einem partizipativen Gruppenverfahren gesammelt, gelesen, diskutiert und beurteilt. Die bedeutendsten Geschichten werden ausgewählt, die Wahl begründet und an die Akteure zurückgemeldet. In der Regel bleibt in diesem mehrstufigen Verfahren lediglich eine Geschichte pro Runde übrig. In regelmässigen Abständen, z.B. einmal jährlich, werden die ausgewählten Geschichten zu einem Monitoringbericht verdichtet.

Zu diesem innovativen Monitoringansatz gibt es eine ausführliche Anleitung mit vielen Beispielen und Erfahrungen aus der Praxis:

Davies, Rick; Dart, Jess (2005) The ‘Most Significant Change’ (MSC) Technique. A Guide to Its Use

Eine willkommene Abwechslung zu unserer zahlengetriebenen Evaluationskultur!

Die Technik kann sowohl zur Evaluation von Programmwirkungen genutzt werden als auch ohne Bezug zu einer Intervention. Wird sie zur Evaluation eingesetzt, so empfehlen die Autoren, die Technik nicht isoliert, sondern in Kombination mit anderen Methoden einzusetzen, um vom Potenzial verschiedener Methoden profitieren und Synergien nutzen zu können. Und wer nicht ganz auf Zahlen verzichten kann, für den gibt es auch innerhalb der dieses Ansatzes Möglichkeiten, Aspekte aus den Geschichten zu quantifizieren 😉

Angemessen mit Zielen umgehen

Ziele sollten möglichst konkret und messbar formuliert werden, darüber ist man sich mittlerweile weitgehend einig. Das Konzept der ‚smarten Ziele‚ und die Operationalisierung von Zielen mittels bedeutsamer Indikatoren gehören heute zum Standardrepertoire von Organisations- und Projektmanagerinnen und –managern und sie sind fester Bestandteil in Curricula entsprechender Lehrgänge.
Diese Entwicklung ist insofern erfreulich, als dass heute viel konsequenter als früher danach gefragt wird, was wir mit unseren Dienstleistungen genau bezwecken. Allerdings sind mit dieser Systematisierung bei der Zielformulierung und –überprüfung auch Gefahren verbunden. Dann nämlich, wenn es nicht mehr primär um die Inhalte geht, sondern die Form im Vordergrund steht. Die folgenden Reflexionen sollen zur Diskussion anregen:

Darf man keine Ziele formulieren, die nicht messbar sind?
Bei der Zielformulierung muss der Inhalt im Vordergrund stehen. Die Frage der Messbarkeit ist zwar eine wichtige, aber erst nachrangige Angelegenheit. Ziele, welche im Rahmen der eigenen Möglichkeiten nicht direkt gemessen werden können, sind deswegen noch lange keine schlechten Ziele. Vielmehr gilt es zu überlegen, welche alternativen Möglichkeiten es für eine Beurteilung der Zielerreichung gibt. Ist beispielsweise die Reduktion von Krankheitsprävalenzen in einer Bevölkerungsgruppe aus methodischen, finanziellen oder ethischen Gründen nicht messbar, so soll dieses Ziel deswegen nicht gestrichen werden, wenn es an sich wichtig und richtig ist. Einschätzungen von Expertinnen und Experten können beispielsweise aushelfen, wenn eine direkte Messung der Prävalenzen nicht möglich ist. Lieber bedeutsame Ziele, auch wenn sie nicht immer direkt gemessen werden können, als Ziele, zu denen es zwar gute Daten gibt, die aber nicht wirklich das beschreiben, was man wirklich erreichen will.

Soll man seine Ziele laufend aktuellen Entwicklungen anpassen?
Entwicklungen in sozialen Systemen sind in der Regel nicht exakt voraussehbar, was nicht nur die Zielformulierung, sondern auch die Zielerreichung erschwert. So kann es in der Durchführung eines Projekts plötzlich zu Widerständen kommen oder die Erfahrung zeigt, dass sich einzelne Massnahmen nicht so einfach wie vermutet umsetzen lassen. Sollen nun die Ziele möglichst rasch angepasst werden, damit die Zielerreichung nicht gefährdet ist? Eine Korrektur der Ziele kann durchaus sinnvoll sein, allerdings sollte dies eher die Ausnahme bleiben. Wenn in der Konzipierung eines Projekts Ziele festgelegt wurden, dann gab es auch gute Gründe für diese Ziele. Können diese nun nicht wie geplant erreicht werden, so muss man sich immer zuerst die Frage stellen, welche alternativen Strategien und Massnahmen gewählt werden könnten, um die Ziele auf anderem Weg zu erreichen. Zudem sind Projekte, welche nicht alle Ziele in geplantem Umfang erreichen, nicht a priori schlechte Projekte. Gerade in komplexen Zusammenhängen ist es eher Regel als Ausnahme, dass Ziele nicht vollständig erreicht werden. Eine vorschnelle Korrektur der Ziele „nach unten“ verhindert Lernprozesse und das Auffinden von neuen Wegen. Also nicht zu schnell aufgeben, wenn die Ziele die richtigen sind!

Macht es in komplexen Zusammenhängen überhaupt Sinn, Ziele zu setzen?
Auch in sehr dynamischen Zusammenhängen, in denen viel Unvorhersehbares passieren kann, soll nicht auf das Formulieren von Zielen verzichtet werden. Im Gegenteil, Ziele sind dort umso wichtiger, will man nicht ziellos hin und her getrieben werden. Eine klare Vorstellung darüber, wohin die Reise gehen soll, braucht es auch bei stürmischem Seegang. Allerdings ist eine regelmässige Überprüfung des Kurses dort besonders wichtig, um rechtzeitig Kurskorrekturen vornehmen zu können. In sehr komplexen Programmen oder Projekten muss man sich generell aber eine grössere Offenheit im Umgang mit Zielen bewahren. Insbesondere dann, wenn Ziele und Massnahmen in partizipativen Prozessen laufend weiter entwickelt werden, können zu Beginn oft nur grobe und provisorische Ziele formuliert werden. Aber auch da geht es nicht ohne eine Verständigung darüber, wohin die Reise gehen soll.

Wenn Wirksamkeitsstudien täuschen

Der Nachweis von Wirkungen in der Gesundheitsförderung und Prävention ist schwierig, weil wir es mit komplexen und dynamischen Ursache-Wirkungsgefügen zu tun haben. Nur selten gelingt es, Interventionen in allen untersuchten Fällen standardisiert durchzuführen und über längere Zeit stabil zu halten. Zudem ist es in der Regel nicht eine einzelne Intervention, welche die gewünschten Wirkungen zu erbringen vermag, sondern das Zusammenspiel verschiedenster Ansätze auf unterschiedlichen Ebenen über eine längere Zeit. Es wäre vermessen anzunehmen, dass sich problematische Entwicklungen, die sich über Jahre oder Jahrzehnte hingezogen haben, durch ein einzelnes punktuelles Projekt nachhaltig ‚umkehren‘ lassen. So kann beispielsweise ein Gesundes Znüni-Projekt an einer Schule zwar durchaus einen Beitrag zu einem ausgewogeneren Ernährungsverhalten liefern, davon auszugehen, dass alleine damit der Anteil übergewichtiger Kinder in einer Schule gesenkt werden kann, wäre aber sehr gewagt. Es ist denn auch wenig erstaunlich, wenn sich in Wirksamkeitsstudien zu vergleichbaren Projekten keine Effekte auf die Übergewichtsprävalenz nachweisen lassen.

Manchmal lassen jedoch Wirksamkeitsstudien zu einzelnen Gesundheitsförderungs- oder Präventionsprojekten mit eindeutigen und überraschenden Wirkungsnachweisen aufhorchen. Nicht selten aber führt ein etwas kritscherer Blick in den Methoden- und Ergebnisteil entsprechender Studien zu einer Ernüchterung. Nicht immer sind die angepriesenen Wirkungsnachweise so deutlich, wie sie angepriesen werden. Oftmals sind es methodische Unzulänglichkeiten, welche zu allzu positiven Ergebnissen führen, manchmal ist die Darstellung der Ergebnisse in Zusammenfassungen unausgewogen, indem signifikante Ergebnisse in den Vordergrund gestellt und nicht signifikante verschwiegen werden.

Evaluationsteams fühlen sich oft gedrängt, den Auftraggebenden positive Ergebnisse anbieten zu müssen und sie scheuen sich davor, Projektleitende, welche gewissenhaft gute Arbeit leisten, mit kritischen Ergebnissen zu enttäuschen. Je mehr Evaluator/-innen mit den von ihnen untersuchten Projekten oder Programmen verbunden sind, umso grösser ist die Gefahr, gefundene Ergebnisse zu beschönigen.

Evaluation von Gesundheitsförderung und Prävention tut gut daran, kritisch und ehrlich über das Potenzial von Interventionen und über die eigenen Möglichkeiten (der Evaluierung) nachzudenken. Auch wenn dies bedeutet, neue Wege der Evaluation zu beschreiten, anstatt dem in der medizinischen Forschung etablierten, aber in unserem Feld oft wenig aussagekräftigen, Goldstandard (randomisierte kontrollierte Studien) nachzuhängen.

Die aus dem Jahr 2007 stammende kritische Auseinandersetzung von Eisner & Ribaud ist allen zu empfehlen, die gerne hinter die Fassaden blicken.

Eisner & Ribaud 2007

Evaluation komplexer Interventionen – aktuelle Tendenzen

Die Evaluation komplexer Interventionsprogramme ist eine grosse Herausforderung, mit der ich mich seit Jahren beschäftige. Randomisierte kontrollierte Studien, der Goldstandard der klinischen Wirksamkeitsforschung, sind in diesem Bereich nur selten anwendbar. Die Vielschichtigkeit, Dynamik und Unvorhersehbarkeit komplexer sozialer Interventionen verlangen nach alternativen Forschungsansätzen. Aktuelle Tendenzen auf der Suche nach angemessenen Evaluationsdesigns sind etwa:

  • Partizipative Ansätze: Mitwirkung der Stakeholder im gesamten Prozess anstatt diese bestenfalls als Informationsquelle zu nutzen
  • Methodenkombinationen: Methoden spezifisch einsetzen und kombinieren anstatt einen unangemessenen goldstandard zu postulieren
  • Nutzung von Wirkungsmodellen: Wirkungsmodelle als Hilfe zum Verstehen komplexer Systeme anstatt Prüfung vereinfachter linearer Ursache-Wirkungszusammenhänge
  • Emergente Evaluationsdesigns: Sich laufend entwickelnde Evaluationsdesigns anstatt starrer Evaluationsplan mit vordefinierten Evaluationsfragen, Indikatoren und Methoden
  • Kontextsensible Evaluationspraxis: Kontinuierliche, systematische Reflexion des Kontextes anstatt unkritischer Generalisierungen und Übertragungen von Ergebnissen
  • Formative Evaluationsansätze/Fokus Lernen: Veränderungsprozesse und Wirkungsmechanismen reflektieren und evaluieren anstatt Momentaufnahmen vergleichen
  • Offenheit/explorative Zugänge: Offenheit für unvorhergesehene Entwicklungen und für nicht-intendierte (Neben-)wirkungen anstatt blinde Überprüfung der Zielerreichung
  • Praxiswissen/lokale Evidenz: Nutzung kontextspezifischen Praxis- und Expertenwissens anstatt Beschränkung auf (meist lückenhafte und einseitige) wiss. Evidenzen
  • Plausibilitäten und Potenziale: Wirkungspotenziale und plausible, kontextspezifische Wirkungszusammenhänge anstatt Versteifung auf generalisierbare Wirkungsnachweise einzelner Interventionen
  • Bescheidenheit: Transparente Diskussion über Möglichkeiten und Grenzen der Wirkungsevaluation anstatt Proklamation nicht haltbarer Wirkungsnachweise

Zum Thema s. auch:
Ackermann Pfyl – Umgang der Evaluation mit Komplexität

Gut gemeint ist nicht gut genug

kolip_300dpi_978-3-456-85048-1Die Anforderungen an Projektleitende im Sozialbereich sind in den letzten Jahren stark gestiegen. Der Trend geht weg von isolierten lokalen Projekten der Verhaltensänderung hin zu umfassenden, vernetzten Mehrebenenansätzen, die es in übergeordnete Strategien und Strukturen einzubetten gilt.  Die Berücksichtigung von Chancengleichheit, Partizipation, Empowerment und Verhältnisorientierung etwa wird ebenso verlangt wie möglichst rasche Wirkungsnachweise. Oft stehen dabei bescheidene Ressourcen unverhältnismässig hohen Erwartungen gegenüber. Um in diesem Spannungsfeld erfolgreiche Projekte durchführen zu können, braucht es einen hohen Grad an Professionalität und die richtigen Hilfsmittel. Das Qualitätssystem quint-essenz von Gesundheitsförderung Schweiz liefert eine solide Basis mit anerkannten Qualitätskriterien, bewährten Instrumenten, einem online-Projektmanagement-Tool und einer Community-Austauschplattform.  Das Buch dazu liefert Hintergrunde, Beispiele und kritische Reflexionen:

http://www.quint-essenz.ch/de/files/Gesundheitsfoerderung_mit_System.pdf