Gezonde voeding is een ingewikkeld onderwerp. Zelfs met de beste intenties van onderzoekers kan er veel onduidelijkheid bestaan over “het beste dieet” en de beste manieren om iemand zo’n dieet te laten eten. ‘Voedingsfeiten’ moet je dan ook altijd voorzichtig benaderen. Als wetenschappers cijfers gaan manipuleren of slecht controleren wordt het er niet beter op. Zoals onlangs maar weer gebleken is.
Gevalletje Stapel
Zegt de naam Diederik Stapel je nog iets? De Hoogleraar aan de Tilburg Universiteit werd in 2011 ontslagen wegens het verzinnen van data [1]. In een later interview rechtvaardigde hij dit door te stellen dat hij duidelijkheid in de chaos van data wilde creëren. “Onwenselijke” data van assistenten werd gewist, cijfers werden aangezet en verzonnen [2]. Dit zorgde voor opvallende grote effecten in zijn onderzoeken, resultaten die te mooi leken om waar te zijn, en dat ook waren. Het zijn vaak onderzoeken die een groot effect aantonen die het grotere publiek bereiken. Of onderzoeken die van direct praktisch nut kunnen zijn in ons dagelijkse leven. Of gewoon onderzoeken die voor een mooie titel kunnen zorgen, zowel academisch als boven een artikel.
Onlangs bleek er nog zo’n “gevalletje Stapel’ te zijn ontdekt. Een onderzoek dat wereldwijd mensen stickers van tekenfilmfiguren op appels liet plakken, bleek er één uit vele met twijfelachtige en onjuiste cijfers.
Appeltje Elmo of een koekje?
In 2012 kreeg een onderzoek verricht door onderzoekers van Cornell bijzonder veel aandacht [1]. De onderzoekers vroegen zich af of slimme branding kon zorgen voor een gezondere lunch op school. Uit het onderzoek bleek dat er een simpele manier was om kinderen in de leeftijd van 8 tot 11 jaar te laten kiezen voor een appel in plaats van een koekje: Plak een sticker van een populair figuur op de appel. In geval van het onderzoek Elmo uit Sesamstraat.
De resultaten werden gepubliceerd door JAMA Pediatrics[3]. Het was één van de publicaties die bijdroegen aan de naamsbekendheid en carrière van lead author Brian Wansink, de directeur van Cornell Food and Brand Lab. Voorafgaand aan de interventie (het plakken van de stickers) koos 20,7% van de kinderen voor een appel en 80% voor het koekje. Toen de onderzoekers de appels voorzagen van de afbeelding van Elmo koos meer dan een derde (30,8%) van de kinderen voor de appel. Dat is natuurlijk een flinke stijging, voor de luttele prijs van een sticker. Vooral wanneer je deze bevinding en die uit vergelijkbare onderzoeken in boekvorm beschikbaar maakt, staat menig ouder te popelen om de wetenschappelijk onderbouwde methoden uit te proberen.
Als je echter de bron van de derde referentie opzoekt dan zie je in het rood een grote waarschuwing bovenaan staan. Na ontvangen kritische vragen werd de publicatie in JAMA Pediatrics namelijk teruggetrokken. De onderzoekers van Food and Brand Lab plaatsten vervolgens op 21 september een vervanging waarin ze ingingen op de fouten in de oorspronkelijke publicatie.
Zo bleek foutief beschreven te zijn hoe de kinderen mochten kiezen en waartussen vergeleken werd (Elmo op appel, Elmo op koekje of onbekende sticker). De aantallen deelnemers bleken verkeerd genoteerd en de gebruikte statistische berekeningen moesten uitgelegd worden gezien deze anders waren uitgevoerd dan gebruikelijk. Maar voor de rest klopte alles in het onderzoek, zo stelde directeur Wansink:
We confirm that there are no other errors or omissions in the original article.
En toen werd het pas echt genant.
Op 20 oktober werd het artikel geheel teruggetrokken. Er was namelijk nog een ‘klein’ foutje ontdekt: Het onderzoek was niet uitgevoerd onder 8-11 jarigen, maar onder 3-5 jarigen [5,6]. Nu zullen de meeste ouders beamen dat dit toch een behoorlijk verschil is.
P-hacking, omgekeerde wetenschap
Brian Wansink wordt ook wel “the Sherlock Holmes of food” genoemd. Hij heeft meegeschreven aan meer dan 200 wetenschappelijke publicaties en is meer dan 2800 keer geciteerd. Niet bepaald een pannenkoek zou je denken. Begin dit jaar echter ontdekten andere onderzoekers discrepanties in sommige van zijn onderzoeken. Aantallen klopten niet zoals bijvoorbeeld het genoemde aantal deelnemers in verschillende onderzoeken op basis van dezelfde dataset.
Wansink had een student uitgedaagd meer te halen uit een dataset die hem zelf ‘niets’ had opgeleverd. Wansink had namelijk als hypothese dat mensen minder eten bij een open buffet wanneer het goedkoper is. Op basis van zijn data bleek het echter niets uit te maken. “Zonde van die data” dacht Wansink. Al die kosten gemaakt om informatie te verzamelen in een Italiaans restaurant. Vervolgens liet hij een student met de data aan de slag gaan. “Plan A werkte niet, misschien zijn plan B,C en D een optie” (zijn woorden, niet de mijne [4]). Wansink zegt dus eigenlijk:”Ik had een hypothese en daarvoor heb ik tijd, geld en moeite gestoken in een onderzoek om deze aan te tonen. Nu blijkt mijn hypothese niet waar en heb ik die tijd, geld en moeite eigenlijk verspild”.
Hier gaat Wansink mijns inziens de fout in. Zijn onderzoek was niet waardeloos, hij heeft immers aangetoond dat er geen verband is. Dat is een resultaat. Het is alleen misschien een minder interessant resultaat voor het publiek dan een bevestiging van de hypothese zou zijn.
“Sticker van Elmo op appel heeft geen effect of lunch kinderen”, zal misschien op weinig aandacht kunnen rekenen. Maar “Kinderen eten 50% gezonder dankzij Elmo sticker”, dat scoort. Nu dus de taak aan de student of er dan andere hypotheses bevestigd kunnen worden met dezelfde data uit het Italiaanse restaurant. Welke hypotheses dat zouden moeten zijn, vertelt Wansink niet. Hij had blijkbaar drie alternatieve hypothesen in gedachte (B,C en D), de student vond echter genoeg verbanden in de data om maar liefst vijf wetenschappelijke papers te schrijven in een half jaar tijd.
Dat laatste leidde tot veel gefronste wenkbrauwen onder collega’s. “Is hier misschien sprake van P-hacking (of data dredging, data fishing)?”. Zonder een hypothese in data duiken en gewoon maar kijken welke verbanden je tegenkomt waar je vervolgens een conclusie aan kunt hangen? Zou Wansink ook dieper gedoken zijn in de data als zijn eerste hypothese wel bevestigd was (- waarde kleiner dan 0,05)?
“Pizza studies”
Het Italiaanse restaurant leverde op die manier onder andere de volgende onderzoeken op [7-10]:
- Eten mannen meer in gezelschap van een vrouw?
- In hoeverre bepaalt de prijs hoe je een gegeten pizza beoordeelt en welk stuk pizza heeft hierbij de grootste invloed?
- Lagere buffet prijzen leiden tot een lager gevoel van tevredenheid
- Hangt de mate van schuldgevoel na het eten van een buffet af van de prijs?
Stuk voor stuk ‘blog-bare’ onderzoeken. Van die popular science onderwerpen, click bait in 500 woorden en een mooi kop. Bij het tweede onderzoek was bijvoorbeeld de conclusie dat je beoordeling van een pizza van 4$ vooral afhangt van het laatste stuk dat je proeft. Bij een pizza van 8$ zou dat juist van je beoordeling van het laatste stuk afhangen. Dat soort wereldverbeterende wetenschap verkregen uit Aiello’s Pizza Emporium in New York.
In deze vier onderzoeken vonden onder andere onderzoekers van de universiteiten van Leiden en Groningen maar liefst 150 inconsistenties [11]!
Appeltje Elmo, broodje aap
Net zoals eerdere misstanden in Nederland met eindscripties toont het de noodzaak aan van gedegen peer reviews. Net als de zaak van Diederik Stapel toont het aan dat ook gerenommeerde namen deze strenge controles nodig hebben. Zulke zaken zijn natuurlijk zeer schadelijk voor de wetenschap. Helemaal op een gebied waar de commercie miljarden spendeert om ons te beïnvloeden. Waar de voedingsindustrie het moet hebben van grote marketingbudgetten, moet de wetenschap het hebben van zijn reputatie. Daar kunnen we geen appeltjes Elmo bij gebruiken en geen broodje aap.
Referenties
- rtlnieuws.nl/economie/valse-data-hoogleraar-diederik-stapel-uit-tilburg-ontslagen
- rtlnieuws.nl/nieuws/binnenland/de-acht-opvallendste-bevindingen-van-het-stapel-onderzoek
- Wansink B, Just DR, Payne CR. Can Branding Improve School Lunches?. Arch Pediatr Adolesc Med.2012;166(10):967–968. doi:10.1001/archpediatrics.2012.999
- retractionwatch.com/2017/02/02/backlash-prompts-prominent-nutrition-researcher-reanalyze-multiple-papers/
- buzzfeed.com/stephaniemlee/who-really-ate-the-apples-though?utm_term=.jq3ZpWDa4#.ukLwkYgO6
- jamanetwork.com/journals/jamapediatrics/fullarticle/2659568
- Just, D. R., Sı ̆gırcı, ̈O., & Wansink, B. (2014). Lower buffet prices lead to less taste satisfaction.Journal of SensoryStudies,29(5), 362–370. doi:10.1111/joss.121172.Just, D. R., Sı ̆gırcı, ̈O., & Wansink, B. (2015).
- Peak-end pizza: Prices delay evaluations of quality.Journal ofProduct & Brand Management,24(7), 770–778. doi:10.1108/jpbm01-2015-08023.Kniffin, K. M., Sı ̆gırcı, ̈O., & Wansink, B. (2016).
- Eating heavily: Men eat more in the company of women.Evolutionary Psychological Science,2(1), 38–46. doi:10.1007/s40806-015-0035-34.Sı ̆gırcı, ̈O., & Wansink, B. (2015).
- Low prices and high regret: how pricing influences regret at all-you-can-eatbuffets.BMC Nutrition,1(1), 36. doi:10.1186/s40795-015-0030-
- van der Zee T, Anaya J, Brown NJL. (2017) Statistical heartburn: An attempt to digest four pizza publications from the Cornell Food and Brand Lab. PeerJ Preprints 5:e2748v1https://doi.org/10.7287/peerj.preprints.2748v1