artikel

Veel fouten in smaakonderzoek

Algemeen

Smaakonderzoek gaat niet vanzelfsprekend goed. Zowel in markt- en consumentenonderzoek als in sensorisch onderzoek worden fouten gemaakt. Betrouwbaarheid, validiteit en generaliseerbaarheid laten te wensen over. Zo worden hoge kosten gemaakt voor weinig informatie. VMT en MOA organiseerden op 22 april het congres ‘Proeven van succes II’ over de optimalisatie van resultaten van smaakonderzoek.

Het Algemeen Dagblad kopte onlangs: ‘De beste worst van Nederland’. Wat blijkt? Het onderzoek dat aan deze uitkomst ten grondslag lag, telde zeven willekeurige respondenten die 28 verschillende rookworsten proefden. Als een van de beste én als een van de slechtste producten werden rookworsten gekozen die volgens de fabrikant dezelfde samenstelling hadden, maar onder verschillende merken op de markt werden gebracht.

Met dit en andere voorbeelden illustreerde Wim van Slooten, directeur van MarktOnderzoekAssociatie (MOA), dat er veel slecht markt- en consumentenonderzoek wordt gedaan. De resultaten worden vaak klakkeloos door de media overgenomen zonder dat naar de onderzoeksopzet wordt gekeken. In het geval van de rookworsten moest het Algemeen Dagblad rectificeren. Maar het kwaad is dan al geschied. Meestal komt rectificatie er in het geheel niet van. Gedupeerden, zo weet Van Slooten op basis van MOA-onderzoek, zijn erg terughoudend in het zoeken van publiciteit.

De MOA voert al vanaf 2003 een keurmerkcampagne om deze misstanden te lijf te gaan. Daarnaast is binnen de associatie nu een brede discussie gestart die leidt tot strikte voorwaarden voor een MOA-lidsmaatschap. MOA dient een kwaliteitslabel te worden, zowel voor markt- en consumentenonderzoeksbureaus als voor opdrachtgevers. Er komen richtlijnen voor het presenteren van onderzoekresultaten die niet alleen bij de bureaus zelf, maar ook bij media, consumentenorganisaties, overheid, et cetera onder de aandacht worden gebracht. Zelfs de rechterlijke macht wordt ondersteund met een boekwerkje dat in samenwerking met de FNLI wordt opgesteld. Verder wordt een geschillencommissie ingesteld die achter gesloten deuren zitting kan houden. In het geval van de worsttest kan een gedupeerde fabrikant hier gebruik van maken. Belangrijk is verder dat medio 2006 de ISO 225-norm verschijnt. Deze norm zal leidend worden voor de beoordeling van de kwaliteit van internationaal opererende marktonderzoekorganisaties.

Psychologische invalshoek
Gezien vanuit de psychologie die achter voedselkeuze schuil gaat, komen veel fouten in het consumentenonderzoek naar voren, zo vertelde Ep Köster, emeritus hoogleraar van het Helmholtz Instituut (Universiteit van Utrecht) en adviseur bij A&F. “Om als ‘echte’ wetenschap te worden beschouwd ‘leent’ het sensorisch onderzoek methoden van de natuurwetenschappen. Daar zijn veel methoden wel valide. Maar het sensorisch onderzoek werkt met mensen. Daardoor zijn de methoden vaak te simplistisch en gebaseerd op niet bewezen vooronderstellingen.”
De verklaring dat 70% van de productintroducties flopt, is naar zijn mening deels gelegen in de zeer beperkte voorspellende aard van eerste voorkeursmetingen voor de acceptatie op de langere termijn. De smaak en voorkeur van mensen blijkt tijdens meerdere sessies te veranderen. Het in eerste instantie meest geliefde product is dus waarschijnlijk niet het beste product voor de markt. “Sterker nog”, aldus Köster, “waar iedereen direct op valt, moet je dus net niet hebben. Een wat minder gewaardeerd, maar complexer product zal het in de markt langer uithouden.”

Köster benadrukte verder dat mensen verschillende soorten voedsel willen in verschillende situaties: “Honger toont ‘eetbare dingen’. Maar honger op een koude wintermorgen toont iets heel anders dan honger op een heet strand.”

Samenvattend noemde hij als veelgemaakte fouten bij voedselonderzoek:
– middelen over verschillende populaties (leeftijd, geslacht, eetgewoonten)
– onvoldoende analyse van individuele verschillen
– te veel expliciete en te weinig impliciete methoden
– veel onduidelijke of onbeantwoordbare vragen stellen (zie kader)
– te veel geloof in de onveranderlijkheid van de consument
– te weinig aandacht voor de rol van het geheugen in waarneming en verwachting
– testen in betekenisloze situaties
“Goed onderzoek is duur, maar slecht onderzoek is nog veel duurder”, zo sprak de emeritus hoogleraar op grond van zijn ruime ervaring. “Stel dat je het percentage productintroducties dat flopt naar bijvoorbeeld dertig kunt terugbrengen. Wat levert dat niet op! Heb je een slecht of inadequaat panel? Beslis dan zelf maar. Dat is dan niet veel beter of slechter dan onderzoek doen. Onderzoek geeft dan alleen maar schijnzekerheid. Wil ook niet voor alles onderzoek doen. Is de verwachting dat een product maar kort in de markt is, maak dan geen drukte. Maar doe je onderzoek, doe het dan goed.”

Analytisch en affectief
Naast het markt- of consumentenonderzoek, dat wordt gebruikt om vast te stellen hoe de eindgebruiker de varianten beoordeelt of waardeert, is er het sensorisch onderzoek. Daarmee wordt vastgesteld of er verschillen zijn waar te nemen tussen varianten. Welke plaats beide typen onderzoek innemen in consumentgerichte productontwikkeling en waarom het wordt uitgevoerd, is weergegeven in de figuur (zie ook VMT 25 (2004) pp. 34-35).

Garmt Dijksterhuis, senior scientist bij A&F en verbonden aan de faculteit Economie van de Universiteit van Groningen, noemde de twee typen smaakonderzoek analytisch (het product wordt onderzocht met de mens als meetinstrument voor de productontwikkelaar) en affectief (de mens wordt onderzocht met het product als meetinstrument voor de marketeer). Bij sensorische analyse gaat het dan om selectie en training van de panels. Betrouwbaarheid, nauwkeurigheid, kalibratie, statistiek en methodologie spelen daarbij een rol. Bij consumentenonderzoek moet het panel representatief en naïef zijn. Het is een instrument voor het meten van acceptatie en voorkeur.

Essentie
“De essentie van onderzoek is methodologie en statistiek”, aldus Dijksterhuis. “Testen is een vorm van prijsschieten.”
Kenmerken van methodologie en statistiek zijn validiteit, betrouwbaarheid en generaliseerbaarheid. Validiteit heeft te maken met: de test meet wat je meten wilt, het resultaat heeft geldigheid in de populatie en de test voorspelt. Bovendien moet de uitkomst altijd terugslaan op de onderzoeksvraag. De validiteit komt in gevaar bij een verkeerde of te kleine steekproef, selectiebias en drop-out, volgorde-effecten en soms door het blindelings toepassen van statistiek. Betrouwbaarheid gaat om: meet je goed? Geeft herhaalde meting hetzelfde resultaat? En komende verschillende panelleden tot dezelfde beoordeling. Generaliseerbaarheid betekent dat de meting met andere panelleden op andere dagen in andere omstandigheden een vergelijkbaar resultaat moet geven.

Eisen aan panels
Worden er uitspraken over eigenschappen van producten gedaan, dan is het vanzelfsprekend wenselijk om te weten of er niet te veel onbedoelde en ongewenste effecten zijn die leiden tot afwijkingen, zo vertelde Wim Vaessen, directeur Essensor.

Bronnen die kunnen leiden tot afwijkingen, ‘variantiebronnen’, zijn het effect van het panellid, de meetsessie en het product. Bovendien kunnen er nog combinaties van twee of drie van deze effecten optreden. De mate waarin dit het geval is, is uit te drukken in de generaliseerbaarheidscoëfficiënt. Deze coëfficiënt is daarmee een schatter van betrouwbaarheid en verschaft de statistiek om de generaliseerbaarheid van de scores te meten. “Zo kunnen de resultaten van panelmetingen op hun waarde worden geschat en zo mogelijk geoptimaliseerd”, aldus Vaessen.
Pieter Punter van OP&P Product Research, voegde aan de eisen die aan een panel worden gesteld discriminatie toe: kan het individu en het panel producten die verschillen ook als verschillend beoordelen? Punter onderstreepte dat de prestatie van individuele panelleden en het panel als geheel zeer nauwkeurig is te bepalen, mits de goede instrumenten aanwezig zijn. “Als dit inzicht ontbreekt, komen er geen zinvolle resultaten.” Hij gaf zijn gehoor het advies paneldata grondig én ‘gratis en voor niks’ te laten analyseren door Pascal Schlich. Eenvoudigweg data mailen naar: schlich@cesg.cnrs.fr.

Verschiltesten
Twee technieken die het sensorisch onderzoek, en dan vooral de veel gebruikte verschiltesten, efficiënter maken, zijn Signal Detection Theory & Thurstonian modelling (SDT&TM) [1]. Daniëlle van Hout, consumer scientist bij Unilever Research Centre vertelde dat met verschiltesten wordt getest of er verschillen tussen producten kunnen worden geproefd en of een verbetering van een product groot genoeg is om waarneembaar te zijn. Is dat niet het geval, dan heeft het ook weinig zin om (dure) consumententesten uit te voeren. Een tweede reden om verschiltesten toe te passen, is om te onderzoeken of verschillen tussen producten acceptabel klein zijn, bijvoorbeeld om kwaliteitsnormen vast te stellen waarbinnen een product moet blijven of bij verandering van de productformulering.

De testresultaten van SDT&TM worden uitgedrukt in eenheden d-prime (d’). Daarmee is d’ een universele maat voor de grootte van het verschil, onafhankelijk van het type verschiltest. Resultaten van verschillende studies kunnen zo direct worden vergeleken. Vuistregel daarbij is dat een verschil van 1 d’ een veilige drempelwaarde is: de kans is groot dat het in de markt niet opvalt. Indien bekend is wat de d’ voor een product is, is via tabellen ook bekend hoe groot de minimale steekproef bij verschillende verschiltesten moet zijn om een bepaald verschil te detecteren. Zo is onderzoek efficiënter te maken, want er blijkt een zeer groot verschil tussen de diverse soorten verschiltesten te zijn. Verder is af te leiden in welke situatie welke methode – ook andere dan verschiltesten – geschikt is.

SDT&TM maakt ook het verschil tussen getrainde sensorische panelleden en ongetrainde consumenten zichtbaar. Is de drempelwaarde voor consumenten 1 d’, voor panels is deze 1,5 d’. Een sensorisch panel kan dus met veel minder mensen volstaan. Bij kleine productveranderingen kan een panel (en niet het duurdere consumentenonderzoek) worden gebruikt om te voorspellen of consumenten in staat zijn dit verschil op te pikken.
Ook is een panel in te zetten om de relatie tussen mate van verschil te vergelijken tussen producten die puur worden geproefd en in combinatie met een maaltijd.

Praktijk
Dat de statistische betrouwbaarheid van de informatie belangrijk is, maar dat in de praktijk moet worden gewerkt binnen grenzen die worden gesteld door tijd en kosten, maakte Stan Knoops duidelijk. De manager Sensory & Consumer Insight lichtte het Pulse-systeem van IFF toe, waarmee zowel strategisch lange termijn als tactisch inzicht en snelle feedback aan de productontwikkelaar wordt gegeven. Met het geautomatiseerde systeem worden in negen werkdagen in totaal 150 producten getest en 60.000 metingen verricht. IFF krijgt zo bijvoorbeeld inzicht in de geuren die consumenten prettig vinden en welke omschrijvingen/associaties en kleuren daarbij passen. Ook verschillen tussen landen worden zichtbaar.

Reageer op dit artikel