The Face Puzzle: Decoding Human Perception of Digital Agents

Research output: ThesisDoctoral Thesis

140 Downloads (Pure)

Abstract

Vooruitgang in technologie, zoals computergraphics en machine learning, hebben volop kansen gecreëerd voor de ontwikkeling van virtuele agenten die qua uiterlijk sterk op mensen lijken en steeds meer mensachtig communicatief gedrag vertonen. Deze vooruitgang roept verder een schat aan vragen op, onder meer over welke factoren bijdragen aan de sociale aard van kunstmatige entiteiten en of deze entiteiten op dezelfde manier worden verwerkt als mensen.
Dit proefschrift, uitgevoerd in het kader van het ViBE onderzoeksproject, behandelt deze vragen door zich te richten op de menselijke perceptie van het uiterlijk en gedrag van virtuele agenten. We wilden daarnaast ons ook richten op de subjectieve percepties van waarnemers en deze vervolgens te koppelen aan meetbare kenmerken in virtuele agenten. Door
het verkrijgen van een gedetailleerd inzicht in de menselijke perceptie van virtuele agenten, wordt het mogelijk om meer intuïtieve agenten te ontwerpen die vertrouwen kunnen opbouwen met mensen en ze kunnen ondersteunen in sectoren zoals de gezondheidszorg en het onderwijs.
In hoofdstuk 2 hebben we onderzocht of mensen afbeeldingen van menselijke gezichten kunnen onderscheiden van de gezichten van virtuele agenten die gemaakt zijn met behulp van
state-of-the-art methoden op het gebied van computergraphics en machine learning. Daarnaast wilden we er ook achter komen welke kenmerken in het gezicht het onderscheid maakten in
het waarnemen van menselijke gezichtskenmerken ten opzichte van viertuele agenten. De resultaten toonden aan dat mensen in staat zijn tot het onderscheiden van beelden tussen
menselijke en virtuele agenten, waarbij twee aspecten van het gezicht van belang warende gezichtshuid en de ogen. Bij een glad huidoppervlak en ogen zonder corneale reflecties (lichtpuntjes in de ogen) werd het gezicht meer waargenomen als een gezicht van een virtueel agent dan op een gezicht van een mens.
In hoofdstuk 3 onderzochten we de verschillen tussen virtuele gezichten en menselijke gezichten, voornamelijk over welke van de twee gezichten beter worden onthouden. De
aanleiding tot dit onderzoek kwam voort uit eerder onderzoek waaruit bleek dat virtuele gezichten minder goed onthouden worden dan menselijke gezichten. De kenmerken die eerder geïdentificeerd werden, namelijk de huid- en gezichtskenmerken, werden verder onderzocht in een geheugenonderzoek. De resultaten geven aan dat wanneer er geen hoornvlies reflecties zichtbaar waren, het gezicht moeilijker te onthouden was. Dit laat zien dat specifieke details van het gezicht niet alleen bijdragen aan percepties van gezichten maar ook invloed hebben op het geheugen en het onthouden van gezichten.
In hoofdstuk 4 gebruikten we gegevens van perceptie- en geheugenonderzoek en onderzochten we het tijdsverloop van het verwerken van verschillende gezichten met behulp van een nieuwe statistische techniek. Deze techniek werd specifiek toegepast op reactietijden waardoor het mogelijk werd om het proces zelf van het effect van oog- en huidkenmerken kon worden onderzocht. De resultaten toonden aan dat uiterlijke kenmerken van de gezichtshuid al op een vroeg stadium invloed hebben op het verwerken van gezichtswaarneming, en als het gaat om het geheugen wat betreft het gezicht, dan zijn de uiterlijke oogkenmerken cruciaal in het begin tijdens het verwerken van gezichten. De bredere impact van het werk omschreven in Hoofdstuk 4 draagt bij aan het delen van kennis voor onderzoekers waarbij er een makkelijk te volgen gids is gedeeld voor het bestuderen van het tijdsverloop van verwerking op basis van gedragsgegevens door gebruik te maken van een nieuwe statistische techniek.
In hoofdstuk 5 hebben we de bevindingen van eerdere hoofdstukken in een breder kader geplaatst en verdiept door naar de perceptie van virtuele agenten en de Uncanny Valley (UV) te kijken in de hersenen. De UV is verreweg de meest invloedrijke theorie over hoe mensen de kunstmatige entiteiten waarnemen, en veronderstelt dat mensen een voorkeur hebben voor kunstmatige entiteiten die eruitzien als mensen, tot er een bepaald punt is bereikt. Wanneer mensen dus een entiteit zien die sterk op een mens lijkt, maar niet precies lijkt op een mens, neemt hun voorkeur voor de de entiteit af, waardoor ze negatieve gevoelens tegenover de entiteit ervaren. Hoewel de UV voornamelijk is bestudeerd op basis van subjectieve waarnemingen uit enquêtes, zijn onderzoekers de afgelopen jaren begonnen met het inzetten van neurowetenschappelijke technieken om de reacties van de hersenen op de verschillende kunstmatige entiteiten, zowel robots als virtuele agenten, te meten. We hebben de onderzoeken systematisch verzameld over dit opkomende onderzoeksveld wat afhankelijk is van de UV en de hersenmetingen. De belangrijke bevinding uit hoofdstuk 5, die aansluit bij ons werk over
hoe mensen gezichten van virtuele agenten waarnemen en onthouden, was dat op het niveau van de hersenen, dat de gebieden die verantwoordelijk zijn voor het verwerken van gezichten minder actief bleken te zijn wanneer het gezicht niet menselijk genoeg eruit zag, in tegenstelling tot het verwerken van echte gezichten.
In hoofdstuk 6 hebben we onderzocht hoe de hersenen virtuele en echte gezichten in de loop van de tijd verwerken. We hebben voornamelijk de vroege en late stadia van het verwerken van de gezichten onderzocht. Uit de resultaten van eerder onderzoek op dit gebied bleek dat het verwerken van virtuele agent en echte gezichten in de hersenen in een latere fase verschilt, met name vanaf 400 ms. De resultaten zijn echter niet eenduidig met betrekking tot
de richting van dit effect. Sommige onderzoeken toonden aan dat de hersenen sterker reageerden op echte gezichten in een latere fase, terwijl andere studies aangeven dat het juist de gezichten van virtuele agenten waren die een sterkere reactie veroorzaakten. Onze resultaten toonden aan dat de vroege hersenreactie op echte en virtuele gezichten in de vroege fase van verwerking (tussen 140 ms - 200 ms) vrijwel hetzelfde was, echter bleek dat in een latere fase
(tussen 400 ms - 600 ms) echte menselijke gezichten onderscheiden werden van de gezichten van virtuele agenten. Dit effect was echter klein, wat suggereert dat de gezichten van virtuele agenten met een hoge kwaliteit op dezelfde manier worden verwerkt als menselijke gezichten, zelfs in een later stadium.
In Hoofdstuk 7 bestudeerden we dynamische gezichten, en specifiek de link tussen generatie en perceptie van gezichtsuitdrukkingen in gezichten van menselijke en virtuele agenten. Voor het produceren van natuurlijke gezichtsuitdrukkingen van virtuele agenten bestaat er geen standaardmethode en was dit een lastige taak. Onlangs zijn er geavanceerde machine learning-modellen gebruikt voor het genereren van gezichtsuitdrukkingen voor agenten op basis van grote hoeveelheden data. Het was echter interessanter om te onderzoeken of een veel eenvoudiger model ook gezichtsuitdrukkingen kon produceren op basis van gegevens van menselijke gezichtsuitdrukking die begrijpelijk zijn voor mensen. We hebben een model voorgesteld dat nieuwe gezichtsuitdrukkingen genereerde op basis van een reeks al bestaande gezichtsuitdrukkingen die de volgorde van de toestanden kon herordenen om nieuwe gezichtsuitdrukkingen te produceren. We hebben een dergelijk model ook getest in een experiment met gezichten van menselijke en virtuele agenten. De resultaten toonden aan dat het inderdaad mogelijk was om met een kleinere hoeveelheid aan gegevens naturalistische
gezichtsuitdrukkingen te produceren die dan kunnen worden toegepast op virtuele agenten. Daaropvolgend ontdekten we dat specifieke actie-eenheden - activaties van spiergroepen in het gezicht - bij het kiezen van een specifieke categorie gezichtsuitdrukking, zoals geluk of verrassing, de percepties van waarnemers konden voorspellen.
De zeven hoofdstukken van dit proefschrift hebben nieuwe inzichten en bevindingen naar voren gebracht in de context van het waarnemen en verwerken van high-fidelity, mensachtige virtuele agenten. Deze bevindingen zijn ook rechtstreeks van toepassing voor de ontwikkeling van toekomstige virtuele agenten. Daarnaast kunnen andere onderzoekers die ook onderzoek doen over het evalueren van technieken rondom virtuele agenten, de methoden die in dit onderzoek zijn gebruikt, zelf gebruiken voor het bevorderen van toekomstige onderzoeken op dit gebied.
-
Advances in technology, such as computer graphics and machine learning, have created ample opportunities for the development of virtual agents that closely resemble humans in appearance and show increasingly human-like communicative behaviors. These advances further raise a wealth of questions, including regarding factors that contribute to the social nature of artificial entities as well as whether artificial entities are processed similarly to humans. This dissertation, conducted under the ViBE project, addressed these questions by focusing on people’s perceptions of the appearance and behavior of virtual agents. We also aimed to couple subjective perceptions of observers to measurable characteristics in virtual agents. By gaining a more detailed understanding of human perceptions of virtual agents, it becomes possible to build more intuitive agents that can build trust and assist humans in healthcare and education.
In Chapter 2, we investigated whether humans could distinguish the faces of virtual agents created using state-of-the-art methods in computer graphics and machine learning from the photographs of human faces. We also wanted to understand what features in the face were responsible for perceiving human-likeness in the face. The results showed that humans were able to tell apart the human and the virtual agent images and that two facial features were important for this. One feature was the appearance of the skin while the second feature was related to the eyes. If the skin was smooth and the eyes lacked corneal reflections (the white highlights in the eyes), the face was identifiable as an agent-like face rather than a human-like face.
In Chapter 3, we examined memory of virtual faces and human faces, for which one of the motivations was previous research, suggesting that virtual faces are remembered less well than natural human faces. We drew on the two previously identified features in the skin and the eyes. The results of a memory study showed that when the eyes lacked corneal reflections, the face was more difficult to remember, adding to a more fine-grained understanding of how specific face details affect face processing not only with respect to perception but also memory.
In Chapter 4 we used data from perception and memory experiments and investigated the time course of processing different faces using a novel statistical technique. Specifically, the technique was applied to response time data and permitted understanding how the eyes and the skin features affected people’s responses over time, even when relying on a behavioral measure. The results showed that the appearance of the skin is influential early on in processing regarding face perception and with respect to face memory, it is the appearance of the eyes that is crucial early in processing. The broader impact of the work reported in Chapter 4 lies in enabling other researchers to have an easy-to-follow guide to use a novel statistical technique for studying the time course of processing based on behavioral data.
In Chapter 5 we broadened the scope and investigated the perception of virtual agents based on examining the studies on the Uncanny Valley (UV) and the brain. The UV is by far the most influential theory on how humans understand artificial entities, stating that people have an increasing liking for agents that from the outward appearance look like humans, but up until a certain point. When humans encounter an agent that is almost human-like but not quite there yet, their liking for the agent drops, leading them to experience negative feelings toward the agent. While the UV has been primarily studied relying on subjective perceptionsfrom surveys, in recent years researchers have started to use neuroscientific techniques to measure the brain’s reaction to different artificial beings, both robots and virtual agents. We systematically collected the studies in this emerging line of work that relies on the UV and the brain measures. The important finding from Chapter 5, which ties into our work on how humans perceive and memorize virtual agent faces, was that at the level of the brain, the areas that are responsible for processing faces are less active when the face is not sufficiently human like compared to processing real faces.
In Chapter 6 we investigated how the brain processes virtual agent and real faces overtime. In particular, we compared early and late stages of processing. Previous work in the field found that the processing of virtual agent and real faces differ at a later stage, specifically, from 400 ms onwards. However, the results have been mixed regarding the direction of this effect. Some studies found that the brain reacted more strongly to real faces at a late stage while other studies reported that it was the virtual agent faces that elicited a stronger response. Our results showed that the early brain response to real and virtual faces at the early stage of processing (between 140 ms – 200 ms) was virtually the same, whereas at a later stage (between 400 ms – 600 ms) the brain reacted more strongly to real human faces than agent faces. However, this effect was small, suggesting that high-quality virtual agent faces are processed similarly to human faces, even at a later stage.
In Chapter 7 we studied dynamic faces, specifically, generation-perception link of facial expressions in human and virtual agent faces. Producing naturalistic facial expressions for agents has been a difficult task and there is no standard method for how to do this. Recently sophisticated machine learning models have been used for generating facial expressions for agents based on large quantities of data. However, it was of interest to investigate whether a much simpler model could produce facial expressions based on human facial expression data that are understandable to humans. We proposed a model that generated new facial expressions based on a set of existing facial expressions that rearranged the order of facial states to produce new ones. We also tested such a model in experiments with human and virtual agent faces. The results showed that it was indeed possible to use a small amount of data to produce naturalistic facial expressions that can be applied to virtual agents. Moreover, we found that specific Action Units – activations of facial muscle groups – could predict observers’ perceptions of choosing a specific category of facial expression, such as happiness or surprise.
Overall, this dissertation advanced novel findings in the context of perceiving high fidelity, human-like virtual agents. These findings are also directly applicable to developing future virtual agents and the methods that have been employed in this research may help advance the work of other researchers working on evaluating virtual agent technology.
Original languageEnglish
Awarding Institution
  • Tilburg University
Supervisors/Advisors
  • Louwerse, Max, Promotor
  • Alimardani, Maryam, Co-promotor
  • Bosse, T., Member PhD commission, External person
  • Mayer, Igor, Member PhD commission
  • Pelachaud, C., Member PhD commission, External person
  • Spronck, Pieter, Member PhD commission
  • Vilhjálmsson, H.H., Member PhD commission, External person
Thesis sponsors
Award date12 Jan 2024
Place of PublicationZaandam
Publisher
Print ISBNs978-94-93330-42-9
Publication statusPublished - 12 Jan 2024

Fingerprint

Dive into the research topics of 'The Face Puzzle: Decoding Human Perception of Digital Agents'. Together they form a unique fingerprint.

Cite this