Detecting Social Signals with Spatiotemporal Gabor Filters

Bart Joosten

Research output: ThesisDoctoral Thesis

31 Downloads (Pure)

Abstract

Wanneer mensen met elkaar communiceren bestaat de boodschap vaak uit meer dan alleen de gesproken woorden. Door middel van bijvoorbeeld gezichtsuitdrukkingen, intonatie, of lichaamshouding kunnen zender en ontvanger los van de woorden die zij gebruiken en soms zelfs zonder dat ze het in de gaten hebben elkaar informeren over hun achterliggende gevoelens, sociale attitude, mentale staat of andere persoonlijke eigenschappen. Het automatisch interpreteren van menselijke visuele sociale signalen met behulp van computers staat centraal in dit onderzoek.

Om visuele sociale signalen te interpreteren maken computers gebruik van beeldverwerkingstechnieken. Eerder werk in dit veld richtte zich op technieken die toegepast werden op afbeeldingen of individuele frames uit videoclips en beschreven de inhoud aan de hand van lokale visuele kenmerken. Aan de hand van deze visuele kenmerken probeerde de computer het menselijk signaal te herkennen en te interpreteren. Een nadeel van deze eerdere aanpak is dat informatie over bewegingen in de tijd buiten beschouwing wordt gelaten.
Om deze tekortkoming te overbruggen hebben we in dit werk een techniek toegepast die niet alleen in staat is om lokale visuele karakteristieken van individuele frames te beschrijven, zoals kenmerken van aanwezige contourovergangen, maar ook temporele kenmerken, zoals het verplaatsen van deze contourovergangen over tijd in kaart kan brengen.

Om erachter te komen of computers daadwerkelijk gebaat zijn bij het toevoegen van temporele informatie om menselijke sociale signalen te herkennen, hebben we in dit werk vier studies verricht waarin we voor vier verschillende sociale signalen telkens systematisch de prestaties van voorspellende algoritmes vergeleken voor zowel de conditie met enkel lokale visuele kenmerken als de conditie met lokale en temporele kenmerken. We begonnen ons onderzoek met visuele spraakherkenning, dat wil zeggen, bepalen of iemand spreekt door alleen naar het beeld te kijken. Daarna onderzochten we of we bij kinderen konden bepalen of zij moeilijkheden ondervonden tijdens beantwoorden van rekensommen. Vervolgens keken we naar het onderscheid
tussen gespeelde en spontane glimlachen en tenslotte onderzochten we of we aan de hand van iemands wandelpatroon het geslacht konden bepalen. Hiervoor hebben we in de eerste drie studies gekeken naar signalen die tot uiting komen in het gezicht en in de laatste studie nemen we het hele lichaam in beschouwing. Op basis van de resultaten in deze studies kunnen we concluderen computers inderdaad vaak beter in staat zijn het sociale signaal te voorspellen wanneer zij beschikken over extra temporele informatie.

Dit was voornamelijk het geval wanneer het saillante deel van het signaal expliciet aanwezig was in een specifiek deel van het gezicht of lichaam. Voor subtiele signalen of signalen die niet te koppelen zijn aan specifieke delen van het gezicht presteerden zowel de lokale als temporele kenmerken matig in het herkennen van het signaal, al leken de temporele kenmerken het net iets beter te doen. Alles bij elkaar opgeteld kunnen we concluderen dat voor het herkennen van sociale signalen het beter is om temporele informatie te gebruiken dan alleen lokale en toekomstig werk zou zich kunnen richten op het automatisch leren van de optimale temporele kenmerken.
Original languageEnglish
QualificationDoctor of Philosophy
Awarding Institution
  • Tilburg University
Supervisors/Advisors
  • Krahmer, Emiel, Promotor
  • Postma, Eric, Promotor
  • Dibeklioglu, H., Member PhD commission, External person
  • Heylen, D.K.J., Member PhD commission, External person
  • Kraaij, W., Member PhD commission
  • Martin, J.C., Member PhD commission, External person
  • Spronck, Pieter, Member PhD commission
Award date29 Jun 2018
Place of PublicationS.l.
Publisher
Print ISBNs978946295972
Publication statusPublished - 2018

Fingerprint

Filter
Huns

Cite this

Joosten, Bart. / Detecting Social Signals with Spatiotemporal Gabor Filters. S.l. : [s.n.], 2018. 138 p.
@phdthesis{4795a1dec4484302994e2cc2f702f668,
title = "Detecting Social Signals with Spatiotemporal Gabor Filters",
abstract = "Wanneer mensen met elkaar communiceren bestaat de boodschap vaak uit meer dan alleen de gesproken woorden. Door middel van bijvoorbeeld gezichtsuitdrukkingen, intonatie, of lichaamshouding kunnen zender en ontvanger los van de woorden die zij gebruiken en soms zelfs zonder dat ze het in de gaten hebben elkaar informeren over hun achterliggende gevoelens, sociale attitude, mentale staat of andere persoonlijke eigenschappen. Het automatisch interpreteren van menselijke visuele sociale signalen met behulp van computers staat centraal in dit onderzoek. Om visuele sociale signalen te interpreteren maken computers gebruik van beeldverwerkingstechnieken. Eerder werk in dit veld richtte zich op technieken die toegepast werden op afbeeldingen of individuele frames uit videoclips en beschreven de inhoud aan de hand van lokale visuele kenmerken. Aan de hand van deze visuele kenmerken probeerde de computer het menselijk signaal te herkennen en te interpreteren. Een nadeel van deze eerdere aanpak is dat informatie over bewegingen in de tijd buiten beschouwing wordt gelaten.Om deze tekortkoming te overbruggen hebben we in dit werk een techniek toegepast die niet alleen in staat is om lokale visuele karakteristieken van individuele frames te beschrijven, zoals kenmerken van aanwezige contourovergangen, maar ook temporele kenmerken, zoals het verplaatsen van deze contourovergangen over tijd in kaart kan brengen. Om erachter te komen of computers daadwerkelijk gebaat zijn bij het toevoegen van temporele informatie om menselijke sociale signalen te herkennen, hebben we in dit werk vier studies verricht waarin we voor vier verschillende sociale signalen telkens systematisch de prestaties van voorspellende algoritmes vergeleken voor zowel de conditie met enkel lokale visuele kenmerken als de conditie met lokale en temporele kenmerken. We begonnen ons onderzoek met visuele spraakherkenning, dat wil zeggen, bepalen of iemand spreekt door alleen naar het beeld te kijken. Daarna onderzochten we of we bij kinderen konden bepalen of zij moeilijkheden ondervonden tijdens beantwoorden van rekensommen. Vervolgens keken we naar het onderscheidtussen gespeelde en spontane glimlachen en tenslotte onderzochten we of we aan de hand van iemands wandelpatroon het geslacht konden bepalen. Hiervoor hebben we in de eerste drie studies gekeken naar signalen die tot uiting komen in het gezicht en in de laatste studie nemen we het hele lichaam in beschouwing. Op basis van de resultaten in deze studies kunnen we concluderen computers inderdaad vaak beter in staat zijn het sociale signaal te voorspellen wanneer zij beschikken over extra temporele informatie. Dit was voornamelijk het geval wanneer het saillante deel van het signaal expliciet aanwezig was in een specifiek deel van het gezicht of lichaam. Voor subtiele signalen of signalen die niet te koppelen zijn aan specifieke delen van het gezicht presteerden zowel de lokale als temporele kenmerken matig in het herkennen van het signaal, al leken de temporele kenmerken het net iets beter te doen. Alles bij elkaar opgeteld kunnen we concluderen dat voor het herkennen van sociale signalen het beter is om temporele informatie te gebruiken dan alleen lokale en toekomstig werk zou zich kunnen richten op het automatisch leren van de optimale temporele kenmerken.",
author = "Bart Joosten",
note = "Series: TiCC Ph.D. Series Volume: 62",
year = "2018",
language = "English",
isbn = "978946295972",
series = "TiCC Ph.D. Series",
publisher = "[s.n.]",
school = "Tilburg University",

}

Joosten, B 2018, 'Detecting Social Signals with Spatiotemporal Gabor Filters', Doctor of Philosophy, Tilburg University, S.l..

Detecting Social Signals with Spatiotemporal Gabor Filters. / Joosten, Bart.

S.l. : [s.n.], 2018. 138 p.

Research output: ThesisDoctoral Thesis

TY - THES

T1 - Detecting Social Signals with Spatiotemporal Gabor Filters

AU - Joosten, Bart

N1 - Series: TiCC Ph.D. Series Volume: 62

PY - 2018

Y1 - 2018

N2 - Wanneer mensen met elkaar communiceren bestaat de boodschap vaak uit meer dan alleen de gesproken woorden. Door middel van bijvoorbeeld gezichtsuitdrukkingen, intonatie, of lichaamshouding kunnen zender en ontvanger los van de woorden die zij gebruiken en soms zelfs zonder dat ze het in de gaten hebben elkaar informeren over hun achterliggende gevoelens, sociale attitude, mentale staat of andere persoonlijke eigenschappen. Het automatisch interpreteren van menselijke visuele sociale signalen met behulp van computers staat centraal in dit onderzoek. Om visuele sociale signalen te interpreteren maken computers gebruik van beeldverwerkingstechnieken. Eerder werk in dit veld richtte zich op technieken die toegepast werden op afbeeldingen of individuele frames uit videoclips en beschreven de inhoud aan de hand van lokale visuele kenmerken. Aan de hand van deze visuele kenmerken probeerde de computer het menselijk signaal te herkennen en te interpreteren. Een nadeel van deze eerdere aanpak is dat informatie over bewegingen in de tijd buiten beschouwing wordt gelaten.Om deze tekortkoming te overbruggen hebben we in dit werk een techniek toegepast die niet alleen in staat is om lokale visuele karakteristieken van individuele frames te beschrijven, zoals kenmerken van aanwezige contourovergangen, maar ook temporele kenmerken, zoals het verplaatsen van deze contourovergangen over tijd in kaart kan brengen. Om erachter te komen of computers daadwerkelijk gebaat zijn bij het toevoegen van temporele informatie om menselijke sociale signalen te herkennen, hebben we in dit werk vier studies verricht waarin we voor vier verschillende sociale signalen telkens systematisch de prestaties van voorspellende algoritmes vergeleken voor zowel de conditie met enkel lokale visuele kenmerken als de conditie met lokale en temporele kenmerken. We begonnen ons onderzoek met visuele spraakherkenning, dat wil zeggen, bepalen of iemand spreekt door alleen naar het beeld te kijken. Daarna onderzochten we of we bij kinderen konden bepalen of zij moeilijkheden ondervonden tijdens beantwoorden van rekensommen. Vervolgens keken we naar het onderscheidtussen gespeelde en spontane glimlachen en tenslotte onderzochten we of we aan de hand van iemands wandelpatroon het geslacht konden bepalen. Hiervoor hebben we in de eerste drie studies gekeken naar signalen die tot uiting komen in het gezicht en in de laatste studie nemen we het hele lichaam in beschouwing. Op basis van de resultaten in deze studies kunnen we concluderen computers inderdaad vaak beter in staat zijn het sociale signaal te voorspellen wanneer zij beschikken over extra temporele informatie. Dit was voornamelijk het geval wanneer het saillante deel van het signaal expliciet aanwezig was in een specifiek deel van het gezicht of lichaam. Voor subtiele signalen of signalen die niet te koppelen zijn aan specifieke delen van het gezicht presteerden zowel de lokale als temporele kenmerken matig in het herkennen van het signaal, al leken de temporele kenmerken het net iets beter te doen. Alles bij elkaar opgeteld kunnen we concluderen dat voor het herkennen van sociale signalen het beter is om temporele informatie te gebruiken dan alleen lokale en toekomstig werk zou zich kunnen richten op het automatisch leren van de optimale temporele kenmerken.

AB - Wanneer mensen met elkaar communiceren bestaat de boodschap vaak uit meer dan alleen de gesproken woorden. Door middel van bijvoorbeeld gezichtsuitdrukkingen, intonatie, of lichaamshouding kunnen zender en ontvanger los van de woorden die zij gebruiken en soms zelfs zonder dat ze het in de gaten hebben elkaar informeren over hun achterliggende gevoelens, sociale attitude, mentale staat of andere persoonlijke eigenschappen. Het automatisch interpreteren van menselijke visuele sociale signalen met behulp van computers staat centraal in dit onderzoek. Om visuele sociale signalen te interpreteren maken computers gebruik van beeldverwerkingstechnieken. Eerder werk in dit veld richtte zich op technieken die toegepast werden op afbeeldingen of individuele frames uit videoclips en beschreven de inhoud aan de hand van lokale visuele kenmerken. Aan de hand van deze visuele kenmerken probeerde de computer het menselijk signaal te herkennen en te interpreteren. Een nadeel van deze eerdere aanpak is dat informatie over bewegingen in de tijd buiten beschouwing wordt gelaten.Om deze tekortkoming te overbruggen hebben we in dit werk een techniek toegepast die niet alleen in staat is om lokale visuele karakteristieken van individuele frames te beschrijven, zoals kenmerken van aanwezige contourovergangen, maar ook temporele kenmerken, zoals het verplaatsen van deze contourovergangen over tijd in kaart kan brengen. Om erachter te komen of computers daadwerkelijk gebaat zijn bij het toevoegen van temporele informatie om menselijke sociale signalen te herkennen, hebben we in dit werk vier studies verricht waarin we voor vier verschillende sociale signalen telkens systematisch de prestaties van voorspellende algoritmes vergeleken voor zowel de conditie met enkel lokale visuele kenmerken als de conditie met lokale en temporele kenmerken. We begonnen ons onderzoek met visuele spraakherkenning, dat wil zeggen, bepalen of iemand spreekt door alleen naar het beeld te kijken. Daarna onderzochten we of we bij kinderen konden bepalen of zij moeilijkheden ondervonden tijdens beantwoorden van rekensommen. Vervolgens keken we naar het onderscheidtussen gespeelde en spontane glimlachen en tenslotte onderzochten we of we aan de hand van iemands wandelpatroon het geslacht konden bepalen. Hiervoor hebben we in de eerste drie studies gekeken naar signalen die tot uiting komen in het gezicht en in de laatste studie nemen we het hele lichaam in beschouwing. Op basis van de resultaten in deze studies kunnen we concluderen computers inderdaad vaak beter in staat zijn het sociale signaal te voorspellen wanneer zij beschikken over extra temporele informatie. Dit was voornamelijk het geval wanneer het saillante deel van het signaal expliciet aanwezig was in een specifiek deel van het gezicht of lichaam. Voor subtiele signalen of signalen die niet te koppelen zijn aan specifieke delen van het gezicht presteerden zowel de lokale als temporele kenmerken matig in het herkennen van het signaal, al leken de temporele kenmerken het net iets beter te doen. Alles bij elkaar opgeteld kunnen we concluderen dat voor het herkennen van sociale signalen het beter is om temporele informatie te gebruiken dan alleen lokale en toekomstig werk zou zich kunnen richten op het automatisch leren van de optimale temporele kenmerken.

M3 - Doctoral Thesis

SN - 978946295972

T3 - TiCC Ph.D. Series

PB - [s.n.]

CY - S.l.

ER -

Joosten B. Detecting Social Signals with Spatiotemporal Gabor Filters. S.l.: [s.n.], 2018. 138 p. (TiCC Ph.D. Series). (SIKS Dissertation series 2018).