Contributions to Automatic Interaction Analysis of Meetings
Psychological interaction analyses (IAs) of face-to-face meetings are typically based on a large number of audio and video recordings that must be carefully annotated manually before the actual analysis can start. Since this process is very time-consuming and costly, it limits not only the amount of data that can be taken into account but also the level of detail that can be reached in the analysis. Therefore, the automatic interaction analysis (AIA) of meetings has become a vital research topic, which aims to facilitate psychological interaction studies by developing methods for the automatic processing and analysis of meeting data. For an AIA of meetings based on acoustic data, high-quality audio recordings of each meeting participant are required. This is best achieved by multichannel audio recordings, where each meeting participant is equipped with a close-talk microphone and recorded in an individual target microphone channel. However, so-called crosstalk is a common problem with such audio recordings and describes the effect that a target speech signal of an active speaker does not only couple into his assigned microphone but also into the microphones of all other participants. Consequently, the speech signals of the participants are disturbed by each other, which significantly complicates the processing of the audio signals and also strongly affects the performance of speech analysis methods for an AIA. To solve this issue, this thesis presents innovative contributions to the automatic processing and analysis of multichannel close-talk audio recordings of meetings suffering from crosstalk. For this purpose, an overall meeting emotion analysis system (OMEAS) is presented, which is able to deal with high-level crosstalk. It consists of three novel methods that in combination reduce the crosstalk in the target microphone signals, detect all utterances of the target speakers, and estimate the emotions of the speakers in each detected utterance. Each method is developed individually regarding its respective research field, thereby advancing the state of the art as comparisons with respective baseline approaches show. For the evaluation w.r.t. different crosstalk levels, a realistic meeting scenario is simulated based on the acoustic characteristics of a real meeting room. The conducted investigations – based on objective evaluation metrics – demonstrate experimentally that the proposed OMEAS is robust against crosstalk and that the performance of automatic speech analysis methods can be significantly improved by applying the developed speech enhancement component of the OMEAS. Moreover, based on the provided output signals of the OMEAS, further analyses can be performed, so that the OMEAS already represents an important step to facilitate the time-consuming annotation process for psychological IAs.
Psychologische Interaktionsanalysen von Meetings basieren typischerweise auf einer Vielzahl von Audio- und Videoaufzeichnungen, die vor der eigentlichen Analyse sorg- fältig per Hand annotiert werden müssen. Da dieser Prozess sehr zeitaufwendig und kostspielig ist, limitiert er nicht nur die Datenmenge, die betrachtet werden kann, sondern auch den erreichbaren Detailgrad der Analyse. Aus diesem Grund hat sich die automati- sche Interaktionsanalyse von Meetings zu einem wichtigen Forschungsthema entwickelt, welches das Ziel verfolgt, psychologische Interaktionsstudien durch die Entwicklung von Methoden zur automatischen Verabeitung und Analyse von Meeting-Daten zu erleichtern. Für eine automatische Interaktionsanalyse von Meetings basierend auf akustischen Da- ten wird für jeden Teilnehmer eine qualitativ hochwertige Audioaufnahme benötigt. Dies wird am besten mit einer mehrkanaligen Audioaufnahme erzielt, bei der jeder Teilnehmer mit einem Nahbesprechungsmikrofon ausgestattet und in einem separaten Zielmikrofon- kanal aufgenommen wird. Ein bekanntes Problem hierbei ist allerdings das sogenannte „Übersprechen“, welches den Effekt beschreibt, dass das Zielsprachsignal eines aktiven Sprechers nicht nur in das ihm zugeordnete, sondern auch in alle anderen Mikrofone als Übersprechsignal einkoppelt. Folglich stören sich die Sprachsignale der einzelnen Sprecher gegenseitig, wodurch die Verarbeitung von Audiosignalen deutlich erschwert, und auch die Leistung von Sprachanalysemethoden der automatischen Interaktionsana- lyse stark beeinträchtigt werden. Um dieses Problem zu lösen, werden in dieser Arbeit innovative Beiträge für die automatische Verarbeitung und Analyse von mehrkanaligen, durch Übersprechsignale gestörte Nahbesprechungsaufnahmen von Meetings präsentiert. Hierzu wird ein Gesamtsystem zur sprachbasierten Emotionsanalyse in Meetings vorge- stellt, welches mit lauten Übersprechsignalen umgehen kann. Das System besteht aus drei neuartigen Methoden, die in Kombination die Übersprechanteile im Zielmikrofonsignal reduzieren, alle Äußerungen der Zielsprecher detektieren, und die Sprecher-Emotionen in jeder detektierten Äußerung schätzen. Jede Methode wurde individuell bezüglich ihres je- weiligen Forschungsfelds entwickelt und konnte den Stand der Technik vorantreiben, wie Vergleiche mit jeweiligen Referenzverfahren zeigen. Für die Auswertung bezüglich ver- schiedener Übersprechsignalstärken wurde ein realistisches Meeting-Szenario basierend auf den akustischen Eigenschaften eines realen Meeting-Raumes simuliert. Die auf objek- tiven Metriken basierenden Untersuchungen zeigen, dass das präsentierte Gesamtsystem robust gegen Übersprechsignale ist und die entwickelte Sprachverbesserungsmethode die Leistung von automatischen Sprachanalysen deutlich verbessert. Darüber hinaus können aufbauend auf den Ausgangssignalen des Gesamtsystems weitere Analysen durchgeführt werden, sodass das System einen wesentlichen Schritt zur Erleichterung des zeitaufwen- digen Annotationsprozesses von psychologischen Interaktionsanalysen darstellt.
Preview
Cite
Access Statistic
