Options
Action recognition of great ape behaviors and communicative gestures using deep learning
Maison d'édition
Neuchâtel : Université de Neuchâtel
Date de parution
2025
Nombre de page
186 p.
Mots-clés
- Vision par ordinateur
- apprentissage profond
- grands singes
- chimpanzés
- comportement animal
- communication gestuelle
- reconnaissance d’actions
- estimation de pose
- jeux de données annotés
- intelligence artificielle
- reconnaissance de gestes
- étude comportementale automatisée
- analyse vidéo
- Computer vision
- deep learning
- great apes
- chimpanzees
- animal behavior
- gestural communication
- action recognition
- pose estimation
- annotated datasets
- artificial intelligence
- gesture recognition
- automated behavioral analysis
- video analysis
Vision par ordinateur...
apprentissage profond...
grands singes
chimpanzés
comportement animal
communication gestuel...
reconnaissance d’acti...
estimation de pose
jeux de données annot...
intelligence artifici...
reconnaissance de ges...
étude comportementale...
analyse vidéo
Computer vision
deep learning
great apes
chimpanzees
animal behavior
gestural communicatio...
action recognition
pose estimation
annotated datasets
artificial intelligen...
gesture recognition
automated behavioral ...
video analysis
Résumé
L’étude des comportements et de la communication des grands singes est essentielle à la compréhension des fondements évolutionnaires du langage humain et de ses interactions sociales. Cependant, les méthodes traditionnelles, qui reposent sur l’annotation manuelle de données vidéo, sont laborieuses, chronophages et peu efficientes. À l’inverse, les récentes avancées en vision par ordinateur et en apprentissage profond offrent un potentiel nouveau pour automatiser la reconnaissance des comportements et des gestes des grands singes. Cela dit, leurs applications à ce domaine restent, pour l’heure, limitées.<br>Cette thèse propose des approches novatrices pour répondre à ces défis en tirant parti des techniques d’apprentissage profond et des jeux de données associés. Elle présente ASBAR (dont l’acronyme français serait RAABS, pour Reconnaissance d’Actions Animales Basée sur les Squelettes), un cadre qui combine l’estimation de pose à la reconnaissance d’actions à travers une approche unifiée, atteignant des résultats compétitifs dans la classification des comportements des grands singes en milieu naturel, tout en réduisant drastiquement les besoins computationnels et de stockage.<br>Elle introduit également ChimpBehave, un jeu de données vidéo annoté pour la reconnaissance des comportements de chimpanzés en captivité, qui permet l’étude de l’adaptation au domaine et de la généralisation entre jeux de données. L’évaluation de modèles basés soit sur la vidéo, soit sur les squelettes révèle la robustesse de ces derniers face à la variabilité visuelle entre jeux de données.<br>En outre, cette thèse propose FineChimp, un jeu de données d’actions fines conçu spécifiquement pour la reconnaissance des gestes des grands singes. Avec ses 38 classes de gestes annotées par des experts et ses enregistrements provenant de multiples points de vue, FineChimp permet l’étalonnage des modèles de reconnaissance de gestes et démontre l’efficacité des modèles d’apprentissage profond de pointe pour décoder les nuances de la communication des grands singes.<br>En intégrant des techniques innovantes de vision par ordinateur à des données comportementales détaillées, ce travail automatise et enrichit l’étude des comportements et de la communication des grands singes, en apportant des outils évolutifs à la recherche en primatologie. Ces contributions ont des implications pour la conservation animale, les sciences comportementales et, de manière générale, la compréhension des comportements et des systèmes de communication animaliers.
The study of great ape behavior and communication is essential for understanding the evolutionary foundations of human language and social interaction. However, traditional methods relying on manual video annotation are time-consuming, labor-intensive, and limited in scalability. Recent advancements in computer vision and deep learning offer transformative potential to automate the recognition of great ape behaviors and gestures, yet their application to this domain remains limited.
This dissertation introduces novel approaches to address these challenges by leveraging deep learning techniques and datasets. It presents ASBAR (Animal Skeleton-Based Action Recognition), a framework that combines pose estimation and action recognition into a unified pipeline, achieving competitive accuracy in classifying natural great ape behaviors in the wild while significantly reducing computational and storage requirements.
Additionally, it introduces ChimpBehave, a dataset of zoo-housed chimpanzee videos annotated for behavior recognition, enabling the study of domain adaptation and cross-dataset generalization. Results from benchmarking video- and skeleton-based models reveal the robustness of skeleton-based methods in handling visual variability across datasets.
Further, the dissertation develops FineChimp, a fine-grained dataset specifically designed for recognizing great ape gestures. With expert annotations across 38 gesture classes and multiview recordings, FineChimp serves as a benchmark for gesture recognition, demonstrating the efficacy of state-of-the-art deep learning models in decoding the nuances of great ape communication.
By integrating innovative computer vision techniques with detailed behavioral data, this work automates and enhances the study of great ape behavior and communication, offering scalable tools for primatology research. These contributions have implications for conservation, behavioral science, and the broader understanding of animal behaviors and communication systems.
This dissertation introduces novel approaches to address these challenges by leveraging deep learning techniques and datasets. It presents ASBAR (Animal Skeleton-Based Action Recognition), a framework that combines pose estimation and action recognition into a unified pipeline, achieving competitive accuracy in classifying natural great ape behaviors in the wild while significantly reducing computational and storage requirements.
Additionally, it introduces ChimpBehave, a dataset of zoo-housed chimpanzee videos annotated for behavior recognition, enabling the study of domain adaptation and cross-dataset generalization. Results from benchmarking video- and skeleton-based models reveal the robustness of skeleton-based methods in handling visual variability across datasets.
Further, the dissertation develops FineChimp, a fine-grained dataset specifically designed for recognizing great ape gestures. With expert annotations across 38 gesture classes and multiview recordings, FineChimp serves as a benchmark for gesture recognition, demonstrating the efficacy of state-of-the-art deep learning models in decoding the nuances of great ape communication.
By integrating innovative computer vision techniques with detailed behavioral data, this work automates and enhances the study of great ape behavior and communication, offering scalable tools for primatology research. These contributions have implications for conservation, behavioral science, and the broader understanding of animal behaviors and communication systems.
Identifiants
Type de publication
doctoral thesis
Dossier(s) à télécharger