Gaze based Video Summarization

Created scripts for the paper Gaze-enabled Egocentric Video Summarization via Constrained Submodular Maximization from scratch. Tested out the results in videoes taken from CMU using AR glasses

Topic Covered:

Basics of CLIP Models and Multimodal ML.
Backbone - MRCNN.
Optimization Techniques - Submodular Optimization, Mutual Information.
Clustering Algorithm - KMeans, Greedy, Temporal Star clustering.

Programming Language: Python, Pytorch

Share on

Twitter Facebook LinkedIn