Razieh Rastgoo, Kourosh Kiani, & Sergio Escalera. (2023). A deep co-attentive hand-based video question answering framework using multi-view skeleton. _MTAP - Multimedia Tools and Applications_, _82_, 1401–1429.