Ali Furkan Biten, R. Tito, Andres Mafla, Lluis Gomez, Marçal Rusiñol, C.V. Jawahar, et al. (2019). Scene Text Visual Question Answering. In _18th IEEE International Conference on Computer Vision_ (pp. 4291–4301).