CAPformer: Pedestrian Crossing Action Prediction Using Transformer

Javier Lorenzo; Ignacio Parra Alonso; Rubén Izquierdo; Augusto Luis Ballardini; Álvaro Hernández Saz; David Fernández Llorca; Miguel Ángel Sotelo

doi:10.3390/s21175694

Sensors (Aug 2021)

CAPformer: Pedestrian Crossing Action Prediction Using Transformer

Javier Lorenzo,
Ignacio Parra Alonso,
Rubén Izquierdo,
Augusto Luis Ballardini,
Álvaro Hernández Saz,
David Fernández Llorca,
Miguel Ángel Sotelo

Affiliations

Javier Lorenzo: INVETT Research Group, Universidad de Alcalá, Campus Universitario, Ctra, Madrid-Barcelona km, 33, 600, 28805 Alcalá de Henares, Spain
Ignacio Parra Alonso: INVETT Research Group, Universidad de Alcalá, Campus Universitario, Ctra, Madrid-Barcelona km, 33, 600, 28805 Alcalá de Henares, Spain
Rubén Izquierdo: INVETT Research Group, Universidad de Alcalá, Campus Universitario, Ctra, Madrid-Barcelona km, 33, 600, 28805 Alcalá de Henares, Spain
Augusto Luis Ballardini: INVETT Research Group, Universidad de Alcalá, Campus Universitario, Ctra, Madrid-Barcelona km, 33, 600, 28805 Alcalá de Henares, Spain
Álvaro Hernández Saz: INVETT Research Group, Universidad de Alcalá, Campus Universitario, Ctra, Madrid-Barcelona km, 33, 600, 28805 Alcalá de Henares, Spain
David Fernández Llorca: INVETT Research Group, Universidad de Alcalá, Campus Universitario, Ctra, Madrid-Barcelona km, 33, 600, 28805 Alcalá de Henares, Spain
Miguel Ángel Sotelo: INVETT Research Group, Universidad de Alcalá, Campus Universitario, Ctra, Madrid-Barcelona km, 33, 600, 28805 Alcalá de Henares, Spain

DOI: https://doi.org/10.3390/s21175694
Journal volume & issue: Vol. 21, no. 17
p. 5694

Abstract

Read online

Anticipating pedestrian crossing behavior in urban scenarios is a challenging task for autonomous vehicles. Early this year, a benchmark comprising JAAD and PIE datasets have been released. In the benchmark, several state-of-the-art methods have been ranked. However, most of the ranked temporal models rely on recurrent architectures. In our case, we propose, as far as we are concerned, the first self-attention alternative, based on transformer architecture, which has had enormous success in natural language processing (NLP) and recently in computer vision. Our architecture is composed of various branches which fuse video and kinematic data. The video branch is based on two possible architectures: RubiksNet and TimeSformer. The kinematic branch is based on different configurations of transformer encoder. Several experiments have been performed mainly focusing on pre-processing input data, highlighting problems with two kinematic data sources: pose keypoints and ego-vehicle speed. Our proposed model results are comparable to PCPA, the best performing model in the benchmark reaching an F1 Score of nearly 0.78 against 0.77. Furthermore, by using only bounding box coordinates and image data, our model surpasses PCPA by a larger margin (F1=0.75 vs. F1=0.72). Our model has proven to be a valid alternative to recurrent architectures, providing advantages such as parallelization and whole sequence processing, learning relationships between samples not possible with recurrent architectures.

Published in Sensors

ISSN: 1424-8220 (Online)
Publisher: MDPI AG
Country of publisher: Switzerland
LCC subjects: Technology: Chemical technology
Website: http://www.mdpi.com/journal/sensors

About the journal

Abstract

Keywords