Toward Software-Equivalent Accuracy on Transformer-Based Deep Neural Networks With Analog Memory Devices

Katie Spoon; Hsinyu Tsai; An Chen; Malte J. Rasch; Stefano Ambrogio; Charles Mackin; Andrea Fasoli; Alexander M. Friz; Pritish Narayanan; Milos Stanisavljevic; Geoffrey W. Burr

doi:10.3389/fncom.2021.675741

Frontiers in Computational Neuroscience (Jul 2021)

Toward Software-Equivalent Accuracy on Transformer-Based Deep Neural Networks With Analog Memory Devices

Katie Spoon,
Hsinyu Tsai,
An Chen,
Malte J. Rasch,
Stefano Ambrogio,
Charles Mackin,
Andrea Fasoli,
Alexander M. Friz,
Pritish Narayanan,
Milos Stanisavljevic,
Geoffrey W. Burr

Affiliations

Katie Spoon: IBM Research–Almaden, San Jose, CA, United States
Hsinyu Tsai: IBM Research–Almaden, San Jose, CA, United States
An Chen: IBM Research–Almaden, San Jose, CA, United States
Malte J. Rasch: IBM T. J. Watson Research Center, Yorktown Heights, NY, United States
Stefano Ambrogio: IBM Research–Almaden, San Jose, CA, United States
Charles Mackin: IBM Research–Almaden, San Jose, CA, United States
Andrea Fasoli: IBM Research–Almaden, San Jose, CA, United States
Alexander M. Friz: IBM Research–Almaden, San Jose, CA, United States
Pritish Narayanan: IBM Research–Almaden, San Jose, CA, United States
Milos Stanisavljevic: IBM Zurich Research Center, Zurich, Switzerland
Geoffrey W. Burr: IBM Research–Almaden, San Jose, CA, United States

DOI: https://doi.org/10.3389/fncom.2021.675741
Journal volume & issue: Vol. 15

Abstract

Read online

Recent advances in deep learning have been driven by ever-increasing model sizes, with networks growing to millions or even billions of parameters. Such enormous models call for fast and energy-efficient hardware accelerators. We study the potential of Analog AI accelerators based on Non-Volatile Memory, in particular Phase Change Memory (PCM), for software-equivalent accurate inference of natural language processing applications. We demonstrate a path to software-equivalent accuracy for the GLUE benchmark on BERT (Bidirectional Encoder Representations from Transformers), by combining noise-aware training to combat inherent PCM drift and noise sources, together with reduced-precision digital attention-block computation down to INT6.

Published in Frontiers in Computational Neuroscience

ISSN: 1662-5188 (Online)
Publisher: Frontiers Media S.A.
Country of publisher: Switzerland
LCC subjects: Medicine: Internal medicine: Neurosciences. Biological psychiatry. Neuropsychiatry
Website: http://www.frontiersin.org/computational_neuroscience

About the journal

Abstract

Keywords