Rico Sennrich

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Rico Sennrich (* 1985) ist ein Schweizer Computerlinguist und Professor an der Philosophischen Fakultät der Universität Zürich.

Sennrich promovierte 2013 an der Universität Zürich und verbrachte danach mehrere Jahre als Postdoc an der University of Edinburgh. 2019 wurde er SNF-Förderungsprofessor am Institut für Computerlinguistik der Universität Zürich. 2024 wurde er zum ausserordentlichen Professor für Computerlinguistik ernannt; sein Amtsantritt ist für 2026 vorgesehen.[1] Sennrich ist ein Honorary Fellow der School of Informatics der Universität Edinburgh.[2]

Sennrich forscht im Bereich der Verarbeitung natürlicher Sprache (Natural Language Processing) und der künstlichen Intelligenz. Dieses Forschungsfeld hat Mitte der 2010er Jahre einen Paradigmenwechsel zu Deep Learning mit neuronalen Netzen erlebt, zu dem Sennrich mehrere Elemente beigetragen hat.

Ein einflussreicher Beitrag Sennrichs ist Byte Pair Encoding (BPE), eine Methode, um aus einer Sammlung von Texten automatisch ein Vokabular für Sprachmodelle abzuleiten.[3] BPE basiert auf dem gleichnamigen Kompressionsalgorithmus und war bedeutsam bei der Entwicklung von neuronaler maschineller Übersetzung, da es aufgrund seiner datengetriebenen Funktionsweise auf sehr grosse Textmengen angewendet werden konnte.[4] Seit 2019 werden Varianten von BPE in Sprachmodellen wie ChatGPT und Llama[5] und in multimodalen Systemen wie DALL-E, Midjourney und Stable Diffusion genutzt.

Ein weiterer einflussreicher Beitrag ist Root Mean Square Layer Normalization (RMSNorm), welche 2019 von Biao Zhang und Rico Sennrich eingeführt wurde.[6] RMSNorm wird seither vielfach als Komponente optimierter Transformer-Modelle eingesetzt, so etwa in den Sprachmodellen Llama und Chinchilla.[7]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Berufungen vom 26. August 2024. Universität Zürich, 28. August 2024, abgerufen am 30. August 2024.
  2. Rico Sennrich. University of Edinburgh, abgerufen am 30. August 2024.
  3. Rico Sennrich, Barry Haddow, Alexandra Birch: Neural Machine Translation of Rare Words with Subword Units. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics, Berlin August 2016, S. 1715–1725, doi:10.18653/v1/P16-1162 (aclanthology.org [abgerufen am 30. August 2024]).
  4. Philipp Koehn: Neural Machine Translation. Cambridge University Press, Cambridge 2020, ISBN 978-1-108-49732-9, doi:10.1017/9781108608480 (cambridge.org [abgerufen am 30. August 2024]).
  5. Tatsunori Hashimoto: Everything you didn’t want to know about LM architecture and training. In: CS336: Language Modeling from Scratch. Stanford University, 9. April 2024, abgerufen am 31. August 2024 (englisch).
  6. Biao Zhang, Rico Sennrich: Root Mean Square Layer Normalization. In: Advances in Neural Information Processing Systems. Band 32. Curran Associates, Inc., 2019 (nips.cc [abgerufen am 30. August 2024]).
  7. Zixuan Jiang, Jiaqi Gu, Hanqing Zhu, David Pan: Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers. In: Advances in Neural Information Processing Systems. Band 36, 15. Dezember 2023, S. 45777–45793 (neurips.cc [abgerufen am 31. August 2024]).