Eine multimodale Inhaltsrepräsentation zur Generierung von Sprache und Gestik