Implementierung und Analyse von Q-Learning, SARSA sowie On-Policy Monte-Carlo Control zur Lösung von Markow-Entscheidungsprozessen