Im Multiagent Reinforcement Learning (MARL) wird eine effektive Integration von Methoden des Reinforcement Learning (RL) und Multiagentensystemen (MAS) angestrebt. Mithilfe einer Menge adaptiver und lernender Agenten in einem verteilten intelligenten …
Deep Deterministic Policy Gradient (DDPG) ist eine Methodik zur Kontrolle kontinuierlicher Simulationsumgebungen des Reinforcement Learnings. Im Folgenden wird evaluiert inwiefern DDPG für die physikalische HalfCheetah-Umgebung mittels …
End-to-End gesteuerte autonome Fahrzeuge durch Reinforcement Learning bieten im Vergleich zu End-to-End Ans ̈atzen durch su- pervised learning einen Vorteil. Beim Reinforcement Learning macht das Fahrzeug eigene Erfahrungen und wertet diese anhand …
The effects of basic income, a certain number of coins paid to every individual without conditions, have received growing interest in research in recent years. Real-world studies are difficult to perfom due to their high costs. Simulating them in a …
In dieser Arbeit werden die Verfahren State Diskretisierung, Tile Coding und Deep Q-Learning im Bezug auf die Lösung des MountainCar-v0 Problem betrachtet. Dazu wird als Grundlage der Q-Learning Algorithmus genutzt und um diese Verfahren ergänzt. …
Ein Positionierungssystem basierend auf der Ultra-wideband Drahtlostechnologie wird vorgestellt und erprobt. Die Positionsbestimmung erfolgt in einem zweistufigen Verfahren mithilfe von Laufzeitmessungen. Zur Verbesserung der …
The game development process involves many different disciplines, ranging from visual arts, sound design, game design, product management, frontend- and backend development and many more. All of which are contributing to a single project to create …
This paper examines the usage of proximal policy optimization applied to pre-trained neural language models based on the transformer architecture. This approach is then used to generate convincing News.
Die Visualisierung von Reinforcement Learning Prozessen hilft dabei, andernfalls schwer nachvollziehbare Vorgänge verständlich zu machen. Sie können als Funktionsnachweis eines fertig trainierten Modells oder als Einblick in den Trainingsprozess …