package generators.misc;

import algoanim.animalscript.AnimalScript;
import algoanim.primitives.generators.Language;
import algoanim.properties.GraphProperties;
import algoanim.properties.MatrixProperties;
import algoanim.properties.SourceCodeProperties;
import algoanim.properties.TextProperties;
import generators.framework.Generator;
import generators.framework.GeneratorType;
import generators.framework.properties.AnimationPropertiesContainer;
import java.util.Hashtable;
import java.util.Locale;
import org.apache.commons.jxpath.ri.model.dynamic.DynamicPointerFactory;

/* loaded from: input_file:generators/misc/PolicyIterationGenerator.class */
public class PolicyIterationGenerator implements Generator {
    private Language lang;
    private SourceCodeProperties pseudocode;
    private MatrixProperties valuefunktion;
    private TextProperties infotext;
    private GraphProperties mdpGraphProp;
    private GraphProperties mdpNGraphProp;
    private double discountfactor;
    private int[][] initValuefunktion;
    private GraphProperties mdpTerinateGraphProp;

    @Override // generators.framework.Generator
    public void init() {
        this.lang = new AnimalScript("Value Iteration[DE]", "M. Viering", DynamicPointerFactory.DYNAMIC_POINTER_FACTORY_ORDER, 600);
    }

    @Override // generators.framework.Generator
    public String generate(AnimationPropertiesContainer animationPropertiesContainer, Hashtable<String, Object> hashtable) {
        this.pseudocode = (SourceCodeProperties) animationPropertiesContainer.getPropertiesByName("Pseudocode");
        this.valuefunktion = (MatrixProperties) animationPropertiesContainer.getPropertiesByName("Valuefunktion");
        this.infotext = (TextProperties) animationPropertiesContainer.getPropertiesByName("Infotext");
        this.discountfactor = ((Double) hashtable.get("discountfactor")).doubleValue();
        this.initValuefunktion = (int[][]) hashtable.get("Belohnungsfunktion");
        this.mdpGraphProp = (GraphProperties) animationPropertiesContainer.getPropertiesByName("MDP");
        this.mdpNGraphProp = (GraphProperties) animationPropertiesContainer.getPropertiesByName("MDP - Aktueller Zustand");
        this.mdpTerinateGraphProp = (GraphProperties) animationPropertiesContainer.getPropertiesByName("MDP - Terminierungszustand");
        PolicyIteration policyIteration = new PolicyIteration(this.lang);
        policyIteration.setpCodeProp(this.pseudocode);
        policyIteration.setValueFunctionGridProp(this.valuefunktion);
        policyIteration.setInfoTextsProp(this.infotext);
        policyIteration.setProperties(this.initValuefunktion, this.discountfactor);
        policyIteration.setGraphProp(this.mdpGraphProp);
        policyIteration.setNGraphProp(this.mdpNGraphProp);
        policyIteration.setTerGraphProp(this.mdpTerinateGraphProp);
        policyIteration.policyIteration();
        return policyIteration.animalScriptOutputHack();
    }

    @Override // generators.framework.Generator
    public String getName() {
        return "Policy Iteration";
    }

    @Override // generators.framework.Generator
    public String getAlgorithmName() {
        return "Policy Iteration";
    }

    @Override // generators.framework.Generator
    public String getAnimationAuthor() {
        return "Malte Viering";
    }

    @Override // generators.framework.Generator
    public String getDescription() {
        return "Ist ein Verfahren, welches beim Bestärkenden Lernen (engl. Reinforcement learning) verwendet wird. <br>Policy Iteration arbeitet dabei auf dem Markow-Entscheidungsproblem (engl. Markov decision process). <br>Die Policy Iteration findet für jeden Zustand die beste Aktion. Die beste Aktion ist die Aktion mit der die maximale Belohnung, die im Markow-Entscheidungsproblem für diesen Zustand erreichbar ist, ericht wird.<br>Policy (deutsch Strategie) ist die Zuweisung einer Aktion zu einem Zustand.<br>Das Markow-Entscheidungsproblem ist hier definiert als ein Tupel(S,A,P,R). <br>Dabei ist: <br>&#x0020;&#x0020;&#x0020;&#x0020;    S die Menge der Zustände,<br>&#x0020;&#x0020;&#x0020;&#x0020;    A die Menge der Aktionen, <br>&#x0020;&#x0020;&#x0020;&#x0020;    P die Wahrscheinlichkeit, dass bei der Ausführung der Aktion a im Zustand s in den Zustand s_neu gewechselt wird, und<br>&#x0020;&#x0020;&#x0020;&#x0020;    R die Belohnungsfunktion, welche einem Zustand s eine Belohnung r zuordnet.<br> Für mehr Informationen zum Markow-Entscheidungsproblem siehe:<br>en.wikipedia.org/wiki/Markov_decision_process. <br><br><br>Die Policy Iteration ist dabei der Value Iteration ähnlich. Bei der Value Iteration wird zu erste die optimale Value Funktion iterative berechnet.<br>Wenn die optimale Value Funktion berechnet wurde kann über diese die beste Aktion für jeden Zustand bestimmt werden. Die Policy Iteration funktioniert dagegen wie folgt:<br>1.&#x0020;&#x0020;&#x0020;\tErzeuge eine zufällige Strategie<br>2.&#x0020;&#x0020;&#x0020;\tWiederhole bis Konvergenz erreicht<br>&#x0020;&#x0020;&#x0020;   a.&#x0020;&#x0020;&#x0020;\tBerechne die zur Strategie gehörige Value Funktion V<br>&#x0020;&#x0020;&#x0020;   b.&#x0020;&#x0020;&#x0020;\tBestimmt die beste Strategie zu V ";
    }

    @Override // generators.framework.Generator
    public String getCodeExample() {
        return "FUNCTION policyIteration\nPARAMTER states, actions, reward\nRETURN policy\nCONSTANTS DiscountFactor\nVARIABLE ValueFunction\nDO\n   SET change TO false\n   SET ValueFunction To SOLVE_LINEAR_EQUATIONSYSTEM (policy+ rewardForStates)\n\n   FORALL states BEGIN\n      SET rewardBestAction TO bestRewardLastIteration() \n      SET neighborStates TO getNeighborStates(state)\n      FORALL possible actions BEGIN\n         SET rewardAction TO 0\n         FORALL neighborStates BEGIN \n            INCREMENT reward BY\n                           transitionProbability(state+ action+ neighborState) * ValueFunction[neighborState]\n         END\n         SET rewardAction TO rewardAction * DiscountFactor\n         IF rewardAction> rewardBestAction BEGIN\n            SET rewardBestAction TO rewardAction\n            SET policy[state] TO action\n            SET change TO true\n         END\n      END\n   END\nWHILE change\nEND FUNCTION";
    }

    @Override // generators.framework.Generator
    public String getFileExtension() {
        return Generator.ANIMALSCRIPT_FORMAT_EXTENSION;
    }

    @Override // generators.framework.Generator
    public Locale getContentLocale() {
        return Locale.GERMANY;
    }

    @Override // generators.framework.Generator
    public GeneratorType getGeneratorType() {
        return new GeneratorType(GeneratorType.GENERATOR_TYPE_MORE);
    }

    @Override // generators.framework.Generator
    public String getOutputLanguage() {
        return "Pseudo-Code";
    }
}
