About: http://fr.dbpedia.org/resource/Apprentissage_par_renforcement_hors

Property	Value
dbo:abstract	L'apprentissage par renforcement hors ligne (ou batch) est un cas particulier de l'apprentissage par renforcement, qui est une classe de problèmes d'apprentissage automatique dont l'objectif est de déterminer à partir d'expériences une stratégie (ou politique) permettant à un agent de maximiser une récompense numérique au cours du temps. Dans le cadre de l'apprentissage par renforcement purement hors ligne, l'agent ne peut pas interagir avec l'environnement : une base d'apprentissage lui est fournie au départ et il l'exploite pour apprendre une politique.Contrastant avec les algorithmes en-ligne, où l'agent à la possibilité d'interagir comme bon lui semble avec l'environnement, les algorithmes hors-ligne tentent d'exploiter au maximum les exemples d'apprentissage dont ils disposent, sans compter uniquement sur la possibilité d'exploration.Cette approche est donc particulièrement avantageuse quand il n'est pas possible d'effectuer des expériences ou lorsque ces expériences sont coûteuses (casse de matériel possible, obligation d'avoir recours à une assistance humaine pendant les expériences, etc). En général cependant, les techniques d'apprentissage par renforcement batch peuvent être utilisées dans un cadre plus large, où la base d'apprentissage peut évoluer au cours du temps. L'agent peut alors alterner entre des phases d'exploration et des phases d'apprentissage.Les algorithmes hors-ligne sont en général des adaptations d'autres algorithmes comme le Q-Learning, eux-mêmes inspirés par les algorithmes de programmation dynamique résolvant les MDPs. (fr) L'apprentissage par renforcement hors ligne (ou batch) est un cas particulier de l'apprentissage par renforcement, qui est une classe de problèmes d'apprentissage automatique dont l'objectif est de déterminer à partir d'expériences une stratégie (ou politique) permettant à un agent de maximiser une récompense numérique au cours du temps. Dans le cadre de l'apprentissage par renforcement purement hors ligne, l'agent ne peut pas interagir avec l'environnement : une base d'apprentissage lui est fournie au départ et il l'exploite pour apprendre une politique.Contrastant avec les algorithmes en-ligne, où l'agent à la possibilité d'interagir comme bon lui semble avec l'environnement, les algorithmes hors-ligne tentent d'exploiter au maximum les exemples d'apprentissage dont ils disposent, sans compter uniquement sur la possibilité d'exploration.Cette approche est donc particulièrement avantageuse quand il n'est pas possible d'effectuer des expériences ou lorsque ces expériences sont coûteuses (casse de matériel possible, obligation d'avoir recours à une assistance humaine pendant les expériences, etc). En général cependant, les techniques d'apprentissage par renforcement batch peuvent être utilisées dans un cadre plus large, où la base d'apprentissage peut évoluer au cours du temps. L'agent peut alors alterner entre des phases d'exploration et des phases d'apprentissage.Les algorithmes hors-ligne sont en général des adaptations d'autres algorithmes comme le Q-Learning, eux-mêmes inspirés par les algorithmes de programmation dynamique résolvant les MDPs. (fr)
dbo:thumbnail	wiki-commons:Special:FilePath/Diagram_of_the_mountain_car_problem.png?width=300
dbo:wikiPageID	9606073 (xsd:integer)
dbo:wikiPageLength	23764 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID	190791021 (xsd:integer)
dbo:wikiPageWikiLink	dbpedia-fr:Algorithme_glouton dbpedia-fr:Apprentissage_automatique dbpedia-fr:Apprentissage_par_renforcement category-fr:Apprentissage_automatique dbpedia-fr:Méthode_des_k_plus_proches_voisins dbpedia-fr:Processus_de_décision_markovien dbpedia-fr:Q-learning dbpedia-fr:Réseau_de_neurones_artificiels dbpedia-fr:Fichier:Diagram_of_the_mountain_car_problem.png dbpedia-fr:Fichier:Least_Squares_Policy_Iteration.svg dbpedia-fr:Fichier:Pole-swing-balanced.png dbpedia-fr:Fichier:Pole-swing-initial.png dbpedia-fr:Moutain_car
prop-fr:wikiPageUsesTemplate	dbpedia-fr:Modèle:, dbpedia-fr:Modèle:En dbpedia-fr:Modèle:ISBN dbpedia-fr:Modèle:Portail dbpedia-fr:Modèle:Références dbpedia-fr:Modèle:Coll. dbpedia-fr:Modèle:Ed.
dct:subject	category-fr:Apprentissage_automatique
rdfs:comment	L'apprentissage par renforcement hors ligne (ou batch) est un cas particulier de l'apprentissage par renforcement, qui est une classe de problèmes d'apprentissage automatique dont l'objectif est de déterminer à partir d'expériences une stratégie (ou politique) permettant à un agent de maximiser une récompense numérique au cours du temps. (fr) L'apprentissage par renforcement hors ligne (ou batch) est un cas particulier de l'apprentissage par renforcement, qui est une classe de problèmes d'apprentissage automatique dont l'objectif est de déterminer à partir d'expériences une stratégie (ou politique) permettant à un agent de maximiser une récompense numérique au cours du temps. (fr)
rdfs:label	Apprentissage par renforcement hors ligne (fr) Apprentissage par renforcement hors ligne (fr)
owl:sameAs	wikidata:Q23017354 http://g.co/kg/g/11clgfsdt8
prov:wasDerivedFrom	wikipedia-fr:Apprentissage_par_renforcement_hors_ligne?oldid=190791021&ns=0
foaf:depiction	wiki-commons:Special:FilePath/Diagram_of_the_mountain_car_problem.png wiki-commons:Special:FilePath/Least_Squares_Policy_Iteration.svg wiki-commons:Special:FilePath/Pole-swing-balanced.png wiki-commons:Special:FilePath/Pole-swing-initial.png
foaf:isPrimaryTopicOf	wikipedia-fr:Apprentissage_par_renforcement_hors_ligne
is dbo:wikiPageWikiLink of	dbpedia-fr:Processus_de_décision_markovien
is oa:hasTarget of	tag-fr:WdtFrResource
is foaf:primaryTopic of	wikipedia-fr:Apprentissage_par_renforcement_hors_ligne

About: http://fr.dbpedia.org/resource/Apprentissage_par_renforcement_hors_ligne