En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot (généralisable en problème du bandit à K bras ou problème du bandit à N bras) se formule de manière imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur.

Property Value
dbo:abstract
  • En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot (généralisable en problème du bandit à K bras ou problème du bandit à N bras) se formule de manière imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur. C'est un exemple d'apprentissage par renforcement. Typiquement, la politique de l'utilisateur oscille entre exploitation (utiliser la machine dont il a appris qu'elle récompense beaucoup) et exploration (tester une autre machine pour espérer gagner plus). Le problème de bandit manchot peut être vu comme un processus de décision markovien avec un seul état. (fr)
  • En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot (généralisable en problème du bandit à K bras ou problème du bandit à N bras) se formule de manière imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur. C'est un exemple d'apprentissage par renforcement. Typiquement, la politique de l'utilisateur oscille entre exploitation (utiliser la machine dont il a appris qu'elle récompense beaucoup) et exploration (tester une autre machine pour espérer gagner plus). Le problème de bandit manchot peut être vu comme un processus de décision markovien avec un seul état. (fr)
dbo:namedAfter
dbo:thumbnail
dbo:wikiPageID
  • 102255 (xsd:integer)
dbo:wikiPageLength
  • 13037 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 189661638 (xsd:integer)
dbo:wikiPageWikiLink
prop-fr:wikiPageUsesTemplate
dct:subject
rdfs:comment
  • En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot (généralisable en problème du bandit à K bras ou problème du bandit à N bras) se formule de manière imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur. (fr)
  • En mathématiques, plus précisément en théorie des probabilités, le problème du bandit manchot (généralisable en problème du bandit à K bras ou problème du bandit à N bras) se formule de manière imagée de la façon suivante : un utilisateur (un agent), face à des machines à sous, doit décider quelles machines jouer. Chaque machine donne une récompense moyenne que l'utilisateur ne connait pas a priori. L'objectif est de maximiser le gain cumulé de l'utilisateur. (fr)
rdfs:label
  • Bandido multibrazo (es)
  • Bandit manchot (mathématiques) (fr)
  • El problema de la màquina escurabutxaques (ca)
  • Bandido multibrazo (es)
  • Bandit manchot (mathématiques) (fr)
  • El problema de la màquina escurabutxaques (ca)
owl:sameAs
prov:wasDerivedFrom
foaf:depiction
foaf:isPrimaryTopicOf
is dbo:wikiPageDisambiguates of
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is oa:hasTarget of
is foaf:primaryTopic of