Skip to content

バンディットアルゴリズムを色々実装してみる

Notifications You must be signed in to change notification settings

tubo213/bandit-algorithms

Repository files navigation

bandit-algorithms

バンディットアルゴリズムを色々実装してみる

実装済みの方策

Default

Contextfree

  • random
  • epsilon-greedy
  • softmax
  • UCB

Linear

  • LinUCB

Multiple-Play Bandit Problem

Contextfree

  • random
  • Multiple-Play Epsilon-Greedy
  • Multiple-Play UCB
  • Multiple-Play Thompson Sampling
  • PBM-UCB
  • PBM-PIE

Enviroment

Requirements

Build

rye sync

Usage

run default experiment

rye run python bin/run.py

multi run

rye run python bin/run.py -m n_actions=10,100,1000

Results

Default

k: 腕の数

  • k=5

  • k=25

  • k=125

  • k=625

Multiple-Play Bandit Problem

Position Based Model(Contextfree)

k: 腕の数 L: プレイ回数 = 10

腕の数が多くなるほどPBMベースの方策が良い結果を出すが、Epsilon-Greedyが強くなる

  • k=15

  • k=30

  • k=60

  • k=120

  • k=240

  • k=480

  • k=960

References

About

バンディットアルゴリズムを色々実装してみる

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages