メインコンテンツまでスキップ

Transformer戦略計画(Hold-10ETH超過収益)

このページは、Transformerベースの新戦略を実験計画へ正式に組み込むための設計仕様です。
目的は「絶対利益」ではなく、10ETH固定保有に対する超過収益(Alpha)最大化です。

1. 目的

  • ベンチマーク: 常に +10 ETH 固定保有
  • 戦略: 通常は +10 ETH を維持しつつ、下落局面では一時的に FLAT または SHORT を選ぶ
  • 最適化対象: strategy_total_pnl_jpy ではなく alpha_total_pnl_jpy

2. 状態とアクション

ポジション状態は離散3状態に固定する。

  • HOLD: +10 ETH
  • FLAT: 0 ETH
  • SHORT: -10 ETH

ポリシー出力:

  • action in {HOLD, FLAT, SHORT}
  • 任意で confidence, urgency

3. 2層アーキテクチャ

3.1 Decision Layer(Transformer Policy)

  • 入力: 市場イベント系列 + 内部状態
  • 出力: 目標状態(HOLD/FLAT/SHORT)
  • 注文価格・板指値の詳細は直接出さない

3.2 Execution Layer(Deterministic)

  • 目標状態遷移を実注文に変換
  • クールダウン、注文頻度、リスク制約を強制
  • 部分約定や状態ズレを吸収

4. 入力データ(イベント駆動)

必須ストリーム:

  • Public WS: trades, orderbooks, ticker
  • Private: fills / active orders / positions

入力表現:

  • 直近 L イベント(例: 1024〜4096)
  • 各トークンに以下を含める
    • event type
    • mid/spread/microprice/imbalance/trade flow
    • 前イベントからの time-delta
    • 内部状態(現ポジション、未約定量、最終アクション時刻)

5. 報酬定義(ベースライン相対)

pos_base = +10

r_t = pos_t - pos_base

ExcessReturn_t = r_t * (mid_{t+1} - mid_t) - Cost_t

ここで Cost_t は手数料・スリッページ・資金調達差分を含む。

6. Timing / Naturalness 評価

6.1 TimingEvaluator

アクション発生時刻 t に対し、複数ホライズンで採点する。

score_H(t) = Δpos * (mid_{t+H} - mid_t) - cost_estimate

TimingScore = Σ w_H * clip(score_H)

6.2 NaturalnessPenalty

以下をペナルティ化する。

  • 過剰フリップ
  • 最短保有時間違反
  • 注文レート過多
  • 不要な churn
  • リスク制約違反

7. 学習ロードマップ

Stage A: 表現学習(任意)

  • 次時点方向、短期ボラ、イベントタイプ予測

Stage B: 擬似最適ラベルによる教師あり学習(MVP)

  • 各時点で {HOLD, FLAT, SHORT} の将来超過収益を比較し、最良行動をラベル化
  • Transformer分類器として学習

Stage C: Offline RL(必要時のみ)

  • Reward = ExcessReturn + α*TimingScore - β*NaturalnessPenalty
  • 保守的オフラインRLで微調整

8. Backtest評価

主要KPI:

  • 累積超過収益(vs Hold-10ETH)
  • 超過収益Sharpe
  • 超過収益DD
  • flip回数、平均保有時間
  • TimingScore分布

9. データ品質制約

  • 板履歴が不完全なら synthetic L2 を作らない
  • 学習は no-book版(trade/ticker中心)を同時に維持
  • L2結論は実録WS板データでのみ確定する

10. 今回追加する実験計画(実行順)

  1. Transformer-MVP(no-book)
  • 入力: trades/ticker + internal state
  • 出力: HOLD/FLAT/SHORT
  • 期間: train=2022-01-01..2025-12-31, test=2026-01-01..
  • 先行ベースラインとして、3状態 softmax を先に実行して比較基準を固定する:
uv run atc ml train-hold10-softmax \
--symbol ETH_JPY \
--start 2022-01-01 \
--end 2025-12-31 \
--horizon-sec 300 \
--hold-eth 10 \
--workers 4
  1. Transformer+book
  • 入力に top-K orderbook特徴を追加
  • 同条件で no-book 版と比較
  1. Timing/Naturalness導入
  • 評価器を導入し、診断を標準化
  • 取引行動が人間的かを定量チェック
  1. Execution policy ablation
  • marketable実行 vs maker-first fallback
  • 同一ポリシーで執行差を検証

11. 受け入れ基準(昇格ゲート)

  • alpha_total_pnl_jpy > 0
  • alpha_sharpe が既存主力比で改善
  • alpha_max_dd が悪化しない
  • flip頻度と注文レートが運用許容内

12. 現時点判断

  • 既存主力は ml_direction_logistic_hold_overlay_regime_guard
  • Transformer戦略は 研究優先度 High で次サイクルに編入
  • まずは Stage B(擬似最適ラベル)を最短MVPとして実装開始する