Transformer戦略計画（Hold-10ETH超過収益）

このページは、Transformerベースの新戦略を実験計画へ正式に組み込むための設計仕様です。
目的は「絶対利益」ではなく、10ETH固定保有に対する超過収益（Alpha）最大化です。

1. 目的

ベンチマーク: 常に +10 ETH 固定保有
戦略: 通常は +10 ETH を維持しつつ、下落局面では一時的に FLAT または SHORT を選ぶ
最適化対象: strategy_total_pnl_jpy ではなく alpha_total_pnl_jpy

2. 状態とアクション

ポジション状態は離散3状態に固定する。

HOLD: +10 ETH
FLAT: 0 ETH
SHORT: -10 ETH

ポリシー出力:

action in {HOLD, FLAT, SHORT}
任意で confidence, urgency

3. 2層アーキテクチャ

3.1 Decision Layer（Transformer Policy）

入力: 市場イベント系列 + 内部状態
出力: 目標状態（HOLD/FLAT/SHORT）
注文価格・板指値の詳細は直接出さない

3.2 Execution Layer（Deterministic）

目標状態遷移を実注文に変換
クールダウン、注文頻度、リスク制約を強制
部分約定や状態ズレを吸収

4. 入力データ（イベント駆動）

必須ストリーム:

Public WS: trades, orderbooks, ticker
Private: fills / active orders / positions

入力表現:

直近 L イベント（例: 1024〜4096）
各トークンに以下を含める
- event type
- mid/spread/microprice/imbalance/trade flow
- 前イベントからの time-delta
- 内部状態（現ポジション、未約定量、最終アクション時刻）

5. 報酬定義（ベースライン相対）

pos_base = +10

r_t = pos_t - pos_base

ExcessReturn_t = r_t * (mid_{t+1} - mid_t) - Cost_t

ここで Cost_t は手数料・スリッページ・資金調達差分を含む。

6. Timing / Naturalness 評価

6.1 TimingEvaluator

アクション発生時刻 t に対し、複数ホライズンで採点する。

score_H(t) = Δpos * (mid_{t+H} - mid_t) - cost_estimate

TimingScore = Σ w_H * clip(score_H)

6.2 NaturalnessPenalty

以下をペナルティ化する。

過剰フリップ
最短保有時間違反
注文レート過多
不要な churn
リスク制約違反

7. 学習ロードマップ

Stage A: 表現学習（任意）

次時点方向、短期ボラ、イベントタイプ予測

Stage B: 擬似最適ラベルによる教師あり学習（MVP）

各時点で {HOLD, FLAT, SHORT} の将来超過収益を比較し、最良行動をラベル化
Transformer分類器として学習

Stage C: Offline RL（必要時のみ）

Reward = ExcessReturn + α*TimingScore - β*NaturalnessPenalty
保守的オフラインRLで微調整

8. Backtest評価

主要KPI:

累積超過収益（vs Hold-10ETH）
超過収益Sharpe
超過収益DD
flip回数、平均保有時間
TimingScore分布

9. データ品質制約

板履歴が不完全なら synthetic L2 を作らない
学習は no-book版（trade/ticker中心）を同時に維持
L2結論は実録WS板データでのみ確定する

10. 今回追加する実験計画（実行順）

Transformer-MVP(no-book)

入力: trades/ticker + internal state
出力: HOLD/FLAT/SHORT
期間: train=2022-01-01..2025-12-31, test=2026-01-01..
先行ベースラインとして、3状態 softmax を先に実行して比較基準を固定する:

uv run atc ml train-hold10-softmax \
  --symbol ETH_JPY \
  --start 2022-01-01 \
  --end 2025-12-31 \
  --horizon-sec 300 \
  --hold-eth 10 \
  --workers 4

Transformer+book

入力に top-K orderbook特徴を追加
同条件で no-book 版と比較

Timing/Naturalness導入

評価器を導入し、診断を標準化
取引行動が人間的かを定量チェック

Execution policy ablation

marketable実行 vs maker-first fallback
同一ポリシーで執行差を検証

11. 受け入れ基準（昇格ゲート）

alpha_total_pnl_jpy > 0
alpha_sharpe が既存主力比で改善
alpha_max_dd が悪化しない
flip頻度と注文レートが運用許容内

12. 現時点判断

既存主力は ml_direction_logistic_hold_overlay_regime_guard
Transformer戦略は 研究優先度 High で次サイクルに編入
まずは Stage B（擬似最適ラベル）を最短MVPとして実装開始する

1. 目的​

2. 状態とアクション​

3. 2層アーキテクチャ​

3.1 Decision Layer（Transformer Policy）​

3.2 Execution Layer（Deterministic）​

4. 入力データ（イベント駆動）​

5. 報酬定義（ベースライン相対）​

6. Timing / Naturalness 評価​

6.1 TimingEvaluator​

6.2 NaturalnessPenalty​

7. 学習ロードマップ​

Stage A: 表現学習（任意）​

Stage B: 擬似最適ラベルによる教師あり学習（MVP）​

Stage C: Offline RL（必要時のみ）​

8. Backtest評価​

9. データ品質制約​

10. 今回追加する実験計画（実行順）​

11. 受け入れ基準（昇格ゲート）​

12. 現時点判断​