Transformer戦略計画(Hold-10ETH超過収益)
このページは、Transformerベースの新戦略を実験計画へ正式に組み込むための設計仕様です。
目的は「絶対利益」ではなく、10ETH固定保有に対する超過収益(Alpha)最大化です。
1. 目的
- ベンチマーク: 常に
+10 ETH固定保有 - 戦略: 通常は
+10 ETHを維持しつつ、下落局面では一時的にFLATまたはSHORTを選ぶ - 最適化対象:
strategy_total_pnl_jpyではなくalpha_total_pnl_jpy
2. 状態とアクション
ポジション状態は離散3状態に固定する。
HOLD:+10 ETHFLAT:0 ETHSHORT:-10 ETH
ポリシー出力:
action in {HOLD, FLAT, SHORT}- 任意で
confidence,urgency
3. 2層アーキテクチャ
3.1 Decision Layer(Transformer Policy)
- 入力: 市場イベント系列 + 内部状態
- 出力: 目標状態(HOLD/FLAT/SHORT)
- 注文価格・板指値の詳細は直接出さない
3.2 Execution Layer(Deterministic)
- 目標状態遷移を実注文に変換
- クールダウン、注文頻度、リスク制約を強制
- 部分約定や状態ズレを吸収
4. 入力データ(イベント駆動)
必須ストリーム:
- Public WS:
trades,orderbooks,ticker - Private: fills / active orders / positions
入力表現:
- 直近
Lイベント(例: 1024〜4096) - 各トークンに以下を含める
- event type
- mid/spread/microprice/imbalance/trade flow
- 前イベントからの
time-delta - 内部状態(現ポジション、未約定量、最終アクション時刻)
5. 報酬定義(ベースライン相対)
pos_base = +10
r_t = pos_t - pos_base
ExcessReturn_t = r_t * (mid_{t+1} - mid_t) - Cost_t
ここで Cost_t は手数料・スリッページ・資金調達差分を含む。
6. Timing / Naturalness 評価
6.1 TimingEvaluator
アクション発生時刻 t に対し、複数ホライズンで採点する。
score_H(t) = Δpos * (mid_{t+H} - mid_t) - cost_estimate
TimingScore = Σ w_H * clip(score_H)
6.2 NaturalnessPenalty
以下をペナルティ化する。
- 過剰フリップ
- 最短保有時間違反
- 注文レート過多
- 不要な churn
- リスク制約違反
7. 学習ロードマップ
Stage A: 表現学習(任意)
- 次時点方向、短期ボラ、イベントタイプ予測
Stage B: 擬似最適ラベルによる教師あり学習(MVP)
- 各時点で
{HOLD, FLAT, SHORT}の将来超過収益を比較し、最良行動をラベル化 - Transformer分類器として学習
Stage C: Offline RL(必要時のみ)
Reward = ExcessReturn + α*TimingScore - β*NaturalnessPenalty- 保守的オフラインRLで微調整
8. Backtest評価
主要KPI:
- 累積超過収益(vs Hold-10ETH)
- 超過収益Sharpe
- 超過収益DD
- flip回数、平均保有時間
- TimingScore分布
9. データ品質制約
- 板履歴が不完全なら synthetic L2 を作らない
- 学習は no-book版(trade/ticker中心)を同時に維持
- L2結論は実録WS板データでのみ確定する
10. 今回追加する実験計画(実行順)
Transformer-MVP(no-book)
- 入力: trades/ticker + internal state
- 出力: HOLD/FLAT/SHORT
- 期間: train=
2022-01-01..2025-12-31, test=2026-01-01.. - 先行ベースラインとして、3状態 softmax を先に実行して比較基準を固定する:
uv run atc ml train-hold10-softmax \
--symbol ETH_JPY \
--start 2022-01-01 \
--end 2025-12-31 \
--horizon-sec 300 \
--hold-eth 10 \
--workers 4
Transformer+book
- 入力に top-K orderbook特徴を追加
- 同条件で no-book 版と比較
Timing/Naturalness導入
- 評価器を導入し、診断を標準化
- 取引行動が人間的かを定量チェック
Execution policy ablation
- marketable実行 vs maker-first fallback
- 同一ポリシーで執行差を検証
11. 受け入れ基準(昇格ゲート)
alpha_total_pnl_jpy > 0alpha_sharpeが既存主力比で改善alpha_max_ddが悪化しない- flip頻度と注文レートが運用許容内
12. 現時点判断
- 既存主力は
ml_direction_logistic_hold_overlay_regime_guard - Transformer戦略は 研究優先度 High で次サイクルに編入
- まずは Stage B(擬似最適ラベル)を最短MVPとして実装開始する