メインコンテンツまでスキップ

🗄️ 歴史的文書(アーカイブ) — この文書は過去の研究フェーズの記録であり、現在の結論・手法を反映していません。現在の研究状況は解説セクションを参照してください。

Phase 1.5 — Hold-10-ETH Benchmark Audit

本ページは Phase 1.5 のベンチマーク監査 research_reports/phase1_5_benchmark_audit.md を整理したもの。 Phase 1.5 の α 判定に使用された fixed_hold_eth = 10(+¥591,155 headline)が本当に公正な比較相手だったのかを、(a) 保有コスト控除の非対称性、(b) 窓のタイミング、(c) ドローダウン・パス、の 3 観点から監査する。基となるリーダーボードは leaderboard.md を参照。

ラン条件

  • Symbol: ETH_JPY
  • Window: 2026-02-17 .. 2026-04-19(62 日, inclusive)
  • Benchmark: fixed_hold_eth = 10 ETH ウィンドウ通して flat
  • Headline reported benchmark PnL: +¥591,155
  • Source: backtest_run_daily rows with run_tag='phase1_5_s3', strategy='baseline_flat'(62 行)
  • Benchmark formula in code: src/atc/cli/backtest.py:764pnl_step_bench = benchmark_hold_eth * (mid - prev_mid)(純粋に price × quantity、holding cost 控除なし

Hold-10-ETH の日次リターン統計

metricvalue
N days62
Total benchmark PnL+¥591,155
Mean daily PnL+¥9,535
Std daily PnL¥113,059
Sharpe (mean/std × √252)+1.34
Up days34/62(54.8%)
Down days28/62(45.2%)
Mean losing day-¥84,609
Best single day+¥350,690(2026-02-25)
Worst single day-¥206,260(2026-03-18)
Worst rolling 2-day-¥317,775
Worst rolling 3-day-¥346,030
Worst rolling 5-day-¥424,130
Worst rolling 7-day-¥306,395
Days cum PnL underwater (< 0)7/62(11.3%)
Cum trough-¥152,915 on 2026-02-23
Cum peak+¥823,565 on 2026-04-17
Max intra-window drawdown (peak-to-trough)-¥548,615(2026-03-16 → 2026-03-27, -78.3%)
Longest stretch without a new peak29 日

窓タイミング感度(¥591k ヘッドラインは「ラッキー」)

窓は自らのピークから -¥232,410(-28.2%)オフで終了。異なる終了日でのベンチマーク:

window endcum benchmark PnL
2026-04-09+¥487,380
2026-04-14+¥648,025
2026-04-16+¥710,230
2026-04-17 (peak)+¥823,565
2026-04-18+¥704,860
2026-04-19 (reported)+¥591,155

実際のカットオフはピーク後 3 連続ダウン日(2026-04-18 -¥118,705、2026-04-19 -¥113,705)を譲っている。2026-03-16 → 2026-03-27 のドローダウン・スロープ(-¥548,615 / 11 日 ≈ -¥50k/日)がピークから継続していれば、あと約 20 取引日で最終累積は初期 low -¥152,915 以下に沈んだであろう。この窓内でも、ベンチは 7 日目まで既にネガティブだった。

保有コスト会計の非対称性

ベンチマーク PnL の式 10 × (mid_t - mid_{t-1})pre-cost。インベントリを持つアクティブ戦略は 0.04%/日 を PortfolioLedger.apply_holding_costsrc/atc/portfolio/ledger.py:30)経由で課金される。日次ベンチマーク PnL から ETH mid パスを再構築(anchor mid_close 2026-02-17 ≈ ¥299,251 → mid_start ≈ ¥296,652, mid_end ≈ ¥355,768):

metricvalue
Avg daily mid(62 日)¥326,277
Mid range¥281,360 〜 ¥379,008
Daily holding cost on 10 ETH (avg)¥1,305
TOTAL holding cost on 10 ETH × 62 days¥80,917
Holding cost as % of headline13.7%
Cost-adjusted benchmark+¥510,238
Cost-adjusted max drawdown-¥563,316
Cost-adjusted days underwater7/62(11.3%)

仮説は ¥24k コスト(¥490k notional 時点)を示唆していた。実 ETH notional 平均は ¥326k(ETH は窓中 ¥490k より安かった)なので、真の 10-ETH 保有コストは **¥81k、仮説の約 3.4×** — それでもヘッドライン・エッジの ~14%。

リーダーボード比較(leaderboard.md): multiday_trend_carry_aware は ¥24,137、sweep_counter_fade は ¥21,100、imbalance_momentum_micro は ¥10,699 の carry を支払った — いずれも真の hold-10-ETH ポジションが支払ったであろう ¥81k より material に小さい。ベンチマークは ~¥81k の free ride を得ている

調整後のアクティブ戦略比較

トップ 3 ランキング戦略 vs cost-adjusted benchmark(¥510,238):

strategystrat PnLvs raw bench (¥591,155)vs cost-adj bench (¥510,238)
mm_zero_fee_inside_spread+¥25,967-¥565,187-¥484,271
baseline_flat+¥645-¥590,510-¥509,593
baseline_flow_imbalance_pulse-¥9,548-¥600,703-¥519,786

ベンチマークを公正に課金しても、12 戦略のうちどれも勝てない。アルファ・ギャップは全体で ~¥81k 縮まるが、ランキングの flip は起きない。

判定

「hold 10 ETH」ベンチマークは過剰に寛容 — だがギャップは Phase 1.5 の結論を flip させるほど大きくない。 定量化:

  1. 保有コスト free ride: ~¥81,000(headline の 13.7%)。ベンチマーク PnL は src/atc/cli/backtest.py:764 で pre-cost 計算;インベントリを積むアクティブ戦略は mid × |position| に対して 0.04%/日 を支払い、ベンチマークは支払わない。公正なベンチマーク = +¥510k ではなく +¥591k
  2. 実現リスクは大きい: max intra-window drawdown -¥548,615(ピークトゥトラフで -78%)、最悪日 -¥206,260、最悪 5 日窓 -¥424,130。年率 Sharpe +1.34 は decent だがパスは bumpy。
  3. 窓タイミングのラック: ベンチは自ピークから -28.2% オフで終了。3 日早く終わっていれば +¥710k、2 日早く(ピーク)なら +¥824k;04-17 ピークから 3 月ドローダウン・スロープが継続していれば、あと 20 日でゼロ以下。
  4. 窓内で既にネガティブ: 7/62 日(11.3%)、累積 hold-10-ETH ベンチはアンダーウォーター(トラフ 2026-02-23 に -¥152,915)。

コスト調整後の +¥510k ベンチマークにさえどの戦略も勝てない、したがって Phase 1.5 ヘッドライン「no strategy beats hold-10-ETH」は監査を survive する。しかし比較はやはり非対称で、+¥591k / Sharpe 1.34 のフレーミングはベンチを ~14% 過大評価し、-78% ドローダウン・パスを隠している。

Phase 5 walk-forward の要件:

  1. ベンチマークに保有コストを対称に課金
  2. レジーム別に分割し、単一ラリー・テープが支配しないようにする(regime-decomposition.md と一致)
  3. ピーク・トゥ・トラフも end-to-end に加えて報告

アーティファクト

  • Source: Postgres backtest_run_daily rows, run_tag='phase1_5_s3'
  • Code: src/atc/cli/backtest.py:764(benchmark formula)、src/atc/portfolio/ledger.py:30(戦略 holding cost)

関連ページ