🗄️ 歴史的文書(アーカイブ) — この文書は過去の研究フェーズの記録であり、現在の結論・手法を反映していません。現在の研究状況は解説セクションを参照してください。
Phase 1.5 — Hold-10-ETH Benchmark Audit
本ページは Phase 1.5 のベンチマーク監査 research_reports/phase1_5_benchmark_audit.md を整理したもの。
Phase 1.5 の α 判定に使用された fixed_hold_eth = 10(+¥591,155 headline)が本当に公正な比較相手だったのかを、(a) 保有コスト控除の非対称性、(b) 窓のタイミング、(c) ドローダウン・パス、の 3 観点から監査する。基となるリーダーボードは leaderboard.md を参照。
ラン条件
- Symbol: ETH_JPY
- Window: 2026-02-17 .. 2026-04-19(62 日, inclusive)
- Benchmark:
fixed_hold_eth = 10 ETHウィンドウ通して flat - Headline reported benchmark PnL: +¥591,155
- Source:
backtest_run_dailyrows withrun_tag='phase1_5_s3',strategy='baseline_flat'(62 行) - Benchmark formula in code:
src/atc/cli/backtest.py:764→pnl_step_bench = benchmark_hold_eth * (mid - prev_mid)(純粋に price × quantity、holding cost 控除なし)
Hold-10-ETH の日次リターン統計
| metric | value |
|---|---|
| N days | 62 |
| Total benchmark PnL | +¥591,155 |
| Mean daily PnL | +¥9,535 |
| Std daily PnL | ¥113,059 |
| Sharpe (mean/std × √252) | +1.34 |
| Up days | 34/62(54.8%) |
| Down days | 28/62(45.2%) |
| Mean losing day | -¥84,609 |
| Best single day | +¥350,690(2026-02-25) |
| Worst single day | -¥206,260(2026-03-18) |
| Worst rolling 2-day | -¥317,775 |
| Worst rolling 3-day | -¥346,030 |
| Worst rolling 5-day | -¥424,130 |
| Worst rolling 7-day | -¥306,395 |
| Days cum PnL underwater (< 0) | 7/62(11.3%) |
| Cum trough | -¥152,915 on 2026-02-23 |
| Cum peak | +¥823,565 on 2026-04-17 |
| Max intra-window drawdown (peak-to-trough) | -¥548,615(2026-03-16 → 2026-03-27, -78.3%) |
| Longest stretch without a new peak | 29 日 |
窓タイミング感度(¥591k ヘッドラインは「ラッキー」)
窓は自らのピークから -¥232,410(-28.2%)オフで終了。異なる終了日でのベンチマーク:
| window end | cum benchmark PnL |
|---|---|
| 2026-04-09 | +¥487,380 |
| 2026-04-14 | +¥648,025 |
| 2026-04-16 | +¥710,230 |
| 2026-04-17 (peak) | +¥823,565 |
| 2026-04-18 | +¥704,860 |
| 2026-04-19 (reported) | +¥591,155 |
実際のカットオフはピーク後 3 連続ダウン日(2026-04-18 -¥118,705、2026-04-19 -¥113,705)を譲っている。2026-03-16 → 2026-03-27 のドローダウン・スロープ(-¥548,615 / 11 日 ≈ -¥50k/日)がピークから継続していれば、あと約 20 取引日で最終累積は初期 low -¥152,915 以下に沈んだであろう。この窓内でも、ベンチは 7 日目まで既にネガティブだった。
保有コスト会計の非対称性
ベンチマーク PnL の式 10 × (mid_t - mid_{t-1}) は pre-cost。インベントリを持つアクティブ戦略は 0.04%/日 を PortfolioLedger.apply_holding_cost(src/atc/portfolio/ledger.py:30)経由で課金される。日次ベンチマーク PnL から ETH mid パスを再構築(anchor mid_close 2026-02-17 ≈ ¥299,251 → mid_start ≈ ¥296,652, mid_end ≈ ¥355,768):
| metric | value |
|---|---|
| Avg daily mid(62 日) | ¥326,277 |
| Mid range | ¥281,360 〜 ¥379,008 |
| Daily holding cost on 10 ETH (avg) | ¥1,305 |
| TOTAL holding cost on 10 ETH × 62 days | ¥80,917 |
| Holding cost as % of headline | 13.7% |
| Cost-adjusted benchmark | +¥510,238 |
| Cost-adjusted max drawdown | -¥563,316 |
| Cost-adjusted days underwater | 7/62(11.3%) |
仮説は ¥24k コスト(¥490k notional 時点)を示唆していた。実 ETH notional 平均は ¥326k(ETH は窓中 ¥490k より安かった)なので、真の 10-ETH 保有コストは **¥81k、仮説の約 3.4×** — それでもヘッドライン・エッジの ~14%。
リーダーボード比較(leaderboard.md): multiday_trend_carry_aware は ¥24,137、sweep_counter_fade は ¥21,100、imbalance_momentum_micro は ¥10,699 の carry を支払った — いずれも真の hold-10-ETH ポジションが支払ったであろう ¥81k より material に小さい。ベンチマークは ~¥81k の free ride を得ている。
調整後のアクティブ戦略比較
トップ 3 ランキング戦略 vs cost-adjusted benchmark(¥510,238):
| strategy | strat PnL | vs raw bench (¥591,155) | vs cost-adj bench (¥510,238) |
|---|---|---|---|
| mm_zero_fee_inside_spread | +¥25,967 | -¥565,187 | -¥484,271 |
| baseline_flat | +¥645 | -¥590,510 | -¥509,593 |
| baseline_flow_imbalance_pulse | -¥9,548 | -¥600,703 | -¥519,786 |
ベンチマークを公正に課金しても、12 戦略のうちどれも勝てない。アルファ・ギャップは全体で ~¥81k 縮まるが、ランキングの flip は起きない。
判定
「hold 10 ETH」ベンチマークは過剰に寛容 — だがギャップは Phase 1.5 の結論を flip させるほど大きくない。 定量化:
- 保有コスト free ride: ~¥81,000(headline の 13.7%)。ベンチマーク PnL は
src/atc/cli/backtest.py:764で pre-cost 計算;インベントリを積むアクティブ戦略は mid × |position| に対して 0.04%/日 を支払い、ベンチマークは支払わない。公正なベンチマーク = +¥510k ではなく +¥591k。 - 実現リスクは大きい: max intra-window drawdown -¥548,615(ピークトゥトラフで -78%)、最悪日 -¥206,260、最悪 5 日窓 -¥424,130。年率 Sharpe +1.34 は decent だがパスは bumpy。
- 窓タイミングのラック: ベンチは自ピークから -28.2% オフで終了。3 日早く終わっていれば +¥710k、2 日早く(ピーク)なら +¥824k;04-17 ピークから 3 月ドローダウン・スロープが継続していれば、あと 20 日でゼロ以下。
- 窓内で既にネガティブ: 7/62 日(11.3%)、累積 hold-10-ETH ベンチはアンダーウォーター(トラフ 2026-02-23 に -¥152,915)。
コスト調整後の +¥510k ベンチマークにさえどの戦略も勝てない、したがって Phase 1.5 ヘッドライン「no strategy beats hold-10-ETH」は監査を survive する。しかし比較はやはり非対称で、+¥591k / Sharpe 1.34 のフレーミングはベンチを ~14% 過大評価し、-78% ドローダウン・パスを隠している。
Phase 5 walk-forward の要件:
- ベンチマークに保有コストを対称に課金
- レジーム別に分割し、単一ラリー・テープが支配しないようにする(
regime-decomposition.mdと一致) - ピーク・トゥ・トラフも end-to-end に加えて報告
アーティファクト
- Source: Postgres
backtest_run_dailyrows,run_tag='phase1_5_s3' - Code:
src/atc/cli/backtest.py:764(benchmark formula)、src/atc/portfolio/ledger.py:30(戦略 holding cost)
関連ページ
- Leaderboard (62-day, s3-stream) — +¥591k ヘッドラインが出た元のリーダーボード
- Regime Decomposition (rally / chop / down) — 62 日の P&L をレジーム別に分解(公正化の第 2 軸)
- Big-Size Loser Diagnosis — アクティブ戦略が支払った実 carry の内訳