TH1/AITrainPython/train_stable.bat

@echo off
REM 稳定训练配置 - 修复Policy Loss爆炸问题
REM 基于30轮训练经验的改进版本

echo ============================================================
echo 稳定训练配置 - 修复数值不稳定问题
echo ============================================================
echo.
echo 改进措施:
echo - 降低学习率: 3e-4 → 1e-4 (防止后期不稳定)
echo - 增加梯度裁剪: 0.5 → 0.3 (更保守)
echo - 减小Clip范围: 0.2 → 0.15 (更稳定)
echo - Batch Size: 6144 (更平滑的梯度估计)
echo - Hidden Dim: 768 (保持不变)
echo - Epochs Per Update: 3 (减少过拟合)
echo - 增加数值稳定性检查
echo.
echo 训练目标: 稳定收敛 + 防止Policy Loss爆炸
echo.
echo 开始训练...
echo ============================================================
echo.

python train.py ^
    --batch_size 6144 ^
    --hidden_dim 768 ^
    --lr 1e-4 ^
    --epochs_per_update 3 ^
    --update_frequency 500 ^
    --buffer_capacity 200000 ^
    --clip_epsilon 0.15 ^
    --max_grad_norm 0.3 ^
    --use_amp ^
    --device cuda ^
    --num_epochs 50 ^
    --max_episodes 1000

pause