TH1/AITrainPython/train_stable.bat
2025-12-06 11:44:43 +08:00

40 lines
1.1 KiB
Batchfile

@echo off
REM 稳定训练配置 - 修复Policy Loss爆炸问题
REM 基于30轮训练经验的改进版本
echo ============================================================
echo 稳定训练配置 - 修复数值不稳定问题
echo ============================================================
echo.
echo 改进措施:
echo - 降低学习率: 3e-4 → 1e-4 (防止后期不稳定)
echo - 增加梯度裁剪: 0.5 → 0.3 (更保守)
echo - 减小Clip范围: 0.2 → 0.15 (更稳定)
echo - Batch Size: 6144 (更平滑的梯度估计)
echo - Hidden Dim: 768 (保持不变)
echo - Epochs Per Update: 3 (减少过拟合)
echo - 增加数值稳定性检查
echo.
echo 训练目标: 稳定收敛 + 防止Policy Loss爆炸
echo.
echo 开始训练...
echo ============================================================
echo.
python train.py ^
--batch_size 6144 ^
--hidden_dim 768 ^
--lr 1e-4 ^
--epochs_per_update 3 ^
--update_frequency 500 ^
--buffer_capacity 200000 ^
--clip_epsilon 0.15 ^
--max_grad_norm 0.3 ^
--use_amp ^
--device cuda ^
--num_epochs 50 ^
--max_episodes 1000
pause