40 lines
1.1 KiB
Batchfile
40 lines
1.1 KiB
Batchfile
@echo off
|
|
REM 稳定训练配置 - 修复Policy Loss爆炸问题
|
|
REM 基于30轮训练经验的改进版本
|
|
|
|
echo ============================================================
|
|
echo 稳定训练配置 - 修复数值不稳定问题
|
|
echo ============================================================
|
|
echo.
|
|
echo 改进措施:
|
|
echo - 降低学习率: 3e-4 → 1e-4 (防止后期不稳定)
|
|
echo - 增加梯度裁剪: 0.5 → 0.3 (更保守)
|
|
echo - 减小Clip范围: 0.2 → 0.15 (更稳定)
|
|
echo - Batch Size: 6144 (更平滑的梯度估计)
|
|
echo - Hidden Dim: 768 (保持不变)
|
|
echo - Epochs Per Update: 3 (减少过拟合)
|
|
echo - 增加数值稳定性检查
|
|
echo.
|
|
echo 训练目标: 稳定收敛 + 防止Policy Loss爆炸
|
|
echo.
|
|
echo 开始训练...
|
|
echo ============================================================
|
|
echo.
|
|
|
|
python train.py ^
|
|
--batch_size 6144 ^
|
|
--hidden_dim 768 ^
|
|
--lr 1e-4 ^
|
|
--epochs_per_update 3 ^
|
|
--update_frequency 500 ^
|
|
--buffer_capacity 200000 ^
|
|
--clip_epsilon 0.15 ^
|
|
--max_grad_norm 0.3 ^
|
|
--use_amp ^
|
|
--device cuda ^
|
|
--num_epochs 50 ^
|
|
--max_episodes 1000
|
|
|
|
pause
|
|
|