TH1/AITrainPython/train_max_gpu.bat
2025-12-06 11:44:43 +08:00

37 lines
1.0 KiB
Batchfile

@echo off
echo ============================================================
echo 终极优化训练 - 基于问题分析的最优配置
echo ============================================================
echo.
echo 问题根源:
echo 1. batch_size=64太小,15000样本要更新940次!
echo 2. 每次更新都要逐个处理old_log_probs (动作数不同)
echo 3. 显存只用0.03GB,GPU几乎闲置
echo.
echo 解决方案:
echo - batch_size: 2048 (减少到8次更新)
echo - epochs_per_update: 1 (只训练1轮,减少重复)
echo - update_frequency: 1 (立即更新,不积累)
echo.
echo 预期效果:
echo - 更新次数: 940次 -^> 8次 (减少99%%)
echo - 显存占用: 0.03GB -^> 2-3GB
echo - 训练速度: 99样本/秒 -^> 1000+样本/秒 (10倍提升)
echo.
echo ============================================================
echo.
python train.py ^
--batch_size 2048 ^
--epochs_per_update 1 ^
--update_frequency 1 ^
--buffer_capacity 100000 ^
--hidden_dim 512 ^
--lr 3e-4 ^
--use_amp ^
--device cuda ^
--num_epochs 100
pause