使用 GPU 进行 HuggingFace 训练
HuggingFace Training using GPU
基于HuggingFace script从头开始训练变形金刚模型。
我运行:
python3 run_mlm.py \
--dataset_name wikipedia \
--tokenizer_name roberta-base \
--model_type roberta \
--dataset_config_name 20200501.en \
--do_train \
--do_eval \
--learning_rate 1e-5 \
--num_train_epochs 5 \
--save_steps 5000 \
--warmup_steps=10000 \
--seed 666 \
--gradient_accumulation_steps=4 \
--output_dir models/mlm_wikipedia_scratch/ \
--per_gpu_train_batch_size 8
我不明白为什么我在 GPU 运行ning nvidia-smi
上看不到我的 python3 进程
这是一个屏幕:
您必须确保以下内容正确无误:
- GPU 已正确安装在您的环境中
In [1]: import torch
In [2]: torch.cuda.is_available()
Out[2]: True
- 指定您要使用的 GPU:
export CUDA_VISIBLE_DEVICES=X # X = 0, 1 or 2
echo $CUDA_VISIBLE_DEVICES # Testing: Should display the GPU you set
运行 再次运行该脚本,它应该可以运行。
基于HuggingFace script从头开始训练变形金刚模型。 我运行:
python3 run_mlm.py \
--dataset_name wikipedia \
--tokenizer_name roberta-base \
--model_type roberta \
--dataset_config_name 20200501.en \
--do_train \
--do_eval \
--learning_rate 1e-5 \
--num_train_epochs 5 \
--save_steps 5000 \
--warmup_steps=10000 \
--seed 666 \
--gradient_accumulation_steps=4 \
--output_dir models/mlm_wikipedia_scratch/ \
--per_gpu_train_batch_size 8
我不明白为什么我在 GPU 运行ning nvidia-smi
上看不到我的 python3 进程
这是一个屏幕:
您必须确保以下内容正确无误:
- GPU 已正确安装在您的环境中
In [1]: import torch
In [2]: torch.cuda.is_available()
Out[2]: True
- 指定您要使用的 GPU:
export CUDA_VISIBLE_DEVICES=X # X = 0, 1 or 2
echo $CUDA_VISIBLE_DEVICES # Testing: Should display the GPU you set
运行 再次运行该脚本,它应该可以运行。