在阿里云上租用服务器运行深度学习任务是一个常见且高效的选择。以下是详细的步骤和建议,帮助你快速搭建适合深度学习的云服务器环境。
一、选择合适的阿里云产品
1. 推荐产品:弹性GPU实例(ECS + GPU)
阿里云提供多种支持GPU的ECS(Elastic Compute Service)实例,适合深度学习训练与推理。
- 典型型号:
- gn6i/gn6e/gn7:基于NVIDIA T4、V100、A10等GPU,适用于中大型模型训练。
- 实例规格示例:
ecs.gn6i-c8g1.4xlarge:NVIDIA T4 ×1,32GB内存ecs.gn7-c16g1.8xlarge:NVIDIA A10 ×1,64GB内存ecs.gn6v-c8g1.16xlarge:NVIDIA V100 ×1,高性能训练
✅ 建议:初学者可选T4或A10;大规模训练建议V100/A100(部分需申请配额)
二、创建GPU实例的步骤
-
登录阿里云控制台
- 访问:https://www.aliyun.com
- 登录账号并进入 ECS 控制台
-
创建实例
- 点击「创建实例」
- 选择地域(建议选离你近的,如华北3-北京、华东2-上海)
-
选择实例规格
- 在「实例类型」中选择「GPU计算型」
- 比如选择
gn6i或gn7系列 - 根据预算和需求选择GPU数量、CPU核数、内存
-
选择镜像
- 推荐使用预装深度学习环境的镜像:
- 公共镜像 → Ubuntu 20.04/22.04 或 CentOS 7/8
- AI镜像市场 → 搜索“深度学习”或“DLAMI”(Deep Learning AMI)
- 如:Ubuntu with NVIDIA CUDA & PyTorch/TensorFlow
- 或者自己手动安装环境(更灵活)
- 推荐使用预装深度学习环境的镜像:
-
存储配置
- 系统盘:建议 ≥ 100GB(SSD云盘)
- 数据盘:如果数据大,可挂载额外云盘(如500GB以上)
-
网络与安全组
- 分配公网IP(或绑定弹性IP)
- 安全组开放端口:
- SSH(22)
- Jupyter Notebook(8888)
- TensorBoard(6006)
- 其他自定义服务端口
-
设置登录方式
- 推荐使用密钥对(更安全),避免密码登录
-
完成购买
- 选择按量付费(测试用)或包年包月(长期使用更便宜)
- 按量付费:随时释放,适合短期实验
- 包年包月:成本更低,适合稳定项目
三、连接服务器并配置深度学习环境
1. SSH连接服务器
ssh -i your-key.pem root@<公网IP>
2. 检查GPU驱动(通常已预装)
nvidia-smi
若显示GPU信息,则驱动正常。
3. 安装深度学习框架(如未预装)
# 安装 Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
# 创建虚拟环境
conda create -n dl python=3.9
conda activate dl
# 安装 PyTorch(CUDA版本)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 或安装 TensorFlow
pip install tensorflow-gpu
4. 启动Jupyter Notebook(远程访问)
jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root
然后通过浏览器访问:http://<公网IP>:8888
🔐 注意:建议设置密码或使用SSH隧道提高安全性
四、上传数据与代码
-
使用
scp或rsync传输文件:scp -i key.pem -r local_project/ root@<IP>:/root/project/ -
或挂载OSS(阿里云对象存储)作为数据源:
- 使用
ossfs将OSS bucket挂载为本地目录,节省磁盘空间。
- 使用
五、优化建议
| 项目 | 建议 |
|---|---|
| 成本控制 | 测试阶段用按量付费,训练稳定后转包月;使用抢占式实例(价格低60%+,但可能被回收) |
| 数据存储 | 大数据集建议存OSS,通过内网挂载 |
| 自动化 | 使用脚本自动部署环境(如Shell/Ansible) |
| 监控 | 使用云监控查看GPU利用率、内存、温度等 |
| 备份 | 定期快照系统盘和数据盘 |
六、费用参考(以北京地区为例)
| 实例类型 | GPU型号 | vCPU | 内存 | 按量价格(元/小时) |
|---|---|---|---|---|
| ecs.gn6i-c4g1.xlarge | T4 ×1 | 4 | 15GB | ~2.5元 |
| ecs.gn7-c16g1.8xlarge | A10 ×1 | 32 | 64GB | ~6.8元 |
| ecs.gn6v-c8g1.16xlarge | V100 ×1 | 32 | 120GB | ~10元 |
💡 新用户常有免费试用或代金券,可降低成本
七、替代方案(更省心)
- PAI 平台(Platform for AI):
阿里云提供的机器学习平台,支持Notebook、训练、部署一体化。- 进入「PAI-DSW」可直接创建带GPU的交互式开发环境
- 无需管理服务器,适合科研和快速实验
总结
✅ 步骤总结:
- 选GPU ECS实例(如gn6i/gn7)
- 使用AI镜像或手动安装环境
- SSH连接,配置PyTorch/TensorFlow
- 上传代码与数据
- 开始训练,监控资源使用
- 训练完成后及时释放实例以节省费用
如果你提供具体需求(如模型类型、数据大小、预算),我可以帮你推荐更合适的实例配置。
CLOUD云