阿里云如何租服务器跑深度学习?

在阿里云上租用服务器运行深度学习任务是一个常见且高效的选择。以下是详细的步骤和建议,帮助你快速搭建适合深度学习的云服务器环境。


一、选择合适的阿里云产品

1. 推荐产品:弹性GPU实例(ECS + GPU)

阿里云提供多种支持GPU的ECS(Elastic Compute Service)实例,适合深度学习训练与推理。

  • 典型型号
    • gn6i/gn6e/gn7:基于NVIDIA T4、V100、A10等GPU,适用于中大型模型训练。
    • 实例规格示例
    • ecs.gn6i-c8g1.4xlarge:NVIDIA T4 ×1,32GB内存
    • ecs.gn7-c16g1.8xlarge:NVIDIA A10 ×1,64GB内存
    • ecs.gn6v-c8g1.16xlarge:NVIDIA V100 ×1,高性能训练

✅ 建议:初学者可选T4或A10;大规模训练建议V100/A100(部分需申请配额)


二、创建GPU实例的步骤

  1. 登录阿里云控制台

    • 访问:https://www.aliyun.com
    • 登录账号并进入 ECS 控制台
  2. 创建实例

    • 点击「创建实例」
    • 选择地域(建议选离你近的,如华北3-北京、华东2-上海)
  3. 选择实例规格

    • 在「实例类型」中选择「GPU计算型」
    • 比如选择 gn6ign7 系列
    • 根据预算和需求选择GPU数量、CPU核数、内存
  4. 选择镜像

    • 推荐使用预装深度学习环境的镜像:
      • 公共镜像 → Ubuntu 20.04/22.04 或 CentOS 7/8
      • AI镜像市场 → 搜索“深度学习”或“DLAMI”(Deep Learning AMI)
      • 如:Ubuntu with NVIDIA CUDA & PyTorch/TensorFlow
    • 或者自己手动安装环境(更灵活)
  5. 存储配置

    • 系统盘:建议 ≥ 100GB(SSD云盘)
    • 数据盘:如果数据大,可挂载额外云盘(如500GB以上)
  6. 网络与安全组

    • 分配公网IP(或绑定弹性IP)
    • 安全组开放端口:
      • SSH(22)
      • Jupyter Notebook(8888)
      • TensorBoard(6006)
      • 其他自定义服务端口
  7. 设置登录方式

    • 推荐使用密钥对(更安全),避免密码登录
  8. 完成购买

    • 选择按量付费(测试用)或包年包月(长期使用更便宜)
    • 按量付费:随时释放,适合短期实验
    • 包年包月:成本更低,适合稳定项目

三、连接服务器并配置深度学习环境

1. SSH连接服务器

ssh -i your-key.pem root@<公网IP>

2. 检查GPU驱动(通常已预装)

nvidia-smi

若显示GPU信息,则驱动正常。

3. 安装深度学习框架(如未预装)

# 安装 Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

# 创建虚拟环境
conda create -n dl python=3.9
conda activate dl

# 安装 PyTorch(CUDA版本)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 或安装 TensorFlow
pip install tensorflow-gpu

4. 启动Jupyter Notebook(远程访问)

jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root

然后通过浏览器访问:http://<公网IP>:8888

🔐 注意:建议设置密码或使用SSH隧道提高安全性


四、上传数据与代码

  • 使用 scprsync 传输文件:

    scp -i key.pem -r local_project/ root@<IP>:/root/project/
  • 或挂载OSS(阿里云对象存储)作为数据源:

    • 使用 ossfs 将OSS bucket挂载为本地目录,节省磁盘空间。

五、优化建议

项目 建议
成本控制 测试阶段用按量付费,训练稳定后转包月;使用抢占式实例(价格低60%+,但可能被回收)
数据存储 大数据集建议存OSS,通过内网挂载
自动化 使用脚本自动部署环境(如Shell/Ansible)
监控 使用云监控查看GPU利用率、内存、温度等
备份 定期快照系统盘和数据盘

六、费用参考(以北京地区为例)

实例类型 GPU型号 vCPU 内存 按量价格(元/小时)
ecs.gn6i-c4g1.xlarge T4 ×1 4 15GB ~2.5元
ecs.gn7-c16g1.8xlarge A10 ×1 32 64GB ~6.8元
ecs.gn6v-c8g1.16xlarge V100 ×1 32 120GB ~10元

💡 新用户常有免费试用或代金券,可降低成本


七、替代方案(更省心)

  • PAI 平台(Platform for AI)
    阿里云提供的机器学习平台,支持Notebook、训练、部署一体化。

    • 进入「PAI-DSW」可直接创建带GPU的交互式开发环境
    • 无需管理服务器,适合科研和快速实验

总结

步骤总结

  1. 选GPU ECS实例(如gn6i/gn7)
  2. 使用AI镜像或手动安装环境
  3. SSH连接,配置PyTorch/TensorFlow
  4. 上传代码与数据
  5. 开始训练,监控资源使用
  6. 训练完成后及时释放实例以节省费用

如果你提供具体需求(如模型类型、数据大小、预算),我可以帮你推荐更合适的实例配置。