最近商汤发布了大模型 InternLM(书生·浦语),根据 OpenCompass 的榜单显示,其综合性能不错,特别针对中文环境,本文简单介绍一下如何快速部署 InternLM 模型。

部署

部署的方式很多,这里我使用了官方最推荐的方式 —— lmdeploy。在 Featurize 平台最新的 PyTorch 镜像中,打开终端运行下面的代码就能部署 internlm-chat-7b 模型。如果是在其他地方部署,则至少需要安装好 Python3 等常用软件。

curl -s https://chenglu.me/assets/deploy_internlm.sh | bash -s internlm/internlm-chat-7b

可以通过替换参数来部署其他模型,目前支持的参数有:

  • internlm/internlm-chat-7b
  • internlm/internlm-chat-7b-8k
  • internlm/internlm-chat-20b
  • lmdeploy/turbomind-internlm-chat-20b-w4

同时我也将部署代码放在了 GitHub Gist 上。

因为需要下载的文件很大,受带宽和网络质量影响,整个部署过程会比较长,Featurize 平台做了网络加速,模型的下载和部署都都会在 5 分钟左右完成,小的模型(7b)时间更短。

在 Featurize 上部署完成后,需要使用 featurize port export 6006 来将端口暴露到公网,然后根据提示来访问界面。

从下图中可以看到,单张 4090 的推理速度也是非常的快的。

显存要求

大部分模型仅需要单张 3090 / 4090 就可以完成部署。以下是笔者在 Featurize 平台完成的测试。

模型 显卡 x 数量
internlm-chat-7b 4090 x 1
internlm-chat-7b-8k 4090 x 1
internlm-chat-20b 4090 x 4
turbomind-internlm-chat-20b-w4 4090 x 1