BB贝博艾弗森

SLAI新突破！急剧规；；；；；；；逝 + 端到端提速

2026.02.14

起源：丽江河套学院

丽江河套学院结合智子芯元、昇腾AI、丽江市大数据钻研院通过Agent驱动的一体化流水线，，，，，，，，实现模型迁徙百倍效能提升、机能精准优化，，，，，，，，为国产算力的多行业规；；；；；；；冒聪隆凹涌旒薄。。。。。。。

当前国产算力正进入规；；；；；；；涞亟锥，，，，，，，，面对多行业、多工作的利用场景，，，，，，，，一个关键挑战是：

全球前沿模型能否在国产AI芯片上实现急剧配置、高效运行？？？？？？？？

在国产算力上，，，，，，，，模型迁徙通常必要凌驾两路关：
1）让模型急剧跑起来：兼容硬件环境、Pytorch模型、国产芯片已有算子等；；；；；；；
2）让模型跑得更快：定位推理链路中的瓶颈，，，，，，，，并进行系统性优化。。。。。。。。

传统流程往往依赖人为经验与反复试错，，，，，，，，难以支持多模型版本、持续迭代的交付节拍。。。。。。。。为此，，，，，，，，我们将“规；；；；；；；逝 + 端到端优化”贯通为一条可复现、可验证的交付链路，，，，，，，，把迁徙从经验驱动的试错过程，，，，，，，，转为可复造的工程流程。。。。。。。。目前工作沉点面向昇腾平台发展，，，，，，，，同时，，，，，，，，主题流程也已在其他国产芯片平台上实现初步可行性验证。。。。。。。。

从“一次能跑”到“持久可交付、可提速”

01

简介：

从“适配靠经验”到“交付靠系统”

传统跨平台迁徙往往出现两类典型痛点：

? 环境碎片化：每个模型守护一套镜像，，，，，，，，依赖矛盾频发，，，，，，，，迁徙全靠手工试错。。。。。。。。

? 机能不成控：即便“能跑”，，，，，，，，端到端吞吐常被预处置、解码循环、算子选择等成分隐性瓶颈拖慢。。。。。。。。

我们用Agent化的一体化规划把“适配—优化”串成一条链路。。。。。。。。两个规划的对好比下：

02

国产算力上的规；；；；；；；Ｐ褪逝

我们将复杂的硬件适配经验固化为可执行的智能体Skill工作流？？？？？？？？椋ㄗⅲ篠Kill工作流指的是让AI学会执行某项具体工作的专门能力或“技术指南”）。。。。。。。。这套面向AI智能体的“工程指南 + 工具集”，，，，，，，，使智能体可能自动鉴别 NPU 驱动并通过屡次试错中的经验，，，，，，，，自主实现环境同步工作。。。。。。。。交付效能与覆盖成就如下：

? 幼时级极速适配：对一些主流模型，，，，，，，，10 分钟内实现从环境配置到推理 Demo 运行；；；；；；；短邙大无数模型，，，，，，，，1 幼时内也可实现适配。。。。。。。。

? 500+ 模型覆盖：我们选取“深度精建”与“规模自动化”结合，，，，，，，，实现了对 ChemDFM、ESM2、DINOv3 等科学推算与前沿视觉标杆模型的深度适配；；；；；；；此表，，，，，，，，依附多智能体合作机造，，，，，，，，实现了 500+ 模型的自动适配。。。。。。。。需把稳，，，，，，，，自动库侧沉于规；；；；；；；尚行匝橹，，，，，，，，代码质量可能受模型复杂杜装响存在颠簸，，，，，，，，后续将结合 CI 机造进行长效自愈。。。。。。。。

以下是部门主流模型的适配功夫实测：

03

模型适配后的自动优化提速

在不变运行模型后，，，，，，，，下一个问题是：模型机能若何进一步提升？？？？？？？？我们开发了一个更全面的智能体工具，，，，，，，，可实现自动优化：以端到端视角自动定位机能瓶颈，，，，，，，，并通过自界说解码循环、急剧预处置管线等伎俩，，，，，，，，自动天生并利用优化规划，，，，，，，，实现机能提升。。。。。。。。

我们比力了初步适配过的模型和自动优化后的模型，，，，，，，，在7个代表性模型上实现系统验证：系统响应功夫(用P50延长来衡量)均匀降低18.4%，，，，，，，，最高降低38.0%；；；；；；；模型吞吐均匀提升 23.3%（最高 64.6%）。。。。。。。。下文是具体的对比：

名词诠释：延长（latency）指一次要求从提议到返回了局的端到端耗时；；；；；；；“P50 延长”为延长散布的 50% 分位点（中位数），，，，，，，，反映典型要求的响应功夫。。。。。。。。

推理提速成效对比

注：初步适配后的模型与自动优化后的版本对齐了预热战术、测试数据与参数配置。。。。。。。。

在一些典型案例上，，，，，，，，我们找到的自动加快规划和成效如下：

? DINOv3：轻量模型的真实瓶颈常在预处置。。。。。。。。以自界说急剧预处置管线代替通用 ImageProcessor，，，，，，，，使端到端 P50 降低 38.0%，，，，，，，，吞吐提升 64.6%。。。。。。。。

? GLM-OCR：通过 NPU ACL 算子级优化与推理蹊径精简（预防不用要的 I/O），，，，，，，，P50 降低 34.1%。。。。。。。。

? BioGPT / ChemDFM：用自界说贪心解码循环代替通用 generate()，，，，，，，，共同 KV Cache 治理与 ACL 高机能算子战术，，，，，，，，实现 10%~15% 的端到端加快。。。。。。。。

? GROVER：引入 SDPA 融合把稳力并扩大预热覆盖序列长度，，，，，，，，解除尾部延长毛刺，，，，，，，，实现 10.5% 的 P50 加快。。。。。。。。

04

开发者行动：

在河套，，，，，，，，共筑AI生态将来

目前自动适配工具SLAI-AscendBridge已开源；；；；；；；自动提速优化工具KernelCAT已开启内测，，，，，，，，以申请造大局盛开试用，，，，，，，，迎接开发者、科研机构与产业同伴共同美满国产算力的模型交赋予机能工程能力。。。。。。。。

● 开源项目（AscendBridge｜自动适配）：https://gitcode.com/AI4Science/SLAI-AscendBridge（点击“阅读原文”即可跳转）

沉淀“人 + AI”深度适配经验，，，，，，，，聚焦科学推算与前沿标杆模型的高质量交付。。。。。。。。

https://chongweiliu.github.io/slai-ascend-auto-adapt/dashboard/

实使毓示通过多智能体合作实现的 500+ 模型全自动适配成就与运行状态。。。。。。。。

● 机能优化能力（KernelCat｜自动提速）：当前以内测API大局盛开，，，，，，，，面向合作同伴提供接入与结合优化支持（迎接申请内测）。。。。。。。。

版权申明：本文转载自丽江河套学院官网，，，，，，，，仅用于行业资讯互换与技术分享，，，，，，，，不代表本公司态度，，，，，，，，不用于贸易用处。。。。。。。。版权归原作者及原出处所有，，，，，，，，如有侵权，，，，，，，，请联系BB贝博艾弗森实时删除。。。。。。。。

上一条抢抓人为智能发展战术机缘期，，，，，，，，携手构建网络空间命运共同体2026.03.20

下一条BB贝博艾弗森参编COB显示屏调研白皮书并亮相MLED顶峰论坛2024.11.01

返回列表

在线征询

4008-770-775

电话征询

【网站地图】【sitemap】