ISCA25 Neoscope: How Resilient Is My SoC to Workload Churn?

未来的硬件怎么应对不断演变的软件?

https://dl.acm.org/doi/pdf/10.1145/3695053.3731014

这篇文章是 ISCA 2025 的论文 《Neoscope: How Resilient Is My SoC to Workload Churn?》,核心在回答一个非常系统/架构导向的问题:

当软件和工作负载不断演进(churn)时,一个 SoC 设计在整个生命周期内还能保持多“好”?

其建模并定量回答:在工作负载不可避免地演化(churn)的前提下,什么样的 SoC 设计在整个生命周期内更“稳健(resilient)”?

背景:硬件用得越来越久,软件变得越来越快

  • SoC 的使用寿命在变长(手机、嵌入式、企业平台)
  • 但软件/工作负载变化很快(AI、数据库、视频编码、模型结构)
  • 高度专用化的硬件(DSA / accelerator-heavy SoC)
    👉 初期性能极高,但一旦 workload 变了,性能可能“断崖式下降”

论文把这个问题称为Workload Churn(工作负载演化 / 抖动)

二、如何定义 & 刻画 Workload Churn?

✳️ 两个维度

论文提出用两个量来描述 workload 如何变化(page 2–3):

维度 符号 含义
Magnitude ε 总工作量是否变多(执行时间是否膨胀)
Disruption Δ 工作内容是否“变种类”(操作类型是否变)

✳️ 四种典型 churn 类型(Figure 1 & 2)

类型 ε Δ 现实例子
Minimal IoT 固件
Perturbing 视频 codec 迭代
Escalating 数据规模增长
Volatile AI 模型演化(Transformer / GPT)

高 Δ = 对专用硬件最致命

image.png

image.png


三、Neoscope 是什么?作者的核心方法

Neoscope:一个“面向 churn 的 SoC 设计工具

Neoscope 是一个 pre-silicon、多目标、ILP 驱动的 SoC 设计空间探索工具(Section 3)。

它解决了以往工具的两个问题:

  • ❌ 要大量参数 sweep,找不到全局最优
  • ❌ 只能评估“给定 SoC”,而不是反推“最优 SoC”

Neoscope 反过来给定 workload → 直接解出最优 SoC 结构

完整pipeline:

image.png


技术核心

  • 把 SoC 设计建模为 Job-Shop Scheduling Problem

  • Integer Linear Programming (ILP)

    • CPU / GPU / DSA 都是 “machines”
    • workload phases 是 “jobs”
  • 通过 exclusive machine ranges

    • 让 solver 在一次求解中探索整个 SoC 设计空间
  • 支持 多目标优化

    • 性能
    • 面积效率
    • 能效
    • 成本
    • 碳效率(结合 FOCAL)
      image.png

具体建模见论文:
image.png


四、实验发现

结论 1:小而专的 SoC 最脆弱

高 Disruption(Δ) 的 churn 下(Perturbing / Volatile):

小面积 + 强 DSA 专用化 → 性能崩溃最快

原因:

  • DSA 只支持旧 AIO(操作类型)
  • 新 workload 根本跑不到这些硬件上

Figures 6a and 6e show that, independent of workload, when churn is Minimal, performance for all SoCs is very consistent relative to the optimal across all periods. This is unsurprising, as without much churn, there is not much that can happen to change an SoC’s performance. Together, these results demonstrate that specialization pays off if Minimal churn is expected.

Over-specialization is especially risky for small SoCs, when churn has high Disruption (Δ).

结论 2:Escalating churn(ε 高,Δ 低)反而适合专用化

如果只是:

  • 数据规模变大
  • 操作类型不变

👉 强 DSA 可以持续被利用,专用化是值得的

If Magnitude is high, it is good to over-provision.

image.png


结论 3:中等规模 SoC 最省能

论文发现(Section 5):

  • 小 SoC:功率密度太高
  • 大 SoC:利用率不足
  • 中等规模 SoC → 最优能效

Medium SoCs balance power density with compute utilization

image.png


结论4:Dark silicon

Δ 低 + DSA 很强 的情况下,
“大量 dark silicon 的 SoC 反而可能是碳最优的”

When DSAs are strong relative to the GPU and Disruption (Δ) is low, dark silicon is always carbon optimal.

image.png