7纳米制程26万亿晶体管、比ipad还大初创公司推「巨无霸」芯片

  近年来大量芯片进入市场,旨在加速AI和机器学习工作负载。基于不同的机器学习算法,这些芯片通常专注于几个关键领域,但它们大多有一个共同的限制芯片大小。

  两年前,Cerebras 揭开了芯片设计领域的一场革命:他们研发了一款名为 Wafer Scale Engine(WSE)的芯片,拥有 1.2 万亿个晶体管,是英伟达 GPU Titan V 的 57 倍。WSE 的尺寸比一台 iPad 还要大。Cerebras 的「暴力美学」曾引发人们惊呼:「WSE 的晶体管数量已超越人类大脑中的神经元了!」Cerebras 也因此在业界闻名。

  今天,该公司又宣布其下一代芯片 Wafer Scale Engine 2(WSE 2)将于今年第三季度上市,采用 7nm 制程工艺,晶体管数量翻倍到 2.6 万亿个,含有 850000 个 AI 核心。

  Cerebras 始终致力于将机器学习问题逻辑解决方案的作用发挥到极致。2015 年 Andrew Feldman 成立该公司时,训练神经网络要消耗较多的时间,大型网络则需要数周。最大的瓶颈是数据必须在处理器和外部 DRAM 存储器之间进行多次传输,既荒度时间又消耗能源。WSE 的开发团队指出:我们大家可以扩大芯片,使它与 AI 处理器内核一起容纳所需的所有数据。随着自然语言处理、图像识别等领域的发展,神经网络也变得很庞大,AI 领域需要一个非常大的芯片。有多大?尽可能大,这在某种程度上预示着是整块晶圆,46225 平方毫米。

  CEO Feldman 表示:「当你想做出改变时,总是会遇到物理设计上的挑战。所有的东西都与几何有关。这真的很难,但台积电是我们非凡的合作伙伴。」

  7 纳米技术的发展意味着巨大的进步,但据 Feldman 表示,该公司还对其 AI 核心的微架构进行了改进。他不愿透露细节,但表示在与客户合作一年多后,Cerebras 吸取了一些经验教训,并将其整合到新的核心中。

  WSE 2 采用台积电 7 纳米制程工艺。这使得其可以按比例缩小,并能够在某些特定的程度上缩小 SRAM,WSE 2 上具有 850000 个 AI 核心。WSE 2 的晶片尺寸与 WSE 保持一致,但几乎所有功能都翻倍增加,如下表所示:

  其核心通过一个带有 FMAC 数据路径的 2D 网格(2D Mesh)进行连接。Cerebras 与 WSE 的目标是提供一个通过创新专利设计的单一平台,该平台允许用于 AI 计算的更大处理器,现已扩展到更广泛的 HPC 工作负载中。

  第一代 WSE 芯片拥有 1.2 万亿个晶体管,其数量是英伟达旗舰 GPU Titan V 的 57 倍,使用台积电 16 纳米制程工艺打造,面积 46,225 平方毫米,包含 400,000 个核心,片上存储高达 18G,功耗 1.5 万瓦(约等于 6 台电磁炉的功率),内存带宽 9PB / 秒,通信结构带宽 100PB / 秒。此外,第一代 WSE 还实现了 3000 倍的速度提升以及 10000 倍的存储带宽扩展。

  WSE-2 设计的关键是自定义图形编译器,它采用 PyTorch 或 TensorFlow,并将每一层映射到芯片的物理部分,并允许数据流进行异步计算,拥有如此大的处理器意味着不会浪费能源。编译器和处理器在设计时也考虑到了稀疏性,无论批处理大小如何,都允许高利用率,或者允许参数搜索算法同时运行。

  两者相比,芯片本身的大小没改变,300 毫米仍然是大规模生产中的最大晶圆尺寸,因此 WSE 2 芯片的外观尺寸没改变,但是 AI 核心翻了一倍。WSE 2 仍然被划分成一个 7×12 的矩形阵列。

  此外,承载 WSE 2 的计算机系统 CS-2 也没有过大变化。CS-2 旨在实现快速、灵活的训练和低延迟的数据中心推断。目前,CS-2 由 WSE-2 提供动力,与其他数据中心 AI 解决方案相比,CS-2 具有更高的计算密度、更快的内存和更高的带宽互连,并使用领先的 ML 框架进行编程。

  经过几年的迅速发展,该公司的规模已基本翻倍,在硅谷,圣地亚哥,多伦多和东京拥有约 300 名工程师。

  IBM表示,五十多年来,计算机处理器一直在以惊人的速度提升性能、缩小尺寸,而且如今已经完全依赖于CMOS工艺技术,但随着摩尔定律逐渐接近极限,传统方法很快就会走到尽头,亟须引入新的材料和电路架构。不同于以往仅在试验室内实现,IBM现在成功将新的材料、新的电路架构运用到了200毫米晶圆上,有望为计算、通信、消费电子提供全新的技术根基。

  在364兆位的阵列中,有单位面积为0.108平方微米和0.092平方微米的SRAM单元在工作。0.108平方微米的单元为低电压操作而优化;而0.092平方微米的单元为高密度而优化,而且是迄今所知电路中可工作的最小的SRAM单元。该测试芯片在指甲盖大小的面积上集成了29亿个晶体管,密度大约是之前32纳米芯片的两倍。

  在博锐之后,英特尔公司第一款打出明确的“智能计算”旗号的产品,则是去年3月发布的至强5500处理器,它面向的是目前服务器市场上占有份额最高、应用最普遍的双路服务器,除了提供同种类型的产品中最为理想的性能表现外,它另一大亮点,就能帮助用户实现无需人工干预的应用负载均衡、实时节能和对虚拟化应用的强有力支持。