Warning: fopen(!logs-errors-php.log): failed to open stream: Permission denied in /var/www/html/!php-gen-lang/v1-core/function_main.php on line 137

Warning: fwrite() expects parameter 1 to be resource, boolean given in /var/www/html/!php-gen-lang/v1-core/function_main.php on line 138

Warning: fclose() expects parameter 1 to be resource, boolean given in /var/www/html/!php-gen-lang/v1-core/function_main.php on line 139
 대뇌 시스템의 웨이퍼 스케일 엔진은 12 인치 웨이퍼에 1 조 개의 트랜지스터 프로세서입니다 - 뇌

Cerebras Systems의 웨이퍼 스케일 엔진은 12 '웨이퍼의 Trillion 트랜지스터 프로세서입니다



This news isn't properly today's, but it's relevant and interesting enough that I think warrants a news piece on our page. My reasoning is this: in an era where Multi-Chip Modules (MCM) and a chiplet approach to processor fabrication has become a de-facto standard for improving performance and yields, a trillion-transistor processor that eschews those modular design philosophies is interesting enough to give pause.

Cerebras Systems는 Wafer Scale 엔진을 개발하여 AI 교육 엔진에 대한 수요가 지속적으로 증가하고 있습니다. 그러나 대기 시간이 훈련 시간과 시스템 기능에 큰 영향을 미치는 워크로드에서 Cerebras는 모든 코어가 통신 할 수있는 통신 레인이 필요없는 프로세서를 설계하려고했습니다. 시스템은 기본적으로 트랜지스터에 의해서만 제한됩니다. 스위칭 시간. 400,000 개의 코어는 42,225 평방 밀리미터의 실리콘에 에칭 된 인터커넥트를 통해 원활하게 통신합니다 (비교하여 NVIDIA의 최대 GPU는 815 평방 밀리미터에서 56.7 배 더 작습니다). 그러나 실리콘 웨이퍼 제조에 여전히 전체 칩을 작동 불능으로 만들 수있는 제조 결함이 발생하는 세계에서 Cerebras는 어떻게 그러한 대형 프로세서를 구축하고 실제로보고 된 사양을 제공 할 수없는 결함을 방지 할 수 있었습니까? 성능? 정답은 주로 오래된 것입니다. 이중화는 칩 제조업체 인 TSMC와 함께 달성 한 몇 가지 추가 마법 공학 파우더와 짝을 이룹니다. 이 칩은 TSMC의 16nm 노드에 기반을두고 있습니다. 입증 된 수율, 최첨단 7nm 공정보다 저렴하고 면적 밀도가 낮은보다 정제 된 공정입니다. 이렇게하면 40 만 개의 코어를 적절히 냉각시키기가 더욱 어려워집니다 상상할 수 있습니다.

이러한 대형 칩과 관련된 스케일링 문제를 해결하기 위해 대뇌 연결, 수율, 전력 공급 및 패키징 개선이 모두 연구되고 전개되었습니다. 또한, 칩은 실리콘 칩의 여러 부분에서 일부 결함이 발생하더라도 '오버 프로비저닝 (overprovisioning)'으로 설계된 영역이 여유, 라우팅 및 프로세싱 데이터없이 처리 할 수 ​​있도록 보장하는 중복 기능으로 구축됩니다. 비트를 건너 뜁니다. Cerebras는 칩의 특정 구성 요소 (코어, SRAM 등)가 추가 오버 프로비저닝 기능의 1 %, 1.5 %를 특징으로하므로 모든 제조 결함이 실리콘 폐기물 대신 무시할만한 속도 범프가 될 수 있다고 말합니다. 코어 간 통신 솔루션은 가장 진보 된 기술 중 하나이며 초당 100 페타 비트의 총 대역폭을 제공하는 Swarm이라 불리는 세밀한 올 하드웨어 온칩 메시 연결 통신 네트워크를 갖추고 있습니다. 18Gb의 로컬, 분산, 초고속 SRAM 메모리는 메모리 계층 구조의 유일한 유일한 수준으로 초당 9 페타 바이트의 영역에서 메모리 대역폭을 제공합니다.

400,000 개의 코어는 AI 워크로드 가속화를 위해 맞춤 설계되었습니다. Sparse Linear Algebra Cores라는 SLAC라는 이름은 유연하고 프로그래밍 가능하며 모든 신경망 계산을 지원하는 스파 스 선형 대수학에 최적화되어 있습니다 (이는 FPGA와 같은 프로그래밍 가능한 코어 배열이라고 생각합니다). SLAC의 프로그래밍 기능은 끊임없이 변화하는 머신 러닝 분야에서 코어가 모든 신경망 알고리즘을 실행할 수 있도록 보장합니다. 이는 다양한 워크로드와 AI 관련 문제 해결 및 교육에 적응할 수있는 칩입니다. 자세. 전체 칩과 함께 제공되는 배포 장치는 사내에서 개발해야했습니다. Andrew Feldman의 창립자이자 CEO는 웨이퍼 스케일 엔진의 제조 및 배치에 적용 할 수있는 포장, 인쇄 회로 기판, 커넥터, 냉각 판, 도구 또는 소프트웨어가 없었습니다. 이는 Cerebras Systems와 173 명의 엔지니어 팀이 칩뿐만 아니라 실제로 작동하는지 확인하는 데 필요한 거의 모든 것을 개발해야한다는 것을 의미합니다. 웨이퍼 스케일 엔진은 작동하기 위해 15 킬로와트의 전력을 소비합니다. 이는 현대적인 AI 클러스터와 비교할 만하지 만 개별 칩에 대한 엄청난 양의 전력입니다. 본질적으로 클러스터이지만 클러스터를 괴롭히는 지연 및 칩 간 통신 번거 로움이없는 솔로 칩에 배포됩니다.

In an era where companies are looking towards chiplet design and inter-chip communication solutions as ways to tackle the increasing challenges of manufacturing density and decreasing yields, Cerebras' effort proves that there is still a way of developing monolithic chips that place performance above all other considerations. Sources: VentureBeat, TechCrunch