Announcements
IBM, 차세대 IBM Z 메인프레임 시스템을 위한 AI 가속 프로세서 발표
2024년 8월 27일, 서울 – IBM은 ‘핫 칩스(Hot Chips) 2024’에서 곧 출시될 IBM 텔럼(Telum) II 프로세서와 IBM 스파이어 엑셀러레이터(Spyre Accelerator)의 아키텍처 세부 사항을 공개했다. 이 새로운 기술은 차세대 IBM Z 메인프레임 시스템의 처리 용량을 크게 확장하도록 설계되어 기존 인공지능(AI) 모델과 거대 언어 AI 모델을 함께 사용할 때 새로운 AI 앙상블 방식을 통해 속도를 높일 수 있도록 지원한다.
거대 언어 모델(Large Language Model, 이하 LLM)을 활용하는 많은 생성형 AI 프로젝트가 개념 증명에서 생산 단계로 넘어가면서 전력 효율적이고 안전하며 확장 가능한 솔루션에 대한 요구가 우선 순위로 떠올랐다. 8월에 발표된 모건 스탠리의 연구[1]에 따르면 향후 몇 년 동안 생성형 AI의 전력 수요가 매년 75%씩 급증해 2026년에는 스페인 전체가 2022년에 소비한 에너지 사용량만큼을 소비하게 될 것으로 예상했다. 많은 IBM 고객들은 적정한 규모의 파운데이션 모델을 지원하기 위한 아키텍처 결정과 AI 워크로드를 위해 설계된 하이브리드 클라우드 접근 방식이 점점 더 중요해지고 있다고 말한다.
이번에 공개된 주요 내용은 다음과 같다.
• IBM 텔럼 II 프로세서: 차세대 IBM Z 시스템을 구동하도록 설계된 이 새로운 IBM 칩은 1세대 텔럼 칩에 비해 증가한 클럭(주파수) 및 메모리 용량, 40% 증가한 캐시 및 통합 AI 가속기 코어, 데이터 처리에 일관성을 제공하는 부속 데이터 처리 장치(DPU)가 특징이다. 이 새로운 프로세서는 업계의 복잡한 트랜잭션 요구 사항을 충족함으로써 LLM을 위한 엔터프라이즈 컴퓨팅 솔루션을 지원할 것으로 기대된다.
• IO 가속 장치: 텔럼 II 프로세서 칩의 새로운 데이터 처리 장치(DPU)는 메인프레임의 네트워킹 및 스토리지를 위한 복잡한 IO 프로토콜을 가속화하도록 설계되었다. DPU는 시스템 운영을 간소화하고 주요 구성 요소의 성능을 향상시킬 수 있다.
• IBM 스파이어 엑셀러레이터: 텔럼 II 프로세서를 보완하기 위해 추가적인 AI 연산 능력을 제공한다. 텔럼 II와 스파이어 칩은 함께 작동해 여러 개의 머신러닝 또는 딥러닝 AI 모델을 인코더 LLM과 결합하는 앙상블 방식의 AI 모델링을 지원하기 위한 확장 가능한 아키텍처를 형성한다. 각 모델 아키텍처의 강점을 활용함으로써 앙상블 AI는 개별 모델에 비해 더 정확하고 강력한 결과를 제공할 수 있다. 핫 칩 2024 컨퍼런스에서 선공개된 IBM 스파이어 엑셀러레이터 칩은 별도 옵션으로 제공될 예정이다. 각 엑셀러레이터 칩은 75와트 PCIe 어댑터를 통해 부착된다. 스파이어 엑셀러레이터는 다른 PCIe 카드처럼 고객의 요구에 따라 확장이 가능하다.
티나 타르퀴니오(Tina Tarquinio) IBM Z 및 리눅스원(LinuxONE) 제품 관리 담당 부사장은 “IBM은 강력한 로드맵을 통해 증가하는 AI 수요를 비롯한 기술 트렌드에서 앞서 나갈 수 있는 기반을 마련했다"라며, “텔럼 II 프로세서와 스파이어 엑셀러레이터는 고성능, 보안, 전력 효율성이 뛰어난 엔터프라이즈 컴퓨팅 솔루션을 제공하도록 설계되었다. 수년간 개발해온 이러한 기술은 차세대 IBM Z 플랫폼에 도입되어 고객이 LLM과 생성형 AI를 대규모로 활용할 수 있게 할 것이다”라고 말했다.
텔럼 II 프로세서와 IBM 스파이어 엑셀러레이터는 모두 IBM의 오랜 제조 파트너인 삼성 파운드리에서 높은 성능과 전력 효율성을 제공하는 5nm 공정 노드를 기반으로 제작될 것이다. 이 두 제품은 함께 작동해 비즈니스 가치를 실현하고 새로운 경쟁 우위를 창출하도록 설계된 다양한 AI 기반 활용 사례를 지원할 것이다. 앙상블 방식의 AI를 통해 고객은 더 빠르고 정확한 예측 결과를 얻을 수 있다. 또한, 오늘 발표된 특징이 결합된 처리 능력은 생성형 AI 활용 사례를 위한 발판을 마련할 것이다. 몇 가지 예는 다음과 같다:
· 보험금 청구 사기 탐지: 향상된 성능과 정확성을 위해 LLM과 기존 신경망을 결합한 AI 앙상블을 통해 주택 보험 청구의 사기 탐지 능력을 강화한다.
· 첨단 자금 세탁 방지: 의심스러운 금융 활동을 탐지해 규제 요건 준수를 지원하고 금융 범죄 리스크를 완화한다.
· AI 어시스턴트: 애플리케이션 수명 주기 가속화, 전문 지식 전달, 코드 설명 및 변환 등을 지원한다.
텔럼 II 프로세서는 차세대 IBM Z 및 IBM 리눅스원 플랫폼의 중앙처리장치가 될 것이며, 향후 IBM Z 및 리눅스원 고객에게 제공될 예정이다. 현재 기술 프리뷰 단계의 IBM 스파이어 엑셀러레이터도 함께 제공될 것으로 예상된다.
[참고] 사양 및 성능 지표
텔럼 II 프로세서: 5.5GHz로 실행되는 8개의 고성능 코어와 코어당 36MB L2 캐시, 40% 증가한 온칩 캐시 용량(총 360MB)이 특징이다. 프로세서 드로어(drawer) 당 제공되는 2.88GB의 가상 레벨 4 캐시는 이전 세대보다 40% 증가된 용량을 제공한다. AI 통합 가속기는 금융 거래 시 사기 탐지를 강화하는 등 처리 지연(Latency) 시간이 짧고 처리량이 높은 거래 내 AI 추론을 가능하게 하며, 이전 세대보다 칩당 컴퓨팅 용량이 4배 증가했다. 새로운 IO 가속 장치인 DPU는 텔럼 II 칩에 통합되어 있다. 이는 50% 향상된 IO 집적도로 데이터 처리를 개선하도록 설계되었다. 이러한 발전으로 IBM Z의 전반적인 효율성과 확장성이 향상되어 대규모 AI 워크로드 및 데이터 집약적인 애플리케이션을 처리하는 데 적합하다.
스파이어 엑셀러레이터: 복잡한 AI 모델과 생성형 AI 사용 사례를 위한 확장 가능한 기능을 제공하는 특수 목적의 엔터프라이즈급 가속기이다. 일반 IO 드로어의 8개 카드에서 함께 작동하도록 구축된 최대 1TB의 메모리가 특징이며, 카드당 75W 이하로 소비하도록 설계되어 메인프레임 전반의 AI 모델 워크로드를 지원한다. 각 칩은 지연 시간이 짧고 대규모 처리가 필요한 AI 애플리케이션을 위해 int4, int8, fp8 및 fp16 데이터 유형을 지원하는 32개의 컴퓨팅 코어를 가질 예정이다.
IBM에 대하여
IBM은 선도적인 글로벌 하이브리드 클라우드 및 AI, 컨설팅 서비스 공급업체로서 175개 이상의 국가에서 고객이 데이터를 활용하여 통찰력을 얻고, 비즈니스 프로세스를 간소화하고, 비용을 절감하고, 업계에서 경쟁력을 확보할 수 있도록 지원하고 있다. 금융 서비스, 통신 및 의료와 같은 중요한 인프라 영역에 있는 약 3,000개의 정부 및 기업체가 IBM의 하이브리드 클라우드 플랫폼과 레드햇 오픈시프트를 사용하여 신속하고 효율적이며 안전하게 디지털 전환을 진행하고 있다. IBM의 혁신적인 AI, 양자 컴퓨팅, 산업별 클라우드 솔루션 및 비즈니스 서비스는 고객에게 개방적이고 유연한 옵션을 제공한다. 이 모든 것은 신뢰, 투명성, 책임, 포괄성 및 서비스에 대한 IBM의 오랜 헌신에 의해 뒷받침 되고 있다. 더 자세한 내용은 www.ibm.com에서 제공된다.