انویدیا بالاخره رسما از معماری پردازندههای گرافیکی نسل جدید خود تحت عنوان بلکوِل رونمایی کرد. انویدیا مدتی است که هر دو خانواده گیمینگ و دیتاسنتر تراشههای گرافیکی خود را با یک معماری مشترک روانه بازار میکند و در اینجا تراشههای دیتاسنتر تیم سبز مدنظر است. پردازندههای گرافیکی B200 اولین عضو از خانواده Blackwell خواهند بود که برای عرضه در سال ۲۰۲۴ برنامهریزی شده است.
پردازندههای گرافیکی سری بلکول بهطور کلی تا ۵ برابر عملکرد AI یا پردازش هوش مصنوعی قویتری نسبتبه سری Hopper H100 خواهند داشت. انویدیا با معماری بلکول هستههای AI و تنسور تراشههای گرافیکی خود، برای اولینبار از سبک طراحی چیپلت یا MCM در تولید GPU استفاده میکند که دو GPU را در یک قالب قرار میدهد.
انویدیا در طراحی این تراشهها از ۱۰۴ میلیارد ترانزیستور در هریک از قسمتهای GPU استفاده میکند که در مجموع ۲۰۸ میلیارد ترانزیستور مبتنیبر فرآیند تولید تراشه ۴ نانومتری TSMC را تشکیل میدهند. جالب اینکه هم Synopsys و هم TSMC از فناوری CuLitho انویدیا برای تولید تراشههای بلکول استفاده کردند که باعث میشود ساخت هر تراشه، تولید شتابدهندههای هوش مصنوعی نسل بعد را تسریع کند.
پردازندههای گرافیکی B100 به یک رابط گذرگاه حافظه با پهنای باند ۱۰ ترابایت بر ثانیه مجهز میشوند که تبادل اطلاعات تراشه به تراشه را بسیار سریع خواهد کرد. درواقع این دو تراشه بهعنوان یک پردازندهی واحد در یک قالب عمل میکنند که از یک کش GPU منسجم برخوردار هستند.
پردازندههای انویدیا بلکول در مقایسه با سری Hopper از ۱۲۸ میلیون ترانزیستور بیشتر برخوردار هستند که در مجموع ۲۰ پتافلاپس توان پردازش گرافیکی را برای هر تراشه و ارتقاء ۵ برابری عملکرد هوش مصنوعی را با خود بههمراه دارد. این GPU با ۸ پشته حافظه HBM3e همراه شده است که مجهز به سریعترین فناوری حافظه جهان است و پهنای باند حافظه ۸ ترابایت بر ثانیه را در یک رابط گذرگاه حافظه ۸۱۹۲ بیت ارائه میکند. همچنین در این تراشهی قدرتمند از ۱۹۲ گیگابایت حافظه HBM3e استفاده شده است. در ادامه خلاصهای از مشخصات این GPU در مقایسه با Hopper را مشاهده میکنید:
- ۲۰ پتافلاپس توان پردازش گرافیکی FP8 (معادل ۲.۵ برابر سری Hopper)
- ۲۰ پتافلاپس توان پردازش گرافیکی FP6 (معادل ۲.۵ برابر سری Hopper)
- ۴۰ پتافلاپس توان پردازش گرافیکی FP4 (معادل ۵ برابر سری Hopper)
- پارامترهای 740B (معادل ۶ برابر سری Hopper)
- نرخ پارامتر بر ثانیه 34T (معادل ۵ برابر سری Hopper)
- پهنای باند ۷.۲ ترابایت بر ثانیه NVLINK (معادل ۴ برابر سری Hopper)
انویدیا تراشههای بلکول را بهعنوان یک پلتفرم کامل تحت عنوان ابرتراشهی GB200 به فروش میرساند که شامل دو سری از این پردازندهها، متشکل از ۴ قالب پردازشی است و یک CPU گریس (Grace) با ۷۲ هسته CPU با معماری ARM Neoverse V2 در آن گنجانده شده است. این پردازندهها ازطریق پروتکل ۹۰۰ گیگابایت بر ثانیه NVLINK به یکدیگر متصل هستند. این مجموعه برای تعلیم مدلهای زبانی بزرگ، ۳۰ برابر قویتر از نسل قبل است. به ادعای انویدیا، تراشهی جدید باعث کاهش ۲۵ برابری هزینه و مصرف انرژی میشود.
اما اولین محصول این سری، B200 نام دارد که به اشکال مختلفی در پلتفرمهای SXM ،PCIe AICها و Superchip مورد استفاده قرار خواهد گرفت. طراحی MCM یا Multi-Chip-Module مدتها است که توسط انویدیا در نظر گرفته شده است و بالاخره در محصولات این شرکت مورد استفاده قرار گرفت. B200 تراشههای فوقالعاده قدرتمندی است که متشکل از ۱۶۰ مولتی پروسسور جریانی برای ۲۰۴۸۰ هستهی پردازشی آن است.
این GPU از آخرین نسل تکنولوژی ارتباط داخلی NVLINK استفاده میکند و TDP آن ۷۰۰ وات اعلام شده است که از این حیث با H100 و H200 برابری میکند. تا قبل از رونمایی پردازندهی جدید انویدیا، تعلیم یک مدل هوش مصنوعی ۱٫۸ تریلیون پارامتری نیازمند استفاده از ۸۰۰۰ تراشهی Hopper و ۱۵ مگاوات برق بود، اما اکنون با ۲۰۰۰ پردازندهی Blackwell و مصرف تنها چهار مگاوات برق میتوان چنین کاری انجام داد.
انویدیا در حال بستهبندی این تراشهها در پکیجهای بزرگی مثل GB200 NVL72 است که ۳۶ پردازندهی مرکزی و ۷۲ پردازندهی گرافیکی را وارد یک رکِ مبتنیبر خنککنندهی مایع میکند و قدرتش برای تعلیم هوش مصنوعی به ۷۲۰ پتافلاپس میرسد. این رک انویدیا تقریباً ۳.۲ کیلومتر کابل در خود جای داده است. تیم سبز همچنین دستگاه DGX GB200 را عرضه میکند که در مجموع ۲۸۸ پردازندهی مرکزی، ۵۷۶ پردازندهی گرافیکی، ۲۴۰ ترابایت رم و ۱۱.۵ اگزافلاپس قدرت FP4 دارد.
معماری بلکول که فعلاً برای تراشههای هوش مصنوعی معرفی شده است، احتمالاً در آیندهای نهچندان دور وارد کارتهای گرافیک مصرفی سری RTX 5000 هم میشود.
منبع: zoomg-367472