مع التطور السريع لنماذج اللغة الضخمة وتقنيات الذكاء الاصطناعي التوليدية، أصبحت خدمات الاستدلال بالذكاء الاصطناعي النشاط الأساسي للحوسبة السحابية ومراكز البيانات. تتخذ هذه المقالة مشروع ترقية منصة الاستدلال بالذكاء الاصطناعي لإحدى شركات الإنترنت كمثال لتوضيح التطبيق العملي لبطاقة التوسيع LRSV9501-2E PCIe 5.0 Retimer في سيناريوهات توسيع سعة تخزين خوادم الذكاء الاصطناعي، مما يوفر مرجعًا للشركات التي تواجه تحديات مماثلة في البنية التحتية.
تدير إحدى شركات الإنترنت مساعدًا يعمل بالذكاء الاصطناعي ومنصات خدمة عملاء ذكية مخصصة للمستخدمين النهائيين. ومع النمو السريع في عدد المستخدمين، تضاعفت طلبات الاستدلال بالذكاء الاصطناعي على المنصة بشكل كبير، مما زاد من الضغوط على أداء البنية التحتية الأساسية وقدرتها على التوسع.
1. معوقات أداء التخزين
تتطلب خدمات الاستدلال بالذكاء الاصطناعي التحميل السريع لملفات النماذج الضخمة (حيث يمكن أن يصل حجم النموذج الواحد إلى عشرات الجيجابايت) والوصول الفعال إلى قواعد البيانات المتجهة أثناء عملية الاستدلال. كانت الخوادم الأصلية تستخدم محركات أقراص SSD PCIe 4.0 NVMe. وعلى الرغم من أن الأداء كان ممتازًا بالفعل، إلا أنه في سيناريوهات التزامن العالي، أصبح زمن الوصول إلى التخزين يمثل عنق زجاجة في النظام، مما أثر على سرعة استجابة الاستدلال.
2. سعة تخزين غير كافية
تحتاج المنصة إلى نشر عدة إصدارات مختلفة من نماذج الذكاء الاصطناعي لدعم اختبارات A/B والإصدارات التجريبية. وبالاقتران مع قواعد البيانات المتجهة وبيانات السجلات، تتجاوز متطلبات سعة التخزين للجهاز الواحد 10 تيرابايت. وتتميز الخوادم القياسية ذات الحجم 2U بعدد محدود من فتحات محركات الأقراص، ولا يمكنها تلبية احتياجات توسيع السعة.
3. قيود المساحة في الهيكل
تستخدم المؤسسة خوادم قياسية مركبة على حاملات 2U كعقد استدلال للذكاء الاصطناعي، كل منها مزود بأربع وحدات معالجة رسومات (GPU). وتشغل وحدات المعالجة الرسومية ومصادر الطاقة المساحة الداخلية للهيكل بالكامل، مما لا يترك سوى فتحة توسعة واحدة من نوع PCIe. ولا يمكن تطبيق حلول التوسعة التقليدية للتخزين في هذه الحالة.
4. مشكلات سلامة الإشارة
تخطط الشركة لوضع بعض أجهزة التخزين خارجياً وتوصيلها عبر الكابلات للتغلب على قيود المساحة داخل الهيكل. ومع ذلك، تتعرض إشارات PCIe 5.0 لتوهين شديد أثناء الإرسال عالي السرعة، مما يستلزم حلولاً لتحسين الإشارة لضمان استقرار الاتصال.
تصميم الحلول
تم اختيار طراز LRSV9501-2E بناءً على التقييم الفني(انقر للشراء) بطاقة توسعة MCIO مزودة بمُعيد توقيت ثنائي المنفذ من نوع PCIe 5.0 x16 كحل لتوسيع سعة التخزين. وبالاقتران مع لوحات التوصيل الخلفية الخارجية لتوسيع سعة محركات الأقراص الصلبة SSD من نوع NVMe ومحركات الأقراص الصلبة SSD من نوع PCIe 5.0 NVMe، تم إنشاء بنية تخزين عالية الأداء وذات سعة كبيرة.
أبرز ملامح بنية النظام:
تم تثبيت بطاقة LRSV9501-2E في فتحة PCIe 5.0 x16 بالخادم، وتم تهيئتها في وضع تقسيم المسارات 4x4
يتم توصيله بلوحة التوسعة الخارجية لمحركات الأقراص الصلبة SSD من نوع NVMe عبر كبلين من نوع MCIO 8i
لوحة توسعة مزودة بـ 8 محركات أقراص SSD من نوع PCIe 5.0 NVMe (4 محركات أقراص SSD لكل كابل MCIO)
تضمن شريحة إعادة التوقيت سلامة إشارة PCIe 5.0 أثناء الإرسال لمسافات طويلة
باستخدام وضع تقسيم المسارات 4x4، يتم تقسيم 16 مسارًا من PCIe 5.0 إلى أربعة وصلات x4. وترتبط كل وصلة x4 بقرصين SSD من نوع NVMe (عبر التبديل عبر اللوحة الخلفية)، مما يضمن الاستفادة الكاملة من عرض النطاق الترددي لـ PCIe. وتتمثل مزايا هذا التكوين في:
كثافة أجهزة عالية: تدعم بطاقة توسعة واحدة توصيل 8 محركات أقراص SSD من نوع NVMe، مما يحسّن كثافة التخزين بشكل ملحوظ
أداء متوازن: يحصل كل محرك أقراص SSD على نطاق ترددي يبلغ x4 PCIe 5.0 (حوالي 16 جيجابايت/ثانية)، مما يلبي متطلبات الأداء العالي
التوسع المرن: يمكن تعديل عدد الأجهزة المتصلة وفقًا للاحتياجات دون الحاجة إلى استبدال الأجهزة
قم بتنفيذ عملية نشر الأجهزة بالكامل وفقًا للخطوات التالية:
الخطوة 1: قم بإيقاف تشغيل الخادم، وافصل كابلات الطاقة، واتخذ الاحتياطات اللازمة للوقاية من الكهرباء الساكنة
الخطوة 2: افتح الهيكل وحدد موقع فتحة التوسعة PCIe 5.0 x16 المتاحة
الخطوة 3: قم بتركيب بطاقة التوسعة LRSV9501-2E، مع اختيار حوامل 2U أو 3U وفقًا لارتفاع الهيكل
الخطوة 4: قم بتركيب لوحة التوصيل الخلفية التوسعية الخارجية لمحرك الأقراص الصلبة SSD من نوع NVMe في الحامل
الخطوة 5: قم بتوصيل بطاقة التوسعة باللوحة الخلفية الخارجية باستخدام كابلات MCIO 8i
الخطوة 6: تثبيت 8 محركات أقراص SSD من نوع PCIe 5.0 NVMe في اللوحة الخلفية
الخطوة 7: أغلق الهيكل، وقم بتوصيل مصدر الطاقة، وشغّل الجهاز لإجراء الاختبار الذاتي
ادخل إلى واجهة إعدادات BIOS للخادم وقم بضبط وضع تقسيم مسارات فتحة PCIe على 4x4. وبعد حفظ الإعدادات وإعادة تشغيل النظام، يتعرف النظام على 8 محركات أقراص SSD NVMe مستقلة.
استخدم أداة fio لاختبار وحدة التخزين | أداء النظام | فيما يلي النتائج |
القراءة التسلسلية لمحرك واحد | 12.8 جيجابايت في الثانية | تحسن بنحو الضعف |
الكتابة التسلسلية بمحرك واحد | 10.2 جيجابايت في الثانية | تحسن بنحو الضعف |
الكتابة التسلسلية بمحرك واحد | 48 جيجابايت في الثانية | تحسن بنحو 4 أضعاف |
معدل عمليات القراءة العشوائية في الثانية بدقة 4K | 2,400 ألف | تحسن بنحو ثلاثة أضعاف |
تأثيرات التطبيق وفوائده
بعد ترقية سعة التخزين، تحسنت سرعات تحميل ملفات نماذج الذكاء الاصطناعي الكبيرة بشكل ملحوظ. فعلى سبيل المثال، في حالة نموذج لغوي ضخم يحتوي على 70 مليار معلمة، تحسّن وقت التحميل بشكل كبير. وقد أدى ذلك إلى تقصير مدة تبديل النماذج وإعادة تشغيل الخدمات بشكل كبير، مما عزز كفاءة تشغيل المنصة.
تؤثر سرعة الاستعلام عن قاعدة بيانات المتجهات بشكل مباشر على زمن استجابة عمليات الاستدلال بالذكاء الاصطناعي. وقد أدى نظام التخزين المُحدَّث إلى خفض زمن استجابة استرجاع المتجهات من 15 مللي ثانية في المتوسط إلى 5 مللي ثانية، مما أدى إلى تقصير زمن استجابة عمليات الاستدلال من البداية إلى النهاية بنسبة 30٪ تقريبًا، وبالتالي تحسين تجربة المستخدم بشكل ملحوظ.
زادت سعة التخزين في الخادم الفردي بشكل ملحوظ، مما يلبي احتياجات نشر النماذج متعددة الإصدارات وتخزين البيانات الضخمة. كما يتيح تصميم اللوحة الخلفية للتوسعة الخارجية إمكانية التوسعة في المستقبل.
تضمن وظيفة "ريتيمر" (Retimer) في LRSV9501-2E سلامة إشارة PCIe 5.0 عند نقلها عبر كابلات MCIO. وأظهرت مراقبة جودة الإشارة بعد التنفيذ انخفاضًا في معدلات أخطاء البتات، مما يلبي معايير الموثوقية على مستوى المؤسسات.
ملخص وتبادل الخبرات
تم التحقق بنجاح من القيمة العملية لـ LRSV9501-2E في سيناريوهات توسيع سعة تخزين خوادم الذكاء الاصطناعي. وفيما يلي ملخص لأهم الدروس المستفادة:
1. الاستفادة الكاملة من عرض النطاق الترددي لـ PCIe 5.0
يوفر تحسين عرض النطاق الترددي في PCIe 5.0 إمكانيات جديدة لتوسيع سعة التخزين. ومن خلال تكوين مناسب لتقسيم المسارات، يمكن لبطاقة توسعة واحدة توصيل عدة محركات أقراص SSD عالية الأداء، مما يحقق توسعًا خطيًا في أداء التخزين.
2. جهاز إعادة التوقيت يحل مشكلات سلامة الإشارة
يتمثل التحدي الأكبر في توسيع سعة التخزين الخارجية في الحفاظ على سلامة الإشارة. تعمل شريحة إعادة التوقيت Broadcom BCM85657 المدمجة في LRSV9501-2E على حل مشكلات توهين إشارة PCIe 5.0 بشكل فعال، مما يتيح إجراء التوصيلات الخارجية.
3. سهولة استخدام واجهة MCIO
يتغلب حل توصيل الكابلات MCIO على قيود المساحة داخل الهيكل، بحيث لم يعد توسيع سعة التخزين مقيدًا بمساحة الخادم الداخلية.
4. تجربة النشر بنظام «التوصيل والتشغيل»
باعتباره جهازًا شفافًا من حيث البروتوكولات، لا يتطلب LRSV9501-2E أي برامج تشغيل مخصصة، كما أنه يعمل بنظام «التوصيل والتشغيل» على أنظمة CentOS وUbuntu على حد سواء، مما يقلل بشكل كبير من مدة عمليات النشر.
بناءً على تجربة تنفيذ هذا المشروع، فإن LRSV9501-2E ويمكن أيضًا تطبيقها على الحالات المماثلة التالية:
منصات تدريب النماذج الكبيرة: توفر قدرات تحميل البيانات بسرعة عالية لعقد تدريب وحدات معالجة الرسومات (GPU)، مما يقلل من وقت المعالجة المسبقة للبيانات
أنظمة التوصيات في الوقت الفعلي: تدعم استرجاع متجهات السمات في ظل مستويات عالية من التزامن، مما يحسّن سرعة استجابة خدمة التوصيات
خدمات معالجة الفيديو: توفير إمكانيات وصول إلى التخزين ذات سعة نقل عالية من أجل تحويل ترميز الفيديو وتحليله
مجموعات الحوسبة العلمية: تدعم القراءة والكتابة بسرعة عالية لمجموعات البيانات الضخمة، مما يسرع مهام المحاكاة والنمذجة
توسيع الذاكرة عبر CXL: قم بتوصيل وحدات توسيع الذاكرة عبر CXL لتوفير مجموعات ذاكرة ذات سعة كبيرة للتطبيقات التي تتطلب استخدامًا مكثفًا للذاكرة
توفر بطاقة التوسعة LRSV9501-2E المزودة بتقنية إعادة التوقيت PCIe 5.0 حلاً عالي الأداء وموثوقاً للغاية لتوسيع سعة التخزين لمنصة الاستدلال بالذكاء الاصطناعي الخاصة بالمؤسسات العاملة في مجال الإنترنت. من خلال النطاق الترددي عالي السرعة لـ PCIe 5.0 وقدرات تحسين الإشارة التي يوفرها جهاز إعادة التوقيت، حققت المؤسسة تحسينات في أداء التخزين بمقدار عدة أضعاف مع تجاوز قيود مساحة الهيكل. بالنسبة للمؤسسات التي تعمل على إنشاء أو ترقية البنية التحتية للذكاء الاصطناعي، توفر LRSV9501-2E حلاً لتوسيع الإشارة عالي السرعة يوازن بين الأداء وقابلية التوسع والموثوقية. في ظل التطور السريع لتقنيات PCIe 5.0 و CXL اليوم، فإن اختيار حل توسعة مزود بقدرات تجديد الإشارة سيوفر مساحة كافية لترقيات التكنولوجيا المستقبلية.