تحويل النصوص ونوافذ السياق: فهم حدود الطول في الذكاء الاصطناعي

التجزئة ونوافذ السياق: فهم حدود الطول في الذكاء الاصطناعي
في مجال الذكاء الاصطناعي، وخاصة في النماذج اللغوية الكبيرة (LLMs) والذكاء الاصطناعي التوليدي، تلعب مفاهيم التجزئة ونوافذ السياق دورًا محوريًا في تشكيل كيفية عمل هذه الأنظمة. يتناول هذا المقال تفاصيل هذه المفاهيم، ولماذا توجد، وتأثيرها على تطبيقات الذكاء الاصطناعي.
ما هي التجزئة؟
التجزئة هي عملية تحويل النص إلى قطع أصغر، تُعرف أيضًا بـ tokens. يمكن أن تكون هذه tokens كلمات، أو أجزاء كلمات، أو حتى أحرف، حسب النهج المتبع. الهدف الرئيسي من التجزئة هو تحويل اللغة البشرية إلى تنسيق يمكن للآلات فهمه ومعالجته بفعالية.
على سبيل المثال، يمكن أن تُجزأ الجملة "الذكاء الاصطناعي يُحول العالم" إلى كلمات فردية مثل ["الذكاء", "الاصطناعي", "يحول", "العالم"]. بدلاً من ذلك، باستخدام نهج تجزئة الأجزاء الفرعية، يمكن أن تُقسَّم إلى مكونات أصغر، مما يسمح للنموذج بالتعامل بشكل أفضل مع الكلمات غير المعروفة. هذه المرونة حاسمة بالنسبة لـ LLMs، حيث يتعين عليها فهم وتوليد النص عبر مجالات وسياقات متنوعة.
أهمية نوافذ السياق
تشير نافذة السياق إلى مدى tokens التي يمكن للنموذج اعتبارها في آن واحد عند توليد النص أو إجراء التنبؤات. هذه النافذة ضرورية لأنها تحدد كم من المعلومات يمكن للنموذج استخدامها لفهم الحالة الحالية للمحادثة أو النص. عادةً ما يتم تعريف نافذة السياق بعدد ثابت من tokens، والذي يختلف عبر النماذج المختلفة.
في الممارسة العملية، يمكن أن يستخدم النموذج الذي لديه نافذة سياق من 512 tokens فقط أحدث 512 token من المدخلات لتوليد النص التالي. هذه القيود مهمة للحفاظ على الأداء، حيث أن معالجة كميات كبيرة جدًا من البيانات مرة واحدة يمكن أن تؤدي إلى عدم الكفاءة وتدمير جودة المخرجات.

