loader
banner

الذَّكَاءُ الاصطِناعي وتحدي اللغة العربية

ربط التكنولوجيا بالدقة اللغوية

إن الحل الافضل أن يتم الجمع مابين NLP (معالجة اللغات الطبيعية) و LLMs (النماذج اللغوية الكبيرة) لأن ذلك يتيح استغلال الأفضل المتاح في العالمين .
تتَضمنُ معالجةُ اللغةِ الطبيعيةِ (NLP) للنصِ العربي عمليات عديدة مثل الترميز، والتأصيل، والترجمة، ووضع علامات تدليلٍ على أجزاءٍ من الكلام، والتعرف على الكيانات المسماة، وأمور أخرى. وهذه المهام صعبة جداً بسبب البنية الصرفية المعقدة للغة العربية، والتي تتضمن نظامًا غنياً من البادئات واللاحقات والملحقات التي يمكنها تغيير شكل الكلمات ومعانيها.
علاوة على ذلك، فإن العربيةَ لغةٌ شديدةِ التصريف، مما يعني أن الكلمة نفسها يمكن أن يكونَ لها أشكالاً مختلفةً اعتماداً على دورها النحوي في الجملة. و قد بات من الواضح جلياً أن النماذج اللغوية الكبيرة لم تتصرف في حلول مناسبة لمعالجة خصوصية اللغة العربية. و التي يمكن حصرها فيما يلي: 
  • الاختلافات الإملائية : تتم كتابة النص العربي بدون مسافات بين الكلمات، وهناك العديد من التقاليد الإملائية المختلفة لتمثيل حروف العلة القصيرة، وحروف العلة الطويلة، و أصوات حروف العلة الأخرى. وهذا يمكن أن يجعل من الصعب ترميز النص العربي بدقة.
  • التعقيد الصرفي: تتميز اللغة العربية بصيغة صرفية وتراصية عالية، مما يعني أن الكلمات يمكن أن تحتوي على العديد من التصريفات والملحقات. وهذا يمكن أن يجعل من الصعب تحديد الشكل الأساسي للكلمة وعلامة جزء الكلام الخاصة بها بدقة.
  • الغموض النحوي: تحتوي اللغة العربية على نظام غني من اللواحق اللفظية والاسمية، مما قد يجعل من الصعب تحديد البنية النحوية للجملة. على سبيل المثال، يمكن لفعل واحد أن يُظهر حالات مزاجية وأصوات وأزمنة أفعال مختلفة.
  • اختلافات اللهجات: يتحدث اللغة العربية أكثر من 400 مليون شخص عبر منطقة جغرافية واسعة، ويتم التحدث بالعديد من اللهجات العربية المختلفة في جميع أنحاء الشرق الأوسط وشمال أفريقيا. يمكن أن تكون مفردات هذه اللهجات وقواعدها ونطقها مختلفة تمامًا، مما يجعل من الصعب بناء أنظمة البرمجة اللغوية العصبية التي تعمل بشكل جيد معها.
  • الموارد المحدودة: يتوفر عدد قليل من مجموعات اللغة العربية المشروحة وأدوات البرمجة اللغوية العصبية مقارنة باللغة الإنجليزية أو الفرنسية. وهذا يمكن أن يجعل من الصعب تطوير أنظمة البرمجة اللغوية العصبية عالية الجودة للغة العربية. وتحتاجالبيانات العربية لحصر على الشبكة وفي مؤسسات و مكتبات الدول العربية . فمصر على سبيل المثال تمتلك العديد من المكتبات الرقمية أو المعدة للرقمنة عما قريب. و كذلك في المملكة السعودية و غيرها من الدول العربية.
و بمراقبةٍ سريعةٍ للشركات و المؤسسات الحكومية نجد أن الكثيرَ من العاملين خاصة الماهرة قد بدأت بإستخدام تلك النماذج السحابية من باب التجريب و من من باب الإنتاجية. و هذا قد يؤدي لنتائج غير محمودة أو خطير للمؤسسة أو الشركة. لذلك والاعتمادية المؤسسية على النماذج السحابية المتوفرة وحتى مفتوحة المصدر يجب دعمها بدمج قواميس لغوية محدثةً و مرمزةً و مجربةً على العديدِ من الحالات حتى يمكن إستخدامها بشكل مقبول و مؤمن. 
لكن الأكيد أنه من خلال إدراك هذه العيوب واتخاذ الخطوات الصحيحة لمعالجتها، يمكننا ضمان استخدام الذكاء الاصطناعي بطريقة مسؤولة وحساسة سوقياً وأمنياً وثقافيًا.
وأما على الصعيدِ الحضاري تفتقدُ النماذجُ اللغويةُ في العمومِ عمق اللغةِ والذي لا يمكن إدراكه إلا بعد تدريب أشق وأصعب على تاريخ المفردات والجذور وأصول المستعربات. وكذلك الدلالات الصوتية في القراءات العربية المختلفة.  وهنا يجب أن ننتبه للأهمية الكوكبية للغة العربية لما تملكه من نصوص تهم البشرية جمعاء. لأن اللغة العربيةَ هي الأقرب للفطرة البشرية وما يتبع ذلك من منطق عقلاني عادل وحكمة فصلٍ هامٍ من تاريخِ الإنسانِ على هذا الكوكبِ الفريد.
هناك بعض العيوب في استنتاج النصوص والصور الجديدة دون النظر إلى اللغة والثقافة:
  1. التحيز والقوالب النمطية.
  2. سوء فهم السياق.
وللتخفيف من هذه السلبيات يجب توفير بيانات التدريب المتنوعة فكلما زاد تنوع البيانات المستخدمة لتدريب نموذج الذكاء الاصطناعي، قل احتمال أن يكون متحيزاً أو غير حساسٍ ثقافيًا.
يتطلب ذلك الإشراف البشري لهذه العمليات لكي يساعد في اكتشاف الأخطاء التي يرتكبها الذكاء الاصطناعي وتصحيحها، خاصة عندما يتعلق الأمر بالفروق الثقافية الدقيقة. 
ومازال العالم يبحث كيفية تدريب نماذج الذكاء الاصطناعي لتكون أكثر وعياً بالاختلافات الثقافية. وربما يكون هذا السبب الحقيقي وراء تقديم الكثير من هذه الخدمات السحابية بلا مقابل لكي يتم الاستفادة من بيانات المستخدمين العرب المرفوعة و ربطها بموقعهم الجغرافي و أنماطهم الحياتية.
ولكن الأكيد أنه من خلال إدراك هذه العيوب واتخاذ الخطوات الصحيحة لمعالجتها، يمكننا ضمان استخدام الذكاء الاصطناعي بطريقة مسؤولة وحساسة سوقياً وأمنياً وثقافيًا.
Company

MediaSci Owner Of
Big Brother Analytics

Author

Eng. Mostafa Abou-Gamrah

CEO- MediaSci

Leave a Reply

Your email address will not be published. Required fields are marked *

LinkedIn
Share
Instagram