عنق الزجاجة بمليار دولار في مجال الذكاء الاصطناعي: البيانات عالية الجودة، وليس النموذج | رأي
قد تكون AI هي الصناعة التالية التي تبلغ قيمتها تريليون دولار، لكنها تقترب بهدوء من عنق زجاجة هائل. بينما يتسابق الجميع لبناء نماذج أكبر وأكثر قوة، هناك مشكلة تلوح في الأفق لم يتم التعامل معها بشكل كبير: قد ننفد من بيانات التدريب القابلة للاستخدام في غضون بضع سنوات فقط.
- AI تقترب من نفاد الوقود: مجموعات بيانات التدريب تنمو بمعدل 3.7 مرة سنويًا، وقد نستنفد إمدادات العالم من البيانات العامة عالية الجودة بين عامي 2026 و2032.
- سوق تصنيف البيانات ينفجر من 3.7 مليار دولار (2024) إلى 17.1 مليار دولار (2030)، بينما يتقلص الوصول إلى بيانات البشر الحقيقية خلف الجدران التنظيمية والحدائق المسورة.
- البيانات الاصطناعية ليست كافية: حلقات التغذية الراجعة وغياب التفاصيل الواقعية تجعلها بديلاً محفوفًا بالمخاطر عن المدخلات البشرية الفوضوية.
- السلطة تنتقل إلى حاملي البيانات: مع تحول النماذج إلى سلعة، سيصبح الفارق الحقيقي هو من يملك ويسيطر على مجموعات البيانات الفريدة وعالية الجودة.
وفقًا لـ EPOCH AI، فإن حجم مجموعات بيانات التدريب للنماذج اللغوية الكبيرة ينمو بمعدل يقارب 3.7 مرة سنويًا منذ عام 2010. بهذا المعدل، قد نستنفد إمدادات العالم من بيانات التدريب العامة عالية الجودة في مكان ما بين عامي 2026 و2032.
حتى قبل أن نصل إلى هذا الحاجز، فإن تكلفة الحصول على البيانات المصنفة وتنظيمها ترتفع بشكل كبير بالفعل. تم تقييم سوق جمع وتصنيف البيانات بـ 3.77 مليار دولار في عام 2024 ومن المتوقع أن يرتفع إلى 17.10 مليار دولار بحلول عام 2030.
يشير هذا النوع من النمو المتفجر إلى فرصة واضحة، ولكن أيضًا إلى نقطة اختناق واضحة. نماذج AI جيدة فقط بقدر جودة البيانات التي تم تدريبها عليها. بدون خط إنتاج قابل للتوسع من مجموعات بيانات جديدة ومتنوعة وغير متحيزة، ستصل أداء هذه النماذج إلى مرحلة التشبع، وستبدأ فائدتها في التدهور.
لذا فإن السؤال الحقيقي ليس من سيبني نموذج AI العظيم التالي. بل من يملك البيانات ومن أين ستأتي؟
مشكلة البيانات في AI أكبر مما تبدو عليه
على مدار العقد الماضي، اعتمد الابتكار في AI بشكل كبير على مجموعات البيانات المتاحة للجمهور: Wikipedia، Common Crawl، Reddit، مستودعات الشيفرة مفتوحة المصدر، وغيرها. لكن هذا المصدر يجف بسرعة. مع تشديد الشركات على الوصول إلى بياناتها وتراكم قضايا حقوق النشر، تُجبر شركات AI على إعادة التفكير في نهجها. كما أن الحكومات تفرض لوائح للحد من جمع البيانات، ويتغير الرأي العام ضد فكرة تدريب نماذج بمليارات الدولارات على محتوى المستخدمين غير المدفوع.
البيانات الاصطناعية هي أحد الحلول المقترحة، لكنها بديل محفوف بالمخاطر. النماذج التي يتم تدريبها على بيانات تم إنشاؤها بواسطة نماذج أخرى يمكن أن تؤدي إلى حلقات تغذية راجعة، وهلوسات، وتدهور في الأداء مع مرور الوقت. هناك أيضًا مسألة الجودة: غالبًا ما تفتقر البيانات الاصطناعية إلى الفوضى والتفاصيل الدقيقة للمدخلات الواقعية، وهي بالضبط ما تحتاجه أنظمة AI للأداء الجيد في السيناريوهات العملية.
هذا يترك البيانات الواقعية التي ينتجها البشر كمعيار ذهبي، وأصبح الحصول عليها أكثر صعوبة. معظم المنصات الكبرى التي تجمع بيانات البشر، مثل Meta وGoogle وX (المعروفة سابقًا باسم Twitter)، هي حدائق مسورة. الوصول إليها مقيد أو يتم تحقيق الدخل منه أو محظور تمامًا. والأسوأ من ذلك، أن مجموعات بياناتهم غالبًا ما تميل نحو مناطق أو لغات أو فئات سكانية معينة، مما يؤدي إلى نماذج متحيزة تفشل في حالات الاستخدام الواقعية المتنوعة.
باختصار، صناعة AI على وشك الاصطدام بواقع تجاهلته طويلاً: بناء نموذج LLM ضخم هو نصف المعركة فقط. إطعامه هو النصف الآخر.
لماذا هذا الأمر مهم فعلاً
هناك جزآن في سلسلة قيمة AI: إنشاء النماذج واكتساب البيانات. خلال السنوات الخمس الماضية، ذهب تقريبًا كل رأس المال والضجة إلى إنشاء النماذج. ولكن مع دفع حدود حجم النماذج، يتحول الانتباه أخيرًا إلى النصف الآخر من المعادلة.
إذا أصبحت النماذج سلعة، مع بدائل مفتوحة المصدر وإصدارات أصغر وتصاميم فعالة من حيث العتاد، فإن الفارق الحقيقي يصبح البيانات. مجموعات البيانات الفريدة وعالية الجودة ستكون الوقود الذي يحدد أي النماذج يتفوق.
كما أنها تقدم أشكالًا جديدة من خلق القيمة. يصبح مساهمو البيانات أصحاب مصلحة. يحصل المطورون على بيانات أحدث وأكثر ديناميكية. ويمكن للمؤسسات تدريب نماذج تتماشى بشكل أفضل مع جماهيرها المستهدفة.
مستقبل AI ملك لمزودي البيانات
ندخل عصرًا جديدًا من AI، حيث من يسيطر على البيانات يمتلك القوة الحقيقية. مع اشتداد المنافسة لتدريب نماذج أفضل وأكثر ذكاءً، لن يكون أكبر قيد هو الحوسبة. بل سيكون في الحصول على بيانات حقيقية ومفيدة وقانونية للاستخدام.
السؤال الآن ليس ما إذا كانت AI ستتوسع، بل من سيغذي هذا التوسع. لن يكونوا علماء البيانات فقط. بل سيكونون أمناء البيانات، والمجمعين، والمساهمين، والمنصات التي تجمعهم معًا. هذا هو المكان الذي يكمن فيه الحد التالي.
لذا في المرة القادمة التي تسمع فيها عن حدود جديدة في الذكاء الاصطناعي، لا تسأل من بنى النموذج. اسأل من دربه، ومن أين جاءت البيانات. لأنه في النهاية، مستقبل AI لا يتعلق فقط بالهيكلية. بل يتعلق بالمدخلات.
Max Li هو المؤسس والرئيس التنفيذي في OORT، سحابة البيانات لـ AI اللامركزي. الدكتور Li أستاذ ومهندس ذو خبرة ومخترع يحمل أكثر من 200 براءة اختراع. تشمل خبرته العمل على أنظمة 4G LTE و5G مع Qualcomm Research ومساهمات أكاديمية في نظرية المعلومات، وتعلم الآلة، وتكنولوجيا blockchain. وهو مؤلف كتاب بعنوان “Reinforcement Learning for Cyber-physical Systems”، الذي نشرته Taylor & Francis CRC Press.
إخلاء المسؤولية: يعكس محتوى هذه المقالة رأي المؤلف فقط ولا يمثل المنصة بأي صفة. لا يُقصد من هذه المقالة أن تكون بمثابة مرجع لاتخاذ قرارات الاستثمار.
You may also like
تيثر تكشف عن USAT بموجب قانون GENIUS وتعيّن Bo Hines كرئيس تنفيذي
وزارة العدل تصادر 584,000 USDT مرتبطة بمورد طائرات بدون طيار إيراني
تيثر تكشف عن عملة مستقرة USAT للسوق الأمريكية تحت إشراف المسؤول السابق عن العملات الرقمية في البيت الأبيض بو هاينز
أطلقت Tether عملة مستقرة جديدة باسم USAT، متوافقة مع القوانين الأمريكية وتحت قيادة Bo Hines، وتهدف إلى تعزيز مكانة أمريكا في الاقتصاد الرقمي العالمي.
تتطور العملات المستقرة من أدوات تداول إلى ركائز مالية عالمية

Trending news
المزيدأسعار العملات المشفرة
المزيد








