كامبريدج ، ماساتشوستس (AP) – كان كل شيء على الإطلاق على الإنترنت هو مجرد بداية التدريس الذكاء الاصطناعي عن الإنسانية. تقوم شركات التكنولوجيا الآن بالاستفادة من مستودع المعرفة الأقدم: مداخن المكتبة.
ما يقرب من مليون كتاب تم نشره في وقت مبكر من القرن الخامس عشر – وفي 254 لغة – هي جزء من مجموعة جامعة هارفارد التي يتم إصدارها إلى باحثو الذكاء الاصطناعي يوم الخميس. كما ستأتي قريبًا من الصحف القديمة والوثائق الحكومية التي تحتفظ بها مكتبة بوسطن العامة.
قد يكون تكسير الفتحة على المقطورات التي تعود إلى قرون مكافأة بيانات لشركات التكنولوجيا التي تقاتل الدعاوى القضائية من الروائيين الأحياءو الفنانين البصريينوغيرهم تم تجفيف أعمالهم الإبداعية دون موافقتهم على تدريب AI chatbots.
وقال بيرتون ديفيس ، نائب المستشار العام في Microsoft: “إنه قرار حكيم للبدء ببيانات المجال العام لأن هذا أقل إثارة للجدل في الوقت الحالي من المحتوى الذي لا يزال تحت حقوق الطبع والنشر”.
وقال ديفيس إن المكتبات تحتوي أيضًا على “كميات كبيرة من البيانات الثقافية والتاريخية واللغوية المثيرة للاهتمام” المفقودة من العقود القليلة الماضية من الإنترنت التعليق أن AI chatbots لقد تعلمت في الغالب.
بدعم من “الهدايا غير المقيدة” من Microsoft و Chatgpt Maker Openai ، تعمل مبادرة البيانات المؤسسية التي تتخذ من هارفارد مقراً لها مع المكتبات في جميع أنحاء العالم حول كيفية جعل مجموعاتها التاريخية جاهزة للنيابة بطريقة تفيد أيضًا المكتبات والمجتمعات التي تخدمها.
وقالت أريستانا سكورتاس ، التي تدير الأبحاث في مختبر الابتكار في كلية الحقوق بجامعة هارفارد: “نحاول نقل بعض القوة من هذه اللحظة الحالية لمنظمة العفو الدولية إلى هذه المؤسسات”. “لقد كان أمناء المكتبات دائمًا محوقي البيانات وشرائين المعلومات.”
تحتوي مجموعة البيانات المؤسسية 1.0 التي تم إصدارها حديثًا على هارفارد ، على أكثر من 394 مليون صفحة ممسوحة ضوئيًا من الورق. أحد الأعمال السابقة هو من 1400s – رسام كوري الأفكار المكتوبة بخط اليد حول زراعة الزهور والأشجار. أكبر تركيز للأعمال هو من القرن التاسع عشر ، على مواضيع مثل الأدب والفلسفة والقانون والزراعة ، وكلها تم الحفاظ عليها بدقة وتنظيمها من قبل أجيال من أمناء المكتبات.
يعد بأن يكون بمثابة نعمة لمطوري الذكاء الاصطناعى الذين يحاولون تحسين دقة وموثوقية أنظمتهم.
وقال جريج ليبرت ، المدير التنفيذي لمبادرة البيانات ، جريج ليبرت ، وهو أيضًا كبير الفنيين في مركز هارفارد في بيركمان كلاين للإنترنت والمجتمع: “الكثير من البيانات التي تم استخدامها في تدريب الذكاء الاصطناعي لم تأتي من مصادر أصلية”. وقال إن مجموعة الكتب هذه “على طول الطريق إلى النسخة المادية التي تم مسحها ضوئيًا من قبل المؤسسات التي جمعت هذه العناصر بالفعل”.
قبل أن أشعل Chatgpt جنونًا تجاريًا من الذكاء الاصطناعي ، لم يفكر معظم الباحثين في الذكاء الاصطناعى كثيرًا في أصل مقاطع النص التي سحبوها من ويكيبيديا ، من وسائل التواصل الاجتماعي منتديات مثل رديت وأحيانًا من المستودعات العميقة للكتب المقرصنة. كانوا فقط بحاجة إلى الكثير لما يسميه علماء الكمبيوتر الرموز – وحدات من البيانات ، يمكن لكل منها أن يمثل جزءًا من كلمة.
تضم مجموعة تدريب AI الجديدة في جامعة هارفارد ما يقدر بنحو 242 مليار رمز ، وهو مبلغ يصعب على البشر أن يفهمه ، لكنه لا يزال مجرد انخفاض في ما يتم إطعامه في أنظمة الذكاء الاصطناعى الأكثر تقدماً. على سبيل المثال ، قالت الشركة الأم Facebook Meta إن أحدث إصدار من طراز لغة AI الكبير تم تدريبه على أكثر من 30 تريليون رمز تم سحبه من النص والصور ومقاطع الفيديو.
تقاتل Meta أيضًا دعوى قضائية من الممثل الكوميدي سارة سيلفرمان وغيرها من المؤلفين المنشورة الذين يتهمون بصحبة سرقة كتبهم من “مكتبات الظل” من الأعمال المقرصنة.
الآن ، مع بعض التحفظات ، تقف المكتبات الحقيقية.
Openai ، الذي يقاتل أيضًا سلسلة من دعاوى حقوق الطبع والنشرتبرعت بمبلغ 50 مليون دولار هذا العام لمجموعة من المؤسسات البحثية بما في ذلك مكتبة بودليان التي يبلغ عمرها 400 عام بجامعة أكسفورد ، والتي تقوم برقمنة نصوص نادرة واستخدام الذكاء الاصطناعى للمساعدة في نسخها.
وقال جيسيكا تشابل ، رئيس خدماتها الرقمية وعبر الإنترنت ، عندما تواصلت الشركة لأول مرة مع مكتبة بوسطن العامة ، واحدة من أكبرها في الولايات المتحدة ، أوضحت المكتبة أن أي معلومات ترقفية ستكون للجميع.
وقال تشابل: “كان لدى Openai هذا الاهتمام بكميات هائلة من بيانات التدريب. لدينا مصلحة في كميات هائلة من الأشياء الرقمية. لذلك هذا هو مجرد حالة تتوافق فيها الأمور”.
الرقمنة مكلفة. لقد كان عملًا مضنيًا ، على سبيل المثال ، لمكتبة بوسطن لإجراء مسح وتصنيع عشرات الصحف الفرنسية في نيو إنجلاند والتي كانت تقرأ على نطاق واسع في أواخر القرن التاسع عشر وأوائل القرن العشرين من قبل مجتمعات المهاجرين الكندية من كيبيك. الآن بعد أن تم استخدام هذا النص كبيانات تدريب ، فإنه يساعد على مشاريع تمسيد التي يرغب أمناء المكتبات في القيام بها على أي حال.
وقال تشابل: “لقد كنا واضحين جدًا ،” مهلا ، نحن مكتبة عامة “. “يتم عقد مجموعاتنا للاستخدام العام ، وأي شيء نقوم برقمه كجزء من هذا المشروع سيتم الإعلان عنه.”
تم ترقيم مجموعة هارفارد بالفعل ابتداءً من عام 2006 لعملاق تكنولوجيا آخر ، Google ، في مشروعها المثير للجدل لإنشاء مكتبة عبر الإنترنت قابلة للبحث تضم أكثر من 20 مليون كتاب.
قضى جوجل سنوات التغلب على التحديات القانونية من المؤلفين إلى مكتبة الكتب عبر الإنترنت ، والتي تضمنت العديد من الأعمال الأحدث وحقوق الطبع والنشر. لقد تم تسويتها أخيرًا في عام 2016 عندما سمحت المحكمة العليا في الولايات المتحدة بالوقوف في المحكمة الأدنى التي رفضت مطالبات انتهاك حقوق الطبع والنشر.
الآن ، لأول مرة ، عملت Google مع هارفارد لاسترداد أحجام النطاق العام من كتب Google وتوضيح الطريق لإطلاق سراحهم لمطوري الذكاء الاصطناعي. حماية حقوق الطبع والنشر في الولايات المتحدة عادة ما تستمر لمدة 95 عامًا، وأطول لتسجيلات الصوت.
ما مدى فائدة كل هذا للجيل القادم من أدوات الذكاء الاصطناعى ، حيث يتم مشاركة البيانات يوم الخميس على منصة Hugging Face ، التي تستضيف مجموعات البيانات ونماذج الذكاء الاصطناعى المفتوح المصدر الذي يمكن لأي شخص تنزيله.
مجموعة الكتب أكثر تنوعًا لغويًا من مصادر بيانات الذكاء الاصطناعى النموذجية. أقل من نصف المجلدات باللغة الإنجليزية ، على الرغم من أن اللغات الأوروبية لا تزال تهيمن ، وخاصة الألمانية والفرنسية والإيطالية والإسبانية واللاتينية.
وقال ليبرت إن مجموعة كتب غارقة في القرن التاسع عشر يمكن أن تكون أيضًا “أمرًا بالغ الأهمية” لجهود صناعة التكنولوجيا لبناء وكلاء الذكاء الاصطناعى الذين يمكنهم التخطيط والسبب وكذلك البشر.
قال ليبرت: “في إحدى الجامعات ، لديك الكثير من علم أصول التدريس حول ما يعنيه العقل”. “لديك الكثير من المعلومات العلمية حول كيفية تشغيل العمليات وكيفية تشغيل التحليلات.”
في الوقت نفسه ، هناك أيضًا الكثير من البيانات القديمة ، من النظريات العلمية والطبية التي تم فضحها إلى الروايات العنصرية.
وقالت كريستي موكك ، المنسقة في مختبر الابتكار في مكتبة هارفارد الذي قال إن المبادرة تحاول تقديم إرشادات حول تخفيف مخاطر استخدام البيانات “لمساعدتهم على اتخاذ قرارات مستنيرة واستخدام AI” عندما تتعامل مع مجموعة البيانات الكبيرة هذه ، هناك بعض المشكلات الصعبة حول المحتوى واللغة الضارة “.
———— –
لدى وكالة أسوشيتيد برس و Openai اتفاقية ترخيص وتكنولوجيا يتيح ذلك الوصول إلى Openai إلى جزء من أرشيفات النص AP.