كيفية حماية موقع الويب الخاص بك من تجريف الذكاء الاصطناعي

في الوقت الحالي، قد يكون موقع الويب الخاص بك بمثابة بوفيه مفتوح لكل ما يمكنك تناوله من أدوات استخراج الذكاء الاصطناعي الجائعة والمكلفة بجمع البيانات لتدريب نماذج اللغات الكبيرة مثل ChatGPT. إذا كنت لا تريد أن يصبح المحتوى القيم الخاص بك هو الحل التالي الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي، فأنت بحاجة إلى حماية موقع الويب الخاص بك من هذا التهديد الجديد للملكية الفكرية.

كيفية منع الحذف من الذكاء الاصطناعي

إن حماية موقع الويب الخاص بك من عمليات الاستخلاص باستخدام الذكاء الاصطناعي ليست صعبة كما قد تبدو. في الواقع، فإن العديد من الأساليب المجربة والحقيقية المستخدمة لمكافحة تجريف الويب التقليدي لها نفس القدر من الفعالية ضد نظيراتها التي تعمل بالذكاء الاصطناعي.

1. قم بتكوين ملف robots.txt لحظر روبوتات الذكاء الاصطناعي المحددة

يعد ملف robots.txt هو خط الدفاع الأول لموقعك على الويب ضد برامج الزحف غير المرغوب فيها، بما في ذلك تلك التي تنتمي إلى OpenAI وAnthropic. يتم استخدام هذا الملف لتنفيذ بروتوكول استبعاد الروبوتات وإبلاغ الروبوتات حسنة التصرف عن أجزاء موقعك المسموح لهم بالوصول إليها.

رديت الروبوتات النص — ملف robots.txt الخاص بموقع Reddit

من المفترض أن تكون قادرًا على العثور على ملف robots.txt في الدليل الجذر لموقع الويب. إذا لم يكن هناك، فيمكنك إنشائه باستخدام أي محرر نصوص. لحظر روبوت ذكاء اصطناعي معين، عليك كتابة سطرين فقط:

User-agent: GPTBot
Disallow: /

يحدد السطر الأول الروبوت، ويخبره السطر الثاني بعدم الوصول إلى أي صفحات. في المثال أعلاه، قمنا بحظر زاحف OpenAI. فيما يلي أسماء بعض روبوتات الذكاء الاصطناعي الأخرى التي يجب أن تفكر في حظرها: Google-Extending، وClaude-Web، وFacebookBot، وanthropic-ai.

2. تنفيذ تحديد المعدل وحظر IP

يعمل تحديد المعدل وحظر IP من خلال مراقبة تدفق حركة المرور إلى موقع الويب الخاص بك والتحكم فيه:

يحدد تحديد المعدل حدًا أقصى لعدد الطلبات التي يمكن للمستخدم (أو الروبوت) تقديمها خلال إطار زمني محدد. إذا تجاوز الزائر هذا الحد، فسيتم حظره مؤقتًا أو يتم إبطاء طلباته.
من ناحية أخرى، يسمح لك حظر IP بحظر عناوين IP أو نطاقات محددة حددتها كمصادر لنشاط التجريد.

إحدى أسهل الطرق لتنفيذ هذه التقنيات هي استخدام Cloudflare، وهي شبكة توصيل محتوى شائعة (CDN) وخدمة أمان.

يقع Cloudflare بين الخادم الخاص بك والإنترنت بشكل عام، حيث يعمل كدرع وقائي لموقع الويب الخاص بك. بمجرد وضع موقع الويب الخاص بك خلف Cloudflare، يمكنك تكوين قواعد تحديد المعدل وإدارة عمليات حظر IP من لوحة معلومات سهلة الاستخدام.

3. استخدم اختبار CAPTCHA وطرق التحقق البشرية الأخرى

يعد اختبار CAPTCHA (اختبار تورينج العام الآلي بالكامل للتمييز بين أجهزة الكمبيوتر والبشر) طريقة مجربة وحقيقية لفصل المستخدمين البشريين عن الروبوتات. تقدم هذه التحديات مهامًا يسهل على البشر حلها ولكن يصعب على روبوتات الذكاء الاصطناعي البسيطة حلها، مثل تحديد الكائنات في الصور أو فك رموز النص المشوه.

اختبار الكابتشا — عرض توضيحي لـ reCAPTCHA من Google

واحدة من اختبارات CAPTCHA الأكثر شيوعًا والفعالة في نفس الوقت هي اختبار reCAPTCHA من Google. لاستخدامها، تحتاج إلى زيارة وحدة تحكم مسؤول reCAPTCHA والاشتراك للحصول على زوج مفاتيح API. بعد ذلك، يمكنك استخدام مكون WordPress الإضافي مثل Advanced Google reCAPTCHA أو إنشاء تطبيق مخصص بناءً على الوثائق الرسمية.

4. توظيف تقنيات عرض المحتوى الديناميكي

هناك طريقة ذكية أخرى لحماية موقع الويب الخاص بك من استخلاص الذكاء الاصطناعي وهي استخدام تقنيات عرض المحتوى الديناميكي. الفكرة بسيطة ولكنها فعالة: عندما يزور روبوت الذكاء الاصطناعي موقعك، فإنه يتلقى محتوى لا قيمة له أو لا يتلقى أي شيء على الإطلاق، بينما يرى الزائرون العاديون المحتوى الصحيح والكامل.

مثال على كود مصدر موقع الويب — مثال على الكود المصدري لموقع الويب

وإليك كيف يعمل في الممارسة العملية:

يحدد الخادم الخاص بك الوكيل الذي يصل إلى الموقع، ويميز بين المستخدمين العاديين وروبوتات الذكاء الاصطناعي المحتملة.
وبناءً على هذا التعريف، يقرر الخادم الخاص بك المحتوى الذي سيتم عرضه باستخدام منطق JavaScript.
بالنسبة للزائرين من البشر، يقدم الخادم النسخة الكاملة لموقعك. بالنسبة إلى الروبوتات، فهي تخدم مجموعة مختلفة من المحتوى.

نظرًا لأن أدوات استخراج البيانات التي تعمل بالذكاء الاصطناعي لا تعالج بشكل عام أي كود JavaScript (محتوى HTML الأساسي فقط)، فليس لديهم أي طريقة لإدراك أنهم قد تم خداعهم.

5. قم بإعداد مصادقة المحتوى والوصول عبر بوابات

واحدة من أكثر الطرق المضمونة لحماية المحتوى الخاص بك من كاشطات الذكاء الاصطناعي هي ببساطة وضعها خلف بوابة رقمية. ففي نهاية المطاف، لا تستطيع هذه الروبوتات سوى جمع ما هو متاح للعامة.

إن أبسط أشكال هذه الحماية هو مطالبة المستخدمين بتسجيل الدخول للوصول إلى أجزاء معينة من موقع الويب الخاص بك. وهذا وحده يمكن أن يردع الروبوتات الكاشطة للذكاء الاصطناعي، لأنها لا تملك عادةً القدرة على إنشاء حسابات أو مصادقة نفسها.

موقع البرنامج المساعد Memberpress — البرنامج المساعد للعضو الصحافة

بالنسبة لأولئك الذين يتطلعون إلى اتخاذ خطوة إلى الأمام، فإن وضع بعض أو كل المحتوى الخاص بك خلف نظام حظر الاشتراك غير المدفوع يمكن أن يوفر حماية أقوى. على سبيل المثال، يمكن لمستخدمي WordPress تنفيذ ذلك بسهولة باستخدام المكونات الإضافية مثل MemberPress.

وبطبيعة الحال، تحتاج إلى تحقيق التوازن بين الحماية وإمكانية الوصول. قد لا يكون جميع الزوار على استعداد لإنشاء حساب فقط للوصول إلى المحتوى الخاص بك، ناهيك عن الدفع مقابل ذلك. تعتمد جدوى هذا النهج كليًا على طبيعة المحتوى الخاص بك وتوقعات جمهورك.

6. وضع علامة مائية على صورك أو تسميمها

تعد العلامات المائية الرقمية تقنية كلاسيكية لحماية الملكية الفكرية، ولكنها تتطور لمواجهة تحديات عصر الذكاء الاصطناعي. إحدى التقنيات الناشئة في هذا المجال هي تسميم البيانات، والتي تتضمن إجراء تغييرات طفيفة على المحتوى الخاص بك والتي لا يمكن للبشر إدراكها ولكنها يمكن أن تربك أو تعطل أنظمة الذكاء الاصطناعي التي تحاول استخلاصها أو تحليلها.

يمكن لأدوات مثل Glaze تغيير الصور بطرق تجعل من الصعب على نماذج الذكاء الاصطناعي معالجتها بدقة، بينما تظل تبدو طبيعية للمشاهدين من البشر. هناك أيضًا Nightshade، الذي يأخذ تسميم البيانات خطوة أخرى إلى الأمام من خلال التدخل النشط في تدريب الذكاء الاصطناعي.

التسمم بالصور الباذنجانيات — أمثلة على التسمم بالصور الباذنجانية

من خلال إدخال تعديلات صغيرة على الصور، يمكن لـ Nightshare “كسر” الافتراضات التي تضعها نماذج الذكاء الاصطناعي أثناء التدريب. إذا حاول نظام الذكاء الاصطناعي التعلم من هذه الصور المسمومة، فقد يواجه صعوبة في إنشاء تمثيلات دقيقة.

من الناحية النظرية، إذا تم وضع علامة مائية جيدة على المحتوى الخاص بك أو تم تسميمه، فقد يتم كشطه، ولكن من غير المرجح أن تقوم شركات الذكاء الاصطناعي بإدراجه في بيانات التدريب الخاصة بها. وقد يتجنبون أيضًا الاستخراج من موقعك في المستقبل لمنع تلويث مجموعات البيانات الخاصة بهم.

7. استفد من إشعارات الإزالة بموجب قانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية وقوانين حقوق النشر

في حين أن الأساليب السابقة تركز على منع سرقة الذكاء الاصطناعي باستخدام التدابير الفنية، فمن الأفضل في بعض الأحيان اتباع نهج مختلف من خلال الاستفادة من إشعارات قانون حقوق النشر الرقمية للألفية (DMCA) وقوانين حقوق النشر.

إذا اكتشفت أن المحتوى الخاص بك قد تم نسخه ويتم استخدامه بدون إذن، فيمكنك إصدار إشعار إزالة بموجب قانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية. هذا طلب رسمي لإزالة المواد المحمية بحقوق الطبع والنشر الخاصة بك من موقع الويب أو النظام الأساسي.

نموذج إشعار الإزالة بموجب قانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية — نموذج خطاب إشعار الإزالة بموجب قانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية

في حالة عدم احترام إشعارات الإزالة بموجب قانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية (ومن الأفضل أن تكون مستعدًا لعدم القيام بذلك)، يمكنك التصعيد عن طريق رفع دعوى قضائية، ولن تكون أول من يفعل ذلك.

تتم حاليًا مقاضاة OpenAI وMicrosoft بسبب انتهاك حقوق الطبع والنشر من قبل مركز التقارير الاستقصائية، إلى جانب العديد من المؤسسات الإخبارية الأخرى. تزعم هذه الدعاوى القضائية أن شركات الذكاء الاصطناعي تستخدم محتوى محمي بحقوق الطبع والنشر دون إذن أو تعويض لتدريب نماذجها. وفي حين أن نتائج هذه الحالات لم يتم تحديدها بعد، إلا أنها تمهد الطريق أمام آخرين ليتبعوها.

تم إنشاء صورة الغلاف باستخدام DALL-E. جميع لقطات الشاشة بواسطة ديفيد موريلو.

اشترك في نشرتنا الإخبارية!

يتم تسليم أحدث البرامج التعليمية لدينا مباشرة إلى صندوق البريد الوارد الخاص بك

ديفيد موريلو هو كاتب محتوى محترف في مجال التكنولوجيا، ويغطي كل شيء بدءًا من المنتجات الاستهلاكية وحتى التقنيات الناشئة وتطبيقاتها عبر الصناعة. بدأ اهتمامه بالتكنولوجيا في سن مبكرة وازداد قوة على مر السنين.