محتوى مترجم
المصدر
Newyorker
التاريخ
2010/12/13
الكاتب
John Lehrer

الجزء الأول


تحيُّز النشر Publication Bias

ما الذي حدث؟، قام عالم الأحياء بجامعة غرب أستراليالي سيمنز باقتراح أحد التفسيرات عندما أخبرني عن حماسه المبدئي تجاه النظرية: «لقد كنت متحمسًا تجاه اللاتناسق المتغير، لقد جعلت الدراسات المبكرة الأثر قويًّا للغاية». لقد قرر إجراء القليل من التجارب بنفسه للتحقيق في التناسق عند ذكر الخنفساء ذات القرون، يقول لي سيمنز:

«لسوء الحظ، لم أتمكن من العثور على الأثر، لكن الجزء الأسوأ كان عندما قدمت تلك النتائج الفارغة فقد وجدت صعوبة في نشرها. لقد أرادت الصحف نتائج مؤكدة فحسب، لقد كانت نتيجة مثيرة جدًّا على البطلان، على الأقل في ذلك الوقت».

بالنسبة لسيمنز، فإن الارتفاع الحاد والانخفاض البطيء بالنسبة إلى اللاتناسق المتغير يعد مثالًا واضحًا على البارادايم العلمي، أحد تلك الموضات الفكرية التي أرشدت وقيدت البحوث. بعد اقتراح النموذج الجديد مالت عملية مقارنة الأقران إلى نتائج إيجابية، لكن بعد ذلك بعدة سنوات، نظرًا لحوافز التحول الأكاديمي –أصبح التحول راسخًا– لذا فإن أكثر النتائج البارزة الآن هي التي تدحض النظرية.

وبالمثل جادل جينينوس بأن تلاشي الأثر هو بصورة كبيرة نتيجة لتحيز النشر، أو ميل العلماء والمجلات العلمية إلى تفضيل البيانات الإيجابية على النتائج اللاغية، وهو ما يحدث عندما لا يكون هنالك أثر. تم التعرف على تحيز النشر عن طريق الإحصائي تيودور سترلينج عام 1959 بعد أن لاحظ أن سبعة وتسعين بالمئة من جميع الدراسات النفسية المنشورة تحتوي على بيانات ذات دلالات إحصائية توصلت إلى الأثر الذي كانوا يبحثون عنه. هنالك نتيجة هامة تم تعريفها كأي بيانات تشير إلى أنه يمكن أن يتم إنتاجها عن طريق الصدفة بنسبة أقل من خمس بالمئة في المرة. ذلك الاختبار الوجودي تم اكتشافه عام 1922 عن طريق عالم الرياضيات الإنجليزي رونالد فيشر، والذي التقط الخمسة بالمئة كحد فاصل اعتباطي بشكل ما؛ لأنها تجعل القلم وانحدار المسطرة الحسابي أسهل. لقد رأى سترلينج أنه إذا كانت نسبة سبعة وتسعين بالمئة من الدراسات النفسية كانت تبرهن عن فرضياتهم، فإما أن الدراسات النفسية استثنائية الحظ أو أنهم قاموا بنشر نتائج التجارب الناجحة. في السنوات الأخيرة تم رصد تحيز النشر غالبًا كمشكلة بالنسبة للتجارب السريرية، كما أن شركات الأدوية أقل اهتمامًا بنشر النتائج غير المرغوبة، لكن أصبح من الواضح أن تحيز النشر يُنتج أيضًا تشويهًا عظيما في تلك المجالات مثل علم النفس والبيئة بدون دوافع كبيرة للتعاون.

بينما يقوم تحيز النشر بلعب دور كبير بالنسبة لتأثير التلاشي، يبقى ذلك تفسيرًا ناقصًا، وذلك لأمر واحد؛ وهو الفشل في تفسير النتائج الأولية السائدة في الدراسات التي لم يتم نشرها حتى في المجلات، كما أنه يفشل أيضًا في تفسير تجارب أناس مثل سكولر الذي لم يتمكن من تكرار بياناته المبدئية بغض النظر عن أفضل جهودهم.


عندما يقرِّر العالم النتيجة التي يريدها قبل التجربة!ريتشارد بالمر عالم الأحياء بجامعة ألبرتا، والذي قام بدراسة الإشكاليات المحيطة باللاتناسق المتغير، يشتبه في أنها قضية لا تقل أهمية عن التقارير الانتقائية للنتائج، تلك النتائج التي اختار العلماء أن يدوّنوها في المقام الأول. يكمن أكثر أدلة بالمر إقناعًا في أداة إحصائية تعرف بالمخطط البياني «القُمْعي»، حيث يتم القيام بعدد كبير من الدراسات على عينة واحدة، ويجب أن تتخذ البيانات نمطًا ما؛ يجب أن تتجمع النتائج حول قيمة مشتركة -النتيجة الحقيقية- في حين أن تلك التي يتم إجراؤها على حجم عينة أصغر يجب أن تُظهر انتشارًا عشوائيًا حيث تكون أكثر عرضة لهامش أكبر من الخطأ. يعطي ذلك النمط للمخطط البياني اسمه؛ حيث تشبه التوزيعات شكل القمع.

إن أثر التلاشي مزعج لأنه يذكرنا كم أنه من الصعب أن نقوم بإثبات أي شيء، فنحن نحب أن نتظاهر أن تجاربنا تكشف لنا عن الحقيقة، لكن الوضع ليس هكذا دائمًا.

يلتقط المخطط البياني القمعي انحرافات التقارير الانتقائية؛ فعلى سبيل المثال بعد أن فرز بالمر كل دراسة عن اللاتناسق المتغير لاحظ أن تشتت النتائج مع حجم العينة الأقل لم يكن عشوائيًا في جميعها، لكن بدلا من ذلك مالت بقوة نحو النتائج الإيجابية، ومن وقتها قام بالمر بتوثيق مشكلة مشابهة في العديد من الموضوعات الأخرى المتنازع عليها، أخبرني بالمر قائلا:

«منذ أن أدركت أن التقارير الانتقائية منتشرة في كل ما يخص العلم أُصبت بالإحباط، كباحث يجب أن تكون على وعي بأنه قد يكون هنالك بعض الأنماط غير العشوائية، لكني لا أدري مدى انتشار ذلك»

في مقالة منقحة حديثة قام بالمر بتلخيص أثر التقارير الانتقائية على مجاله:

«لا يمكننا أن نفلت من النتيجة المقلقة أن بعضًا (ربما الكثير) من العموميات المفترضة في الدلالة البيولوجية في أحسن الأحوال في مجالهم تم تغذيتها بأسوأ وهم جماعي ومعتقدات بديهية غالبًا ما تتكرر».

أكد بالمر أن التقارير الانتقائية ليست كالاحتيال العلمي، ولكن على الأرجح تبدو المشكلة أنها نوع من السهو الماكر والفهم الخاطئ اللاواعي. كما يكافح الباحثون ليفهموا نتائج تلك المشكلة، أشارستيفن جاي جولد إلى هذا الأمر كـ «تأطير إجرائي». يقول سيمنز:

«العديد من المقاييس العلمية صارمة حقًّا، أما إذا كنت تتحدث عن اللاتناسق المتغير، فتلك قضية الاختلافات الصغيرة بين الجانب الأيمن والأيسر لحيوان ما، إنها مليمترات من ريش ذيل، وربما يعرف الباحث أنه يقوم باختبار على ذكر جيد [حيوان قام بعملية التزاوج بنجاح] وهو يعرف أنه من المفترض أن يكون متناسقًا. حسنًا هذا التصرف في القياس سيكون عرضة لجميع أنواع التحيزات في التصور، ليس هذا تصريحًا متشائمًا؛ إنها طريقة العنصر البشري في العمل فحسب».

أحد الأمثلة الكلاسيكية على التقارير الانتقائية خاص باختبارالوخز بالإبر في بلدان مختلفة. ففي حين كان الوخز بالإبر مقبولاً بصورة واسعة كعلاج طبي في العديد من دول آسيا، إلا أنه ما زال متنازعًا على استخدامه في الغرب، وقد أثرت تلك الاختلافات الثقافية بعمق على نتائج التجارب السريرية. فبين عام 1966 وعام 1995 كان هنالك سبعة وأربعون دراسة عن الوخز بالإبر في الصين وتايوان واليابان، وقد خلصت كل تجربة على حدة إلى أن الوخز بالإبر علاج فعال. وفي نفس الوقت كان هنالك أربعة وتسعون تجربة سريرية عن الوخز بالإبر في الولايات المتحدة والسويد وإنجلترا، وقد وجدت ستة وخمسون بالمئة من تلك الدراسات فوائد علاجية. وكما لاحظ بالمر أن هذا التناقض الواسع يدفع باتجاه أن العلماء يجدون طرقًا لتأكيد فرضياتهم المفضلة، بغض النظر عما لا يريدون رؤيته، إن معتقداتنا هي شكل من أشكال العمى.


«لماذا معظم نتائج البحوث المنشورة كاذبة؟!»

يجادلجون يونايديس عالم الأوبئة بجامعة ستانفورد بأن انحرافات كتلك تمثل قضية خطيرة فيما يخص البحوث الطبية الحيوية، يقول يونايديس:

«إن تلك المغالاة هي السبب في أن التلاشي أصبح شائعًا. سيكون من العظيم حقًا إذا أعطتنا الدراسات الأولية ملخصًا دقيقًا للأشياء؛ لكنها لا تفعل. وما يحدث هو أننا نهدر الكثير من المال في معالجة الملايين من المرضى والقيام بالكثير من أعمال المتابعة على موضوعات مبنية على نتائج مضللة».

في عام 2005 قام يونايديس بنشر مقال في مجلة الجمعية الطبية الأمريكية والذي بحث في تسعة وأربعين من أكثر البحوث السريرية في ثلاثة من أكبر المجلات الطبية الأكثر انتشارًا، سجلت خمسة وأربعين من تلك الدراسات نتائج إيجابية، مما يشير إلى أن التدخل الذي تم تجربته كان فعالاً؛ وذلك لأن معظم تلك الدراسات كانت تجارب مراقبة عشوائية -«المعيار الذهبي» للدليل الطبي-. لقد اتجهوا إلى الحصول على أثر هام على الممارسة السريرية، وأدى الأمر إلى انتشار علاجات مثل العلاج بالهرمونات البديلة لنساء في عمر اليأس، والجرعات اليومية المنخفضة من الإسبرين لمنع النوبات القلبية والسكتات الدماغية، ومع ذلك فإن البيانات التي حصل عليها يونايديس كانت مقلقة؛ فمن أربعة وثلاثين ادعاءً من العينات القابلة للتكرار، هنالك واحد وأربعين بالمائة منها تضاربت أو أصبح حجم أثرها منخفضًا بشكل كبير.

مجرد كون الفكرة صحيحة لا يعني أنه يمكن إثباتها، وليس مجرد كون أنه يمكن إثبات فكرة يعني أنها صحيحة، فعند الانتهاء من التجارب يجب علينا أن نختار ما نؤمن به.

ويزداد الوضع سوءًا عندما تكون عينة ما تمثل موضة. ففي السنوات الأخيرة على سبيل المثال كان هنالك المئات من الدراسات على الجينات المختلفة التي تتحكم في اختلافات خطر المرض بين الرجال والنساء. تلك النتائج لخصت كل شيء من الطفرات المسئولة عن تزايد خطر الفصام إلى الجينات المتسببة في ارتفاع ضغط الدم. قام يونايديس وزملاؤه بالبحث في أربعمئة واثنين وثلاثين من تلك الدعاوى، وسرعان ما اكتشفوا أن الغالبية العظمى كان لديها عيوب خطيرة. لكن الحقيقة الأكثر إقلاقًا ظهرت عندما نظروا في اختبار التكرار: من أربعمئة واثنين وثلاثين ادعاءً، كانت هنالك واحدة فقط قابلة للتكرار بثبات، يقول يونايديس:

«لا يعني ذلك أنه لا توجد واحدة من تلك الدعاوى ستتحول إلى حقيقة، لكن نظرًا إلى أن غالبيتها تم إجراؤه بصورة سيئة فلن أقوم بحبس أنفاسي».

وفقًا ليونايديس، فقد كانت المشكلة الأساسية أن الكثير من الأبحاث دخلت فيما أسماه بـ «المطاردة الضخمة» أو إيجاد طرق لتفسير البيانات، لذا فقد أجريَ الاختبار الإحصائي على هامش ضخم –بنسبة خمسة وتسعين بالمئة– (الذي ابتكره رونالد فيشر). يقول يونايديس:

«إن العلماء حريصون على تمرير هذا الاختبار السحري الذي بدأوا باللعب حوله بالأرقام في محاولة لإيجاد أي شيء يبدو ذا قيمة».

في السنوات الأخيرة أصبح يونايديس متبلد الذهن بصورة متزايدة فيما يخص انتشار تلك المشكلة. أحد أوراقه البحثية الأكثر انتشارًا والتي تحمل عنوانًا استفزازيًا عن عمد كانت: «لماذا معظم نتائج البحوث المنشورة كاذبة؟!».

إن مشكلة التقارير الانتقائية أنها متجذرة في خلل معرفي جوهري، وهو أننا نحب أن نثبت الصواب لأنفسنا ونكره أن نكون على خطأ. يقول يونايديس:

«إنه لشعور جيد أن تتحقق من صحة فرضية ما. ويكون الشعور أفضل عندما يكون لديك مصلحة مالية في الفكرة، أو أن حياتك المهنية تعتمد عليها. وهذا هو السبب حتى بعد أن يتم نفي صحة ادعاء ما بصورة منهجية -وقد ذكر على سبيل المثال العمل القديم عن العلاج بالهرمونات البديلة، أو الادعاء بالفيتامينات المتنوعة المنخرطة- ستظل ترى بعض الأبحاث المتصلبة التي تقوم بذكر الدراسات الأولى القليلة التي تظهر أثرًا قويًا. إنهم يريدون حقًا أن يصدقوا أن الأمر حقيقي».

هذا هو السبب في أن سكولر يجادل بأن العلماء يجب أن يصبحوا أكثر دقة في جمع البيانات قبل أن ينشروها. يقول سكولر: «إننا نضيّع الكثير من الوقت في مطاردة دراسات سيئة وتجارب ضعيفة». إن هاجس قابلية التكرار الحالي قد صرف الأنظار عن المشكلة الحقيقة، والتي هي التصميم الخاطئ. فقد لاحظ أنه ليس بإمكان أحد أن يحاول حتى تكرار أغلب الأوراق العلمية (وفقًا لمجلة Nature، فإن ثلث الدراسات لا يتم ذكره، ويسمح فقط بنشر ما يمكن تكراره). يقول سكولر:

«لقد تعلمت بالطريقة الصعبة أن أكون حذرًا للغاية. يجب على كل باحث أن يحدد مسبقًا كم العينات التي سيستخدمها، وما الشيء الذي يقوم باختباره تحديدًا، وما الذي يمثل مستوى كافيًا من الإثبات. فنحن نمتلك من الأدوات ما يمكننا من أن نكون أكثر شفافية فيما يخص تجاربنا».

في ورقة ستظهر قريبًا يوصي سكولر بإنشاء قاعدة بيانات مفتوحة المصدر، يُطلب من خلالها من كل باحث أن يحدد ملامح بحوثه القادمة، كما يقوم بتوثيق جميع نتائجه، يقول سكولر:


حتى بعد التجربة، علينا أن نختار ما نؤمن به!

«أعتقد أن هذا الأمر سيزيد بصورة كبيرة إمكانية الوصول للأعمال العلمية ويعطينا طريقة أفضل بكثير لنحكم على جودة تجربة ما. سيساعدنا ذلك الأمر في النهاية على التعامل مع جميع تلك القضايا التي تتعرض لأثر التلاشي».

على الرغم من أن إصلاحات كهذه ستخفف من خطر تحيز النشر والتقارير الانتقائية، إلا أنها لم تقضِ على أثر التلاشي. إن هذا الأمر منتشر لأن الأبحاث العلمية سيتم التعتيم عليها دائمًا بقوة لا يمكن كبحها، يمكن فقط احتواؤها بالعشوائية المطلقة، على الرغم من أن القليل من الأبحاث تم إجراؤها مع المخاطر التجريبية من الفرص والصدفة، تلك الأبحاث القائمة غير مشجعة.

في أواخر عام 1999 قام عالم الأعصاب بجامعة أوريجون للصحة والعلومجون كراب بإجراء تجربة أظهرت كيف أن أحداث الصدفة غير المعروفة يمكنها أن تحرف الاختبارات بعيدًا عن التكرار. قام بإجراء مجموعة من التجارب على سلوك الفئران في ثلاثة معامل علمية مختلفة: جامعة نيويورك بمدينة ألباني، وجامعة ألبرتا بمدينة إدمنتون، وجامعة أوريجون بمدينة بوتلاند. وقبل أن يقوم بإجراء تلك التجارب، حاول أن يضم جميع المتغيرات التي يمكنه أن يفكر بها، حيث استخدم نفس السلالة من الفئران في كل معمل، وتم شحنها في نفس اليوم من نفس المورد، وقد جُمعت الحيوانات من نفس النوع من الحظائر، بنفس العلامة التجارية لنشارة الخشب، وتم تعريضهم لنفس الكمية من الضوء الساطع، كانوا يعيشون مع نفس العدد من الفئران، وكان يتم إطعامهم نفس النوع من البندق، عند التعامل مع الفئران تم ذلك بنفس النوع من القفازات الجراحية، وعندما تم اختبارهم وكان ذلك بنفس الأدوات في نفس الوقت من الصباح.

إن الافتراض الأساسي لتجارب التكرار هو بالطبع أن كلًّا من تلك المعامل يجب أن ينتج نفس النمط من النتائج، يقول كراب: «إذا كان من الواجب أن تنجح أي من التجارب في الاختبار، فينبغي أن تكون تجاربنا، لكن ليس هذا ما جرى عليه الأمر».

في إحدى التجارب قام كراب بحقن سلالة معينة من الفئران بالكوكايين: في بورتلاند تحركت الفئران التي أُعطيت المخدر بمتوسط 600 سنيتمتر أكثر من حركتهم العادية، في ألباني تحركوا أكثر من 700 سنتيمتر بقليل، لكن في مختبر إدمنتون تحركوا أكثر من 5 آلاف سنتيمتر إضافي، وقد لوحظت انحرافات أخرى في اختبار التوتر!.

وعلاوة على ذلك فإن تلك التناقضات لم تتبع أي نمط قابل للتحقق منه: سجلت سلالة واحدة من الفئران أكبر كمية من التوتر، بينما أحرزت سلالة أخرى هذا الاختلاف في ألباني.

الأشياء المشتركة المقلقة في دراسة كراب أن الكثير من البيانات العلمية المثيرة لم تكن شيئًا سوى ضوضاء. لم تكن نتائج فرط النشاط لأولئك الفئران الذي تم إعطاؤهم المخدر حقائق جديدة مثيرة؛ كانت نشازًا لا معنى له، منتجًا ثانويًا من المتغيرات الخفية التي لا نفهمها.

إن المشكلة بالطبع هي أن مثل تلك النتائج المذهلة هي الأكثر احتمالاً بأن يتم نشرها في مجلات مرموقة، حيث أن البيانات ذات دلالة إحصائية وغير متوقعة تمامًا، تمت كتابة الافتراضات، وتم إجرء دراسات المتابعة، النتيجة النهائية هي صدفة علمية يمكن أن تأخذ سنوات ليتم الكشف عنها.

يشير هذا إلى أن تأثير التلاشي هو في الواقع تلاشٍ للوهم، فبينما تخيلكارل بوبر أن التزييف يحدث في تجربة نهائية منفردة – قام جاليلو بدحض الميكانيكا الأرسطية في ظهيرة يوم ما- تحولت العملية لتكون أكثر فوضوية من ذلك. فالعديد من النظريات العلمية تم الاستمرار في اعتبارها حقيقية حتى بعد فشل العديد من الاختبارات التجريبية. قد يُظهر التعتيم اللفظي أثر التلاشي، لكنه يبقى معتمدًا على نطاق واسع من المجال، ويطبق الأمر كذلك على أي ظاهرة، من اختفاء فوائد الجيل الثاني من مضادات الذهان إلى ضعف نسبة الاقتران التي أظهرتها النيتورونات المتحللة والتي تظهر لتسقط عن طريق ثلاثة انحرافات معيارية بين عام 1969 وعام 2001. حتى أن قانون الجاذبية لم يكن دائم الكمال في التنبؤ بظواهر العالم الحقيقي (في أحد الاختبارات قام الفيزيائيون بقياس قوة الجاذبية من خلال الآبار العميقة بجزيرة نيفادا حيث وجدوا نسبة اثنين ونصف بالمئة من التناقض بين التنبؤات النظرية والبيانات الحقيقية). بغض النظر عن تلك النتائج فإن الجيل الثاني من مضادات الذهان ما زال يوصف كعلاج على نطاق واسع، وكما أن النموذج الخاص بنا لم يتغير، يبقى قانون الجاذبية كما هو.

إن شذوذًا كهذا يوضح انحراف المنهج التجريبي، فبالرغم من أن العديد من الأفكار العلمية تنتج نتائج متضاربة وتعاني من تضاؤل حجم التأثير، إلا أنها ظلت تُذكر في الكتب وتوجه الممارسة الطبية القياسية، لماذا؟ لأن تلك الأفكار تبدو حقيقة، لأنها تبدو منطقية، لأننا لا نستطيع تحمل السماح لتلك الحقائق بالانتهاء، وهذا هو السبب في كون أثر التلاشي مزعج للغاية، ليس لأنه يظهر عدم عصمة الإنسان علميًا في البيانات التي يمكن تطويعها والمعتقدات التي تشكل وجهات النظر (مثل تلك العيوب غير مفاجئة؛ على الأقل بالنسبة للعلماء)، وليس بسبب أنها تكشف أن العديد من أكثر نظرياتنا أهمية هي مجرد موضة عابرة وسيتم رفضها قريبًا (كانت هذه الفكرة موجودة منذتوماس كون)، إن أثر التلاشي مزعج لأنه يذكرنا كم أنه من الصعب أن نقوم بإثبات أي شيء، فنحن نحب أن نتظاهر أن تجاربنا تكشف لنا عن الحقيقة، لكن الوضع ليس هكذا دائمًا، ومجرد كون الفكرة صحيحة لا يعني أنه يمكن إثباتها، وليس مجرد كون أنه يمكن إثبات فكرة ما أن يعني ذلك أنها صحيحة، فعند الانتهاء من التجارب يجب علينا أن نختار ما نؤمن به.