اختبار للأهمية الإحصائية. الأسئلة الشائعة: كيف يتم تحديد الأهمية؟ ما هي الفرضية في الإحصاء

في أي موقف علمي وعملي للتجربة (المسح)، لا يمكن للباحثين دراسة جميع الأشخاص (عموم السكان، السكان)، ولكن عينة معينة فقط. على سبيل المثال، حتى لو كنا ندرس مجموعة صغيرة نسبيًا من الأشخاص، مثل أولئك الذين يعانون من مرض معين، فلا يزال من غير المرجح أن تكون لدينا الموارد المناسبة أو الحاجة إلى اختبار كل مريض. وبدلاً من ذلك، من الشائع اختبار عينة من السكان لأنها أكثر ملاءمة وأقل استهلاكًا للوقت. إذا كان الأمر كذلك، فكيف نعرف أن النتائج التي تم الحصول عليها من العينة تمثل المجموعة بأكملها؟ أو، باستخدام المصطلحات المهنية، هل يمكننا التأكد من أن بحثنا يصف بشكل صحيح الأمر برمته سكان، العينة التي استخدمناها؟

للإجابة على هذا السؤال، من الضروري تحديد الأهمية الإحصائية لنتائج الاختبار. دلالة إحصائية (مستوى ملحوظ، مختصر سيج.)،أو /7-مستوى الأهمية (المستوى ع) -هو احتمال أن تمثل نتيجة معينة بشكل صحيح المجتمع الذي تم أخذ عينات منه في الدراسة. لاحظ أن هذا فقط احتمالا- من المستحيل أن نقول على وجه اليقين أن دراسة معينة تصف بشكل صحيح جميع السكان. وفي أحسن الأحوال، لا يمكن لمستوى الأهمية إلا أن يستنتج أن هذا محتمل جدًا. وبالتالي، فإن السؤال التالي الذي يطرح نفسه حتماً هو: ما هو مستوى الأهمية الذي يجب أن يكون قبل أن يمكن اعتبار نتيجة معينة وصفاً صحيحاً للسكان؟

على سبيل المثال، ما هي قيمة الاحتمال التي ترغب في القول إن مثل هذه الفرص كافية للمخاطرة؟ ماذا لو كانت الاحتمالات 10 من 100 أو 50 من 100؟ وماذا لو كان هذا الاحتمال أعلى؟ ماذا عن الاحتمالات مثل 90 من 100، أو 95 من 100، أو 98 من 100؟ بالنسبة للحالة التي تنطوي على مخاطر، فإن هذا الاختيار يمثل مشكلة كبيرة، لأنه يعتمد على الخصائص الشخصية للشخص.

في علم النفس، يُعتقد تقليديًا أن نسبة 95 أو أكثر من 100 تعني أن احتمالية صحة النتائج عالية بما يكفي لتعميمها على جميع السكان. تم إنشاء هذا الرقم في عملية النشاط العلمي والعملي - لا يوجد قانون يتم بموجبه اختياره كمبدأ توجيهي (وفي الواقع، في العلوم الأخرى يتم أحيانًا اختيار قيم أخرى بمستوى الأهمية).

في علم النفس، يتم تشغيل هذا الاحتمال بطريقة غير عادية إلى حد ما. بدلا من احتمال أن العينة تمثل السكان، احتمال أن العينة لا يمثلسكان. بمعنى آخر، هو احتمال أن تكون العلاقة أو الاختلافات المرصودة عشوائية وليست خاصية للمجتمع. لذا، بدلًا من القول بأن هناك احتمال 95 في 100 أن تكون نتائج الدراسة صحيحة، يقول علماء النفس أن هناك احتمال 5 في 100 أن تكون النتائج خاطئة (تمامًا كما أن احتمال 40 في 100 أن تكون النتائج صحيحة يعني فرصة 60 في 100 لصالح خطأهم). يتم التعبير عن قيمة الاحتمال في بعض الأحيان كنسبة مئوية، ولكن في أغلب الأحيان يتم كتابتها ككسر عشري. على سبيل المثال، يتم التعبير عن 10 فرص من أصل 100 ككسر عشري قدره 0.1؛ 5 من 100 يتم كتابته كـ 0.05؛ 1 من 100 - 0.01. مع هذا النوع من التسجيل، تكون القيمة الحدية 0.05. لكي تعتبر النتيجة صحيحة، يجب أن يكون مستوى أهميتها أقلهذا الرقم (تذكر أن هذا هو احتمال أن تكون النتيجة خطأيصف السكان). للتخلص من المصطلحات، دعونا نضيف عبارة "احتمال أن تكون النتيجة غير صحيحة" (والتي يطلق عليها بشكل صحيح أكثر مستوى الأهمية)يُشار إليه عادةً بحرف لاتيني ر.تتضمن أوصاف النتائج التجريبية عادةً بيانًا موجزًا ​​مثل "كانت النتائج مهمة على مستوى الثقة (ع) أقل من 0.05 (أي أقل من 5%).

وبالتالي فإن مستوى الأهمية ( ر) يشير إلى احتمالية النتائج لاتمثل السكان. تقليديا في علم النفس، تعتبر النتائج تعكس بشكل موثوق الصورة العامة للقيمة رأقل من 0.05 (أي 5%). ومع ذلك، هذا مجرد بيان احتمالي، وليس ضمانًا غير مشروط على الإطلاق. وفي بعض الحالات قد لا يكون هذا الاستنتاج صحيحا. في الواقع، يمكننا حساب عدد المرات التي قد يحدث فيها هذا إذا نظرنا إلى حجم مستوى الأهمية. عند مستوى أهمية 0.05، من المحتمل أن تكون النتائج غير صحيحة 5 من أصل 100 مرة. 11a للوهلة الأولى يبدو أن هذا ليس شائعًا جدًا، ولكن إذا فكرت في الأمر، فإن 5 فرص من 100 هي نفس 1 من 20. وبعبارة أخرى، في واحدة من كل 20 حالة ستكون النتيجة غير صحيح. لا تبدو مثل هذه الاحتمالات مواتية بشكل خاص، ويجب على الباحثين الحذر من ارتكابها أخطاء من النوع الأول.هذا هو اسم الخطأ الذي يحدث عندما يظن الباحثون أنهم توصلوا إلى نتائج حقيقية، لكنهم في الحقيقة لم يفعلوا ذلك. ويطلق على الخطأ المعاكس، والذي يتمثل في اعتقاد الباحثين أنهم لم يتوصلوا إلى نتيجة في حين أن هناك نتيجة في الواقع أخطاء من النوع الثاني.

تنشأ هذه الأخطاء لأنه لا يمكن استبعاد احتمال إجراء التحليل الإحصائي. يعتمد احتمال الخطأ على مستوى الأهمية الإحصائية للنتائج. لقد لاحظنا بالفعل أنه لكي تعتبر النتيجة صحيحة، يجب أن يكون مستوى الأهمية أقل من 0.05. بالطبع، بعض النتائج أقل من ذلك، وليس من غير المألوف أن نرى نتائج منخفضة تصل إلى 0.001 (القيمة 0.001 تعني أن هناك احتمالًا بنسبة 1 في 1000 بأن تكون النتائج خاطئة). كلما كانت قيمة p أصغر، زادت ثقتنا في صحة النتائج.

في الجدول 7.2 يوضح التفسير التقليدي لمستويات الدلالة حول إمكانية الاستدلال الإحصائي والأساس المنطقي للقرار حول وجود علاقة (اختلافات).

الجدول 7.2

التفسير التقليدي لمستويات الأهمية المستخدمة في علم النفس

بناءً على تجربة البحث العملي يوصى بما يلي: لتجنب الأخطاء من النوعين الأول والثاني قدر الإمكان، عند استخلاص استنتاجات مهمة، يجب اتخاذ القرارات بشأن وجود اختلافات (اتصالات)، مع التركيز على المستوى رعلامة ن.

اختبار إحصائي(الاختبار الإحصائي -إنها أداة لتحديد مستوى الأهمية الإحصائية. وهذه قاعدة حاسمة تضمن قبول الفرضية الصحيحة ورفض الفرضية الخاطئة ذات الاحتمالية العالية.

تشير المعايير الإحصائية أيضًا إلى طريقة حساب رقم معين والرقم نفسه. يتم استخدام جميع المعايير لغرض رئيسي واحد: التحديد مستوى الأهميةالبيانات التي يقومون بتحليلها (أي احتمالية أن تعكس البيانات تأثيرًا حقيقيًا يمثل بشكل صحيح المجتمع الذي تم سحب العينة منه).

لا يمكن استخدام بعض الاختبارات إلا للبيانات الموزعة بشكل طبيعي (وإذا تم قياس السمة على مقياس فاصل) - تسمى هذه الاختبارات عادةً حدودي.باستخدام معايير أخرى، يمكنك تحليل البيانات باستخدام أي قانون توزيع تقريبًا - يطلق عليهم غير معلمية.

المعايير البارامترية هي معايير تتضمن معلمات التوزيع في صيغة الحساب، أي. الوسائل والتباينات (اختبار الطالب، اختبار فيشر F، وما إلى ذلك).

المعايير غير المعلمية هي معايير لا تتضمن معلمات التوزيع في صيغة حساب معلمات التوزيع وتستند إلى العمل مع الترددات أو الرتب (المعيار سمعيار روزنباوم شمانا - ويتني

على سبيل المثال، عندما نقول أن أهمية الاختلافات تم تحديدها بواسطة اختبار t للطالب، فإننا نعني أنه تم استخدام طريقة اختبار t للطالب لحساب القيمة التجريبية، والتي تتم بعد ذلك مقارنتها بالقيمة المجدولة (الحرجة).

من خلال نسبة القيم التجريبية (المحسوبة من قبلنا) والقيم الحرجة للمعيار (الجدولي) يمكننا الحكم على ما إذا كانت فرضيتنا مؤكدة أم مدحضة. في معظم الحالات، لكي ندرك أن الاختلافات مهمة، من الضروري أن تتجاوز القيمة التجريبية للمعيار القيمة الحرجة، على الرغم من وجود معايير (على سبيل المثال، اختبار مان ويتني أو اختبار الإشارة) التي يجب أن نلتزم بالقاعدة المعاكسة.

وفي بعض الحالات تتضمن صيغة حساب المحك عدد الملاحظات في العينة محل الدراسة، ويشار إليها بـ ص. وباستخدام جدول خاص، نحدد مستوى الأهمية الإحصائية للاختلافات التي تتوافق معها قيمة تجريبية معينة. وفي معظم الحالات قد تكون نفس القيمة التجريبية للمعيار معنوية أو غير معنوية تبعا لعدد الملاحظات في العينة محل الدراسة ( ص ) أو من ما يسمى عدد درجات الحرية ، والذي يشار إليه بـ الخامس (ز>) أو كيف df (أحيانا د).

معرفة صأو عدد درجات الحرية، باستخدام جداول خاصة (ترد أهمها في الملحق 5) يمكننا تحديد القيم الحرجة للمعيار ومقارنة القيمة التجريبية التي تم الحصول عليها بها. عادة ما يتم كتابته على النحو التالي: "متى ن = 22 قيمة حرجة للمعيار ر سانت = 2.07" أو "في الخامس (د) = 2 القيم الحرجة لاختبار الطالب هي = 4.30"، الخ.

عادة، لا تزال الأفضلية تعطى للمعايير البارامترية، ونحن نتمسك بهذا الموقف. تعتبر أكثر موثوقية ويمكن أن توفر المزيد من المعلومات والتحليل الأعمق. أما بالنسبة لتعقيد الحسابات الرياضية، فعند استخدام برامج الكمبيوتر، يختفي هذا التعقيد (ولكن يبدو أن بعض التعقيدات الأخرى يمكن التغلب عليها تمامًا).

  • في هذا الكتاب المدرسي نحن لا نعتبر بالتفصيل مشكلة الإحصائية
  • الفرضيات (صفر - R0 والبديل - Hj) والقرارات الإحصائية المتخذة، حيث يدرسها طلاب علم النفس بشكل منفصل في تخصص "الطرق الرياضية في علم النفس". بالإضافة إلى ذلك، تجدر الإشارة إلى أنه عند إعداد تقرير بحثي (دورة أو عمل دبلوم، نشر)، لا يتم تقديم الفرضيات الإحصائية والحلول الإحصائية، كقاعدة عامة. عادة، عند وصف النتائج، فإنها تشير إلى المعيار، وتوفر الإحصائيات الوصفية اللازمة (الوسائل، سيجما، معاملات الارتباط، وما إلى ذلك)، والقيم التجريبية للمعايير، ودرجات الحرية، وبالضرورة مستوى الأهمية p. ثم يتم صياغة استنتاج ذي معنى فيما يتعلق بالفرضية التي يتم اختبارها، مع الإشارة (عادة في شكل عدم المساواة) إلى مستوى الأهمية الذي تم تحقيقه أو لم يتم تحقيقه.

في رأيك، ما الذي يجعل "نصفك الآخر" مميزًا وذا معنى؟ هل يتعلق الأمر بشخصيته أو بمشاعرك تجاه هذا الشخص؟ أو ربما مع حقيقة بسيطة وهي أن الفرضية حول عشوائية تعاطفك، كما تظهر الدراسات، لديها احتمال أقل من 5٪؟ فإذا اعتبرنا العبارة الأخيرة موثوقة، فلن تكون مواقع التعارف الناجحة موجودة من حيث المبدأ:

عند إجراء اختبار منفصل أو أي تحليل آخر لموقع الويب الخاص بك، فإن سوء فهم "الأهمية الإحصائية" يمكن أن يؤدي إلى سوء تفسير النتائج، وبالتالي اتخاذ إجراءات غير صحيحة في عملية تحسين التحويل. وينطبق هذا على آلاف الاختبارات الإحصائية الأخرى التي يتم إجراؤها يوميًا في كل صناعة موجودة.

لفهم ما هي "الأهمية الإحصائية"، تحتاج إلى الغوص في تاريخ المصطلح، ومعرفة معناه الحقيقي، وفهم كيف سيساعدك هذا الفهم القديم "الجديد" على تفسير نتائج بحثك بشكل صحيح.

قليلا من التاريخ

على الرغم من أن البشرية كانت تستخدم الإحصائيات لحل المشكلات المختلفة لعدة قرون، إلا أن الفهم الحديث للأهمية الإحصائية، واختبار الفرضيات، والعشوائية، وحتى تصميم التجارب (DOE) لم يبدأ في التبلور إلا في بداية القرن العشرين ويرتبط ارتباطًا وثيقًا بالإحصاءات. اسم السير رونالد فيشر (السير رونالد فيشر، 1890-1962):

كان رونالد فيشر عالم أحياء تطوري وإحصائيًا وكان لديه شغف خاص بدراسة التطور والانتقاء الطبيعي في المملكتين الحيوانية والنباتية. خلال حياته المهنية اللامعة، قام بتطوير ونشر العديد من الأدوات الإحصائية المفيدة التي لا نزال نستخدمها حتى اليوم.

استخدم فيشر التقنيات التي طورها لشرح العمليات في علم الأحياء مثل الهيمنة والطفرات والانحرافات الجينية. يمكننا استخدام نفس الأدوات اليوم لتحسين وتحسين محتوى موارد الويب. إن حقيقة إمكانية استخدام أدوات التحليل هذه للعمل مع كائنات لم تكن موجودة في وقت إنشائها تبدو مفاجئة للغاية. ومن المثير للدهشة أيضًا أن الناس اعتادوا إجراء عمليات حسابية معقدة بدون آلات حاسبة أو أجهزة كمبيوتر.

لوصف نتائج تجربة إحصائية بأنها ذات احتمالية عالية لتكون صحيحة، استخدم فيشر كلمة "الأهمية".

أيضًا، يمكن تسمية أحد التطورات الأكثر إثارة للاهتمام التي توصل إليها فيشر بفرضية "الابن المثير". ووفقا لهذه النظرية، تفضل النساء الرجال غير الشرعيين جنسيا (منحل) لأن هذا سيسمح للأبناء المولودين من هؤلاء الرجال أن يكون لديهم نفس الاستعداد وإنتاج ذرية أكثر (لاحظ أن هذه مجرد نظرية).

ولكن لا أحد، حتى العلماء اللامعين، محصن من ارتكاب الأخطاء. لا تزال عيوب فيشر تصيب المتخصصين حتى يومنا هذا. لكن تذكر كلمات ألبرت أينشتاين: "من لم يخطئ قط، لم يخلق شيئًا جديدًا أبدًا".

قبل الانتقال إلى النقطة التالية، تذكر: الأهمية الإحصائية هي عندما يكون الفرق في نتائج الاختبار كبيرًا جدًا بحيث لا يمكن تفسير الفرق بعوامل عشوائية.

ما هي فرضيتك؟

لفهم ما تعنيه "الأهمية الإحصائية"، عليك أولاً أن تفهم ما هو "اختبار الفرضية"، حيث أن المصطلحين متشابكان بشكل وثيق.
الفرضية هي مجرد نظرية. بمجرد تطوير النظرية، ستحتاج إلى إنشاء عملية لجمع ما يكفي من الأدلة وجمع تلك الأدلة فعليًا. هناك نوعان من الفرضيات.

التفاح أم البرتقال - أيهما أفضل؟

فرضية العدم

كقاعدة عامة، هذا هو المكان الذي يواجه فيه الكثير من الناس صعوبات. شيء واحد يجب أخذه في الاعتبار هو أن الفرضية الصفرية ليست شيئًا يحتاج إلى إثبات، مثل إثبات أن تغييرًا معينًا على موقع ويب سيؤدي إلى زيادة في التحويلات، ولكن العكس صحيح. فرضية العدم هي نظرية تنص على أنه إذا قمت بإجراء أي تغييرات على الموقع، فلن يحدث شيء. وهدف الباحث هو دحض هذه النظرية وليس إثباتها.

إذا نظرنا إلى تجربة حل الجرائم، حيث يشكل المحققون أيضًا فرضيات حول هوية المجرم، فإن فرضية العدم تأخذ شكل ما يسمى بافتراض البراءة، وهو المفهوم الذي بموجبه يفترض أن المتهم بريء حتى تثبت إدانته في محكمة قانونية.

إذا كانت فرضية العدم هي أن كائنين متساويان في خصائصهما، وتحاول إثبات أن أحدهما أفضل (على سبيل المثال، A أفضل من B)، فأنت بحاجة إلى رفض الفرضية الصفرية لصالح البديل. على سبيل المثال، تقوم بمقارنة أداة أو أخرى لتحسين التحويل. في الفرضية الصفرية، كلاهما لهما نفس التأثير (أو لا يوجد أي تأثير) على الهدف. وفي البديل يكون تأثير أحدهما أفضل.

قد تحتوي فرضيتك البديلة على قيمة عددية، مثل B - A > 20%. وفي هذه الحالة يمكن أن تأخذ الفرضية الصفرية والبديلة الشكل التالي:

اسم آخر للفرضية البديلة هو فرضية البحث لأن الباحث يهتم دائمًا بإثبات هذه الفرضية بالذات.

الأهمية الإحصائية والقيمة p

دعونا نعود مرة أخرى إلى رونالد فيشر ومفهومه للأهمية الإحصائية.

الآن بعد أن أصبح لديك فرضية العدم وبديل، كيف يمكنك إثبات إحداهما ودحض الأخرى؟

نظرًا لأن الإحصائيات، بطبيعتها، تتضمن دراسة مجموعة سكانية معينة (عينة)، فلا يمكنك أبدًا أن تكون متأكدًا بنسبة 100٪ من النتائج التي تم الحصول عليها. مثال جيد: نتائج الانتخابات غالبا ما تختلف عن نتائج استطلاعات الرأي الأولية وحتى نتائج استطلاعات الرأي.

أراد الدكتور فيشر إنشاء خط فاصل يتيح لك معرفة ما إذا كانت تجربتك ناجحة أم لا. هكذا ظهر مؤشر الموثوقية. المصداقية هي المستوى الذي نتخذه لقول ما نعتبره "مهمًا" وما لا نعتبره "مهمًا". إذا كان "p"، مؤشر الأهمية، هو 0.05 أو أقل، فإن النتائج موثوقة.

لا تقلق، فالأمر في الواقع ليس مربكًا كما يبدو.

التوزيع الاحتمالي الغوسي. على طول الحواف توجد القيم الأقل احتمالا للمتغير، وفي الوسط هي القيم الأكثر احتمالا. إن النتيجة P (المنطقة المظللة باللون الأخضر) هي احتمالية حدوث النتيجة المرصودة عن طريق الصدفة.

التوزيع الاحتمالي الطبيعي (التوزيع الغوسي) هو تمثيل لجميع القيم الممكنة لمتغير معين على الرسم البياني (في الشكل أعلاه) وتكراراتها. إذا قمت ببحثك بشكل صحيح ثم قمت برسم جميع إجاباتك على الرسم البياني، فسوف تحصل على هذا التوزيع بالضبط. وفقًا للتوزيع الطبيعي، سوف تتلقى نسبة كبيرة من الإجابات المتشابهة، وستكون الخيارات المتبقية موجودة عند حواف الرسم البياني (ما يسمى بـ "الذيول"). غالبًا ما يوجد هذا التوزيع للقيم في الطبيعة، ولهذا يطلق عليه "طبيعي".

باستخدام معادلة تعتمد على عينتك ونتائج الاختبار، يمكنك حساب ما يسمى "إحصائية الاختبار"، والتي ستشير إلى مدى انحراف نتائجك. سيخبرك أيضًا بمدى قربك من صحة الفرضية الصفرية.

لمساعدتك في فهم الأمر، استخدم الآلات الحاسبة عبر الإنترنت لحساب الأهمية الإحصائية:

أحد الأمثلة على هذه الآلات الحاسبة

يمثل الحرف "p" احتمالية صحة الفرضية الصفرية. إذا كان الرقم صغيرا، فإنه يشير إلى وجود اختلاف بين مجموعات الاختبار، في حين أن الفرضية الصفرية ستكون أنهم متماثلون. من الناحية الرسومية، سيبدو أن إحصائية الاختبار الخاصة بك ستكون أقرب إلى أحد ذيول التوزيعة على شكل الجرس.

قرر الدكتور فيشر تحديد عتبة الأهمية عند p ≥ 0.05. إلا أن هذا القول مثير للجدل لأنه يؤدي إلى صعوبتين:

1. أولا، حقيقة أنك أثبتت خطأ الفرضية الصفرية لا تعني أنك أثبتت الفرضية البديلة. كل هذه الأهمية تعني أنك لا تستطيع إثبات A أو B.

2. ثانياً، إذا كانت قيمة p-score 0.049، فهذا يعني أن احتمال الفرضية الصفرية سيكون 4.9%. قد يعني هذا أن نتائج الاختبار الخاصة بك قد تكون صحيحة وكاذبة في نفس الوقت.

يجوز لك استخدام درجة p أو لا تستخدمها، ولكنك ستحتاج بعد ذلك إلى حساب احتمالية الفرضية الصفرية على أساس كل حالة على حدة وتحديد ما إذا كانت كبيرة بما يكفي لمنعك من إجراء التغييرات التي خططت لها واختبرتها .

السيناريو الأكثر شيوعًا لإجراء اختبار إحصائي اليوم هو تعيين عتبة أهمية تبلغ p ≥ 0.05 قبل إجراء الاختبار نفسه. فقط تأكد من إلقاء نظرة فاحصة على القيمة p عند التحقق من نتائجك.

الأخطاء 1 و 2

لقد مر وقت طويل حتى أن الأخطاء التي يمكن أن تحدث عند استخدام مقياس الأهمية الإحصائية قد تم تسميتها بأسمائها الخاصة.

أخطاء النوع 1

كما ذكرنا سابقًا، القيمة p البالغة 0.05 تعني أن هناك احتمالًا بنسبة 5% أن تكون الفرضية الصفرية صحيحة. إذا لم تقم بذلك، فسوف ترتكب الخطأ رقم 1. تشير النتائج إلى أن موقع الويب الجديد الخاص بك قد أدى إلى زيادة معدلات التحويل، ولكن هناك احتمال بنسبة 5٪ أنه لم يحدث ذلك.

أخطاء النوع 2

هذا الخطأ هو عكس الخطأ 1: فأنت تقبل الفرضية الصفرية عندما تكون خاطئة. على سبيل المثال، تخبرك نتائج الاختبار أن التغييرات التي تم إجراؤها على الموقع لم تأت بأي تحسينات، بينما كانت هناك تغييرات. ونتيجة لذلك، تفوت فرصة تحسين أدائك.

يعد هذا الخطأ شائعًا في الاختبارات التي يكون فيها حجم العينة غير كافٍ، لذا تذكر: كلما كانت العينة أكبر، كانت النتيجة أكثر موثوقية.

خاتمة

ربما لا يوجد مصطلح يحظى بشعبية كبيرة بين الباحثين مثل الأهمية الإحصائية. عندما لا تكون نتائج الاختبار ذات دلالة إحصائية، فإن العواقب تتراوح بين زيادة معدلات التحويل إلى انهيار الشركة.

وبما أن المسوقين يستخدمون هذا المصطلح عند تحسين مواردهم، فأنت بحاجة إلى معرفة ما يعنيه هذا المصطلح حقًا. قد تختلف ظروف الاختبار، ولكن حجم العينة ومعايير النجاح مهمة دائمًا. تذكر هذا.

ويتم اختبار الفرضيات باستخدام التحليل الإحصائي. تم العثور على أهمية إحصائية باستخدام القيمة P، والتي تتوافق مع احتمالية حدث معين على افتراض أن بعض العبارات (فرضية العدم) صحيحة. إذا كانت قيمة P أقل من مستوى محدد من الأهمية الإحصائية (عادة 0.05)، يمكن للمجرب أن يستنتج بأمان أن الفرضية الصفرية خاطئة وينتقل إلى النظر في الفرضية البديلة. باستخدام اختبار الطالب، يمكنك حساب القيمة P وتحديد الأهمية لمجموعتين من البيانات.

خطوات

الجزء 1

إعداد التجربة

    حدد فرضيتك.الخطوة الأولى في تقييم الأهمية الإحصائية هي اختيار السؤال الذي تريد الإجابة عليه وصياغة فرضية. الفرضية عبارة عن بيان حول البيانات التجريبية وتوزيعها وخصائصها. في أي تجربة، هناك فرضية العدم وفرضية بديلة. بشكل عام، سيتعين عليك مقارنة مجموعتين من البيانات لتحديد ما إذا كانت متشابهة أم مختلفة.

    • تنص الفرضية الصفرية (H 0) عادةً على عدم وجود فرق بين مجموعتين من البيانات. على سبيل المثال: الطلاب الذين قرأوا المادة قبل الفصل لا يحصلون على درجات أعلى.
    • الفرضية البديلة (H a) هي عكس الفرضية الصفرية وهي عبارة تحتاج إلى دعم بالبيانات التجريبية. على سبيل المثال: الطلاب الذين قرأوا المادة قبل الفصل يحصلون على درجات أعلى.
  1. قم بتعيين مستوى الأهمية لتحديد مدى اختلاف توزيع البيانات عن الطبيعي حتى يتم اعتباره نتيجة مهمة. مستوى الأهمية (ويسمى أيضًا ألفا (\displaystyle \alpha )-level) هو الحد الذي تحدده للأهمية الإحصائية. إذا كانت القيمة P أقل من أو تساوي مستوى الأهمية، تعتبر البيانات ذات دلالة إحصائية.

    حدد المعيار الذي ستستخدمه:من جانب واحد أو على الوجهين. أحد الافتراضات في اختبار الطالب هو أن البيانات يتم توزيعها بشكل طبيعي. التوزيع الطبيعي هو منحنى على شكل جرس مع أكبر عدد ممكن من النتائج في منتصف المنحنى. اختبار t للطالب هو طريقة رياضية لاختبار البيانات التي تسمح لك بتحديد ما إذا كانت البيانات تقع خارج التوزيع الطبيعي (أكثر أو أقل أو في "ذيول" المنحنى).

    • إذا لم تكن متأكدًا مما إذا كانت البيانات أعلى أو أقل من قيم مجموعة التحكم، فاستخدم اختبارًا ثنائي الطرف. سيسمح لك ذلك بتحديد الأهمية في كلا الاتجاهين.
    • إذا كنت تعرف الاتجاه الذي قد تقع فيه البيانات خارج التوزيع الطبيعي، فاستخدم اختبارًا أحادي الطرف. في المثال أعلاه، نتوقع زيادة درجات الطلاب، لذلك يمكن استخدام اختبار أحادي الطرف.
  2. تحديد حجم العينة باستخدام القوة الإحصائية.القوة الإحصائية للدراسة هي احتمالية الحصول على النتيجة المتوقعة، بالنظر إلى حجم العينة. عتبة الطاقة المشتركة (أو β) هي 80%. قد يكون تحليل القوة الإحصائية دون أي بيانات مسبقة أمرًا صعبًا لأنه يتطلب بعض المعلومات حول المتوسطات المتوقعة في كل مجموعة من البيانات وانحرافاتها المعيارية. استخدم حاسبة تحليل الطاقة عبر الإنترنت لتحديد حجم العينة الأمثل لبياناتك.

    • عادة، يقوم الباحثون بإجراء دراسة تجريبية صغيرة توفر بيانات لتحليل القوة الإحصائية وتحدد حجم العينة اللازم لدراسة أكبر وأكثر اكتمالا.
    • إذا لم تتمكن من إجراء دراسة تجريبية، فحاول تقدير المتوسطات المحتملة بناءً على الأدبيات ونتائج الأشخاص الآخرين. قد يساعدك هذا في تحديد حجم العينة الأمثل.

    الجزء 2

    حساب الانحراف المعياري
    1. اكتب صيغة الانحراف المعياري.يوضح الانحراف المعياري مدى الانتشار الموجود في البيانات. يسمح لك باستنتاج مدى قرب البيانات التي تم الحصول عليها من عينة معينة. للوهلة الأولى، تبدو الصيغة معقدة للغاية، لكن التوضيحات الواردة أدناه ستساعدك على فهمها. الصيغة هي كما يلي: s = √∑((x i – μ) 2 /(N – 1)).

      • ق - الانحراف المعياري.
      • تشير العلامة ∑ إلى ضرورة إضافة جميع البيانات التي تم الحصول عليها من العينة؛
      • x i يتوافق مع القيمة i، أي نتيجة منفصلة تم الحصول عليها؛
      • μ هو متوسط ​​القيمة لمجموعة معينة؛
      • N هو العدد الإجمالي للبيانات في العينة.
    2. أوجد المتوسط ​​في كل مجموعة.لحساب الانحراف المعياري، يجب عليك أولاً العثور على المتوسط ​​لكل مجموعة دراسية. تتم الإشارة إلى القيمة المتوسطة بالحرف اليوناني μ (mu). للعثور على المتوسط، ما عليك سوى إضافة جميع القيم الناتجة وتقسيمها على كمية البيانات (حجم العينة).

      • على سبيل المثال، للعثور على متوسط ​​الدرجات لمجموعة من الطلاب الذين يدرسون قبل الفصل الدراسي، فكر في مجموعة بيانات صغيرة. للتبسيط، نستخدم مجموعة من خمس نقاط: 90، 91، 85، 83 و94.
      • لنجمع كل القيم معًا: 90 + 91 + 85 + 83 + 94 = 443.
      • دعونا نقسم المجموع على عدد القيم، N = 5: 443/5 = 88.6.
      • وبذلك يكون المعدل لهذه المجموعة 88.6.
    3. اطرح كل قيمة تم الحصول عليها من المتوسط.والخطوة التالية هي حساب الفرق (x i - μ). للقيام بذلك، قم بطرح كل قيمة تم الحصول عليها من القيمة المتوسطة التي تم العثور عليها. في مثالنا، نحتاج إلى إيجاد خمسة اختلافات:

      • (90 – 88.6)، (91 – 88.6)، (85 – 88.6)، (83 – 88.6)، (94 – 88.6).
      • ونتيجة لذلك، نحصل على القيم التالية: 1.4، 2.4، -3.6، -5.6 و5.4.
    4. قم بتربيع كل قيمة تم الحصول عليها وأضفها معًا.يجب تربيع كل الكميات التي تم العثور عليها للتو. ستؤدي هذه الخطوة إلى إزالة كافة القيم السلبية. إذا كان لا يزال لديك أرقام سالبة بعد هذه الخطوة، فقد نسيت تربيعها.

      • في مثالنا، نحصل على 1.96، و5.76، و12.96، و31.36، و29.16.
      • نجمع القيم الناتجة: 1.96 + 5.76 + 12.96 + 31.36 + 29.16 = 81.2.
    5. قسّم على حجم العينة ناقص 1.في الصيغة، يتم تقسيم المجموع على N - 1 لأننا لا نأخذ في الاعتبار عموم السكان، ولكننا نأخذ عينة من جميع الطلاب للتقييم.

      • اطرح: ن – 1 = 5 – 1 = 4
      • اقسم: 81.2/4 = 20.3
    6. خذ الجذر التربيعي.بعد قسمة المجموع على حجم العينة ناقص واحد، خذ الجذر التربيعي للقيمة التي تم العثور عليها. هذه هي الخطوة الأخيرة في حساب الانحراف المعياري. هناك برامج إحصائية تقوم بعد إدخال البيانات الأولية بإجراء جميع الحسابات اللازمة.

      • في مثالنا، الانحراف المعياري لدرجات الطلاب الذين قرأوا المادة قبل الفصل هو s =√20.3 = 4.51.

    الجزء 3

    تحديد الأهمية
    1. حساب التباين بين مجموعتي البيانات.قبل هذه الخطوة، نظرنا إلى مثال لمجموعة واحدة فقط من البيانات. إذا كنت تريد المقارنة بين مجموعتين، فمن الواضح أنه ينبغي عليك أخذ البيانات من كلا المجموعتين. احسب الانحراف المعياري للمجموعة الثانية من البيانات، ثم أوجد التباين بين المجموعتين التجريبيتين. يتم حساب التباين باستخدام الصيغة التالية: s d = √((s 1 /N 1) + (s 2 /N 2)).

لقد أصبحت الإحصائيات منذ فترة طويلة جزءًا لا يتجزأ من الحياة. يواجهها الناس في كل مكان. استنادا إلى الإحصاءات، يتم استخلاص استنتاجات حول مكان وما هي الأمراض الشائعة، وما هو أكثر طلبا في منطقة معينة أو بين شريحة معينة من السكان. وحتى البرامج السياسية للمرشحين للحكومة تقوم على هذا الأساس. كما أنها تستخدم من قبل سلاسل البيع بالتجزئة عند شراء السلع، ويسترشد المصنعون بهذه البيانات في عروضهم.

تلعب الإحصائيات دورًا مهمًا في حياة المجتمع وتؤثر على كل فرد حتى في الأشياء الصغيرة. على سبيل المثال، إذا كان معظم الناس يفضلون الألوان الداكنة في الملابس في مدينة أو منطقة معينة، فسيكون من الصعب للغاية العثور على معطف واق من المطر أصفر فاتح مع طباعة الأزهار في منافذ البيع بالتجزئة المحلية. ولكن ما هي الكميات التي تتكون منها هذه البيانات والتي لها مثل هذا التأثير؟ على سبيل المثال، ما الذي يشكل "الأهمية الإحصائية"؟ ما المقصود بالضبط بهذا التعريف؟

ما هذا؟

يتكون الإحصاء كعلم من مزيج من الكميات والمفاهيم المختلفة. أحدها هو مفهوم "الأهمية الإحصائية". هذا هو اسم قيمة المتغيرات التي يكون فيها احتمال ظهور مؤشرات أخرى ضئيلًا.

على سبيل المثال، 9 من كل 10 أشخاص يرتدون أحذية مطاطية على أقدامهم أثناء المشي في الصباح لقطف الفطر في غابة الخريف بعد ليلة ممطرة. احتمال أن يرتدي 8 منهم في وقت ما أحذية بدون كعب من القماش أمر ضئيل. وبالتالي، في هذا المثال بالذات، الرقم 9 هو القيمة التي تسمى "الأهمية الإحصائية".

وبناء على ذلك، إذا قمنا بتطوير المثال العملي التالي، تقوم متاجر الأحذية بشراء الأحذية المطاطية بكميات أكبر قرب نهاية موسم الصيف مقارنة بالأوقات الأخرى من العام. وبالتالي فإن حجم القيمة الإحصائية له تأثير على الحياة اليومية.

وبطبيعة الحال، في الحسابات المعقدة، على سبيل المثال، عند التنبؤ بانتشار الفيروسات، يتم أخذ عدد كبير من المتغيرات في الاعتبار. لكن جوهر تحديد مؤشر مهم للبيانات الإحصائية مشابه، بغض النظر عن مدى تعقيد الحسابات وعدد القيم غير الثابتة.

كيف يتم حسابها؟

يتم استخدامها عند حساب قيمة مؤشر "الأهمية الإحصائية" للمعادلة. وهذا يعني أنه يمكن القول أنه في هذه الحالة يتم تحديد كل شيء عن طريق الرياضيات. أبسط خيار حسابي هو سلسلة من العمليات الحسابية، والتي تتضمن المعلمات التالية:

  • نوعان من النتائج التي تم الحصول عليها من الدراسات الاستقصائية أو دراسة البيانات الموضوعية، على سبيل المثال، المبالغ التي يتم الشراء من أجلها، يشار إليها بـ أ و ب؛
  • مؤشر لكلا المجموعتين - ن؛
  • قيمة حصة العينة المدمجة - ع؛
  • مفهوم "الخطأ المعياري" - SE.

والخطوة التالية هي تحديد مؤشر الاختبار العام - t، ومقارنة قيمته بالرقم 1.96. 1.96 هو متوسط ​​القيمة التي تمثل نطاق 95% وفقًا لوظيفة توزيع t للطالب.

كثيرا ما يطرح السؤال ما هو الفرق بين قيمتي n و p. يمكن توضيح هذا الفارق الدقيق بسهولة بمساعدة مثال. لنفترض أننا نحسب الأهمية الإحصائية للولاء لمنتج أو علامة تجارية للرجال والنساء.

في هذه الحالة، ستتبع تسميات الحروف ما يلي:

  • ن - عدد المجيبين؛
  • ع - عدد الأشخاص الراضين عن المنتج.

سيتم تحديد عدد النساء اللاتي تمت مقابلتهن في هذه الحالة بـ n1. وبناء على ذلك، هناك رجال n2. سيكون للرقمين "1" و"2" للرمز p نفس المعنى.

إن مقارنة مؤشر الاختبار بمتوسط ​​قيم جداول حساب الطالب تصبح ما يسمى "الدلالة الإحصائية".

ما المقصود بالتحقق؟

يمكن دائما التحقق من نتائج أي عملية حسابية رياضية، ويتم تدريس ذلك للأطفال في المدرسة الابتدائية. ومن المنطقي الافتراض أنه بما أن المؤشرات الإحصائية يتم تحديدها باستخدام سلسلة من الحسابات، فإنه يتم فحصها.

ومع ذلك، فإن اختبار الأهمية الإحصائية لا يتعلق فقط بالرياضيات. تتعامل الإحصائيات مع عدد كبير من المتغيرات والاحتمالات المتنوعة، والتي لا يمكن حسابها دائمًا. وهذا هو، إذا عدنا إلى مثال الأحذية المطاطية الواردة في بداية المقالة، فإن البناء المنطقي للبيانات الإحصائية التي سيعتمد عليها مشتري البضائع للمتاجر قد يتعطل بسبب الطقس الجاف والحار، وهو أمر غير معتاد بالنسبة لـ خريف. ونتيجة لهذه الظاهرة، سينخفض ​​عدد الأشخاص الذين يشترون الأحذية المطاطية، وستتكبد منافذ البيع بالتجزئة خسائر. الصيغة الرياضية، بطبيعة الحال، ليست قادرة على التنبؤ بشذوذ الطقس. هذه اللحظة تسمى "خطأ".

يتم أخذ احتمالية حدوث مثل هذه الأخطاء في الاعتبار عند التحقق من مستوى الأهمية المحسوبة. وهو يأخذ في الاعتبار كلاً من المؤشرات المحسوبة ومستويات الأهمية المقبولة، بالإضافة إلى القيم التي تسمى تقليديًا الفرضيات.

ما هو مستوى الأهمية؟

يتم تضمين مفهوم "المستوى" في المعايير الرئيسية للأهمية الإحصائية. يتم استخدامه في الإحصاء التطبيقي والعملي. هذا نوع من القيمة يأخذ في الاعتبار احتمالية حدوث انحرافات أو أخطاء محتملة.

يعتمد المستوى على تحديد الاختلافات في العينات الجاهزة ويسمح لنا بتحديد أهميتها أو، على العكس من ذلك، عشوائيتها. لا يحتوي هذا المفهوم على معاني رقمية فحسب، بل يحتوي أيضًا على عمليات فك تشفير فريدة من نوعها. يشرحون كيفية فهم القيمة، ويتم تحديد المستوى نفسه من خلال مقارنة النتيجة مع المؤشر المتوسط، وهذا يكشف عن درجة موثوقية الاختلافات.

وهكذا يمكننا أن نتصور مفهوم المستوى ببساطة - فهو مؤشر لخطأ أو خطأ مقبول ومحتمل في الاستنتاجات المستخلصة من البيانات الإحصائية التي تم الحصول عليها.

ما هي مستويات الأهمية المستخدمة؟

تعتمد الأهمية الإحصائية لمعاملات احتمال الخطأ في الممارسة العملية على ثلاثة مستويات أساسية.

ويعتبر المستوى الأول هو الحد الذي تكون عنده القيمة 5%. أي أن احتمال الخطأ لا يتجاوز مستوى الأهمية 5%. وهذا يعني أن الثقة في الاستنتاجات الخالية من العيوب والخالية من الأخطاء التي تم التوصل إليها على أساس بيانات البحث الإحصائي تبلغ 95٪.

المستوى الثاني هو عتبة 1٪. وبناء على ذلك، يعني هذا الرقم أنه يمكن الاسترشاد بالبيانات التي تم الحصول عليها خلال الحسابات الإحصائية بثقة تبلغ 99٪.

المستوى الثالث 0.1%. وبهذه القيمة، فإن احتمال الخطأ يساوي جزءًا من النسبة المئوية، أي أنه يتم التخلص من الأخطاء عمليًا.

ما هي الفرضية في الإحصاء؟

وتنقسم الأخطاء كمفهوم إلى اتجاهين فيما يتعلق بقبول أو رفض الفرضية الصفرية. الفرضية هي المفهوم الذي تكمن وراءه، حسب التعريف، مجموعة من البيانات أو البيانات الأخرى. أي وصف للتوزيع الاحتمالي لشيء يتعلق بموضوع المحاسبة الإحصائية.

هناك فرضيتان في الحسابات البسيطة: الصفر والبديل. والفرق بينهما هو أن الفرضية الصفرية تقوم على فكرة عدم وجود فروق جوهرية بين العينات المشاركة في تحديد الدلالة الإحصائية، والفرضية البديلة عكس ذلك تماما. أي أن الفرضية البديلة تعتمد على وجود اختلاف معنوي في بيانات العينة.

ما هي الأخطاء؟

تعتمد الأخطاء كمفهوم في الإحصاء بشكل مباشر على قبول فرضية أو أخرى على أنها صحيحة. ويمكن تقسيمها إلى اتجاهين أو نوعين:

  • النوع الأول يرجع إلى قبول الفرضية الصفرية والتي تبين بطلانها؛
  • والثاني سببه اتباع البديل.

يسمى النوع الأول من الخطأ بالإيجابية الكاذبة ويحدث كثيرًا في جميع المجالات التي يتم فيها استخدام البيانات الإحصائية. وعليه فإن الخطأ من النوع الثاني يسمى بالسلبية الكاذبة.

ما هو الانحدار المستخدم في الإحصاء؟

تكمن الأهمية الإحصائية للانحدار في أنه يمكن استخدامه لتحديد مدى توافق نموذج التبعيات المختلفة المحسوبة بناءً على البيانات مع الواقع؛ يسمح لك بتحديد مدى كفاية أو نقص العوامل التي يجب مراعاتها واستخلاص النتائج.

يتم تحديد قيمة الانحدار من خلال مقارنة النتائج بالبيانات المدرجة في جداول Fisher. أو باستخدام تحليل التباين. تعد مؤشرات الانحدار مهمة للدراسات والحسابات الإحصائية المعقدة التي تتضمن عددًا كبيرًا من المتغيرات والبيانات العشوائية والتغيرات المحتملة.

يولي المحللون المحترفون الكثير من الاهتمام للأهمية الإحصائية، وهذا أمر جيد. ومع ذلك، فإن الأهمية الإحصائية ليست سوى جانب واحد من التحليل الجيد.

اختبار للأهمية الإحصائيةيتضمن وضع عدد من الافتراضات وتحديد احتمالية حدوث النتائج التي تم الحصول عليها إذا كانت الافتراضات صحيحة. سيساعد اختبار الأهمية الإحصائية على التأكد من أن البيانات ليست مضللة. وسوف تظهر من وجهة نظر رياضية ما إذا كان الفرق كبيرا بما فيه الكفاية. في بعض الأحيان تكون الاختلافات التي تبدو مهمة ليست كذلك، وفي بعض الأحيان يتبين أن الاختلافات الصغيرة مهمة. سيضمن الاختبار الإحصائي صحة الاستنتاجات المستخلصة.

تم إنشاء نظام كامل على أساس الاختبار. في عالم الأعمال يُعرف هذا النهج "اختبر وتعلم" (اختبار وتعلم)، يغطي المفاهيم التجريبية الأساسية التي يتم تدريسها في دورات الإحصاء. في بيئة الاختبار والتعلم، تم تصميم التجربة بحيث يمكنك قياس تأثيرات استخدام خيار واحد أو أكثر وتحديد الخيار الذي سيعمل بشكل أفضل.