توضیحات
ABSTRACT
There have been many changes in statistical theory in the past 30 years, including increased evidence that non-robust methods may fail to detect important results. The statistical advice available to software engineering researchers needs to be updated to address these issues. This paper aims both to explain the new results in the area of robust analysis methods and to provide a large-scale worked example of the new methods. We summarise the results of analyses of the Type 1 error efficiency and power of standard parametric and non-parametric statistical tests when applied to non-normal data sets. We identify parametric and non-parametric methods that are robust to non-normality. We present an analysis of a large-scale software engineering experiment to illustrate their use. We illustrate the use of kernel density plots, and parametric and non-parametric methods using four different software engineering data sets. We explain why the methods are necessary and the rationale for selecting a specific analysis. We suggest using kernel density plots rather than box plots to visualise data distributions. For parametric analysis, we recommend trimmed means, which can support reliable tests of the differences between the central location of two or more samples. When the distribution of the data differs among groups, or we have ordinal scale data, we recommend non-parametric methods such as Cliff’s δ or a robust rank-based ANOVA-like method.
INTRODUCTION
In 1996, the first author of this paper wrote a book on software metrics (Kitchenham 1996). In the book chapter addressing statistical methods, her advice was to use box plots to visualize data. Box plots are based on the median and fourth statistics (which are similar to quartiles), so are more robust than any graphics based on means. If data were non-normal, she advised the use of non-parametric methods such as Kruskal-Wallis rank tests to compare multiple samples. With more complicated designs she advised using analysis of variance methods (ANOVA) with transformations if necessary. Other software engineering researchers preferred to avoid the non-parametric tests relying on the Central Limit Theorem, which proves that for any set of N identically distributed variables, the mean of the variable values will be approximately normal, with mean, μ, and variance, σ 2/N.
چکیده
تغییرات زیادی در نظریه آماری در 30 سال گذشته رخ داده است، از جمله شواهد افزایش یافته است که روش های غیرمستقیم ممکن است برای شناسایی نتایج مهم نتوانند. مشاوره آماری در دسترس برای محققان مهندسی نرم افزار باید برای به روز رسانی این مسائل به روز شود. این مقاله با هدف توضیح دادن نتایج جدید در زمینه روش های تحلیل قوی و ارائه یک نمونه کار بزرگ در زمینه روش های جدید است. ما نتایج تجزیه و تحلیل خطای نوع 1 و قدرت آزمون های استاندارد پارامتری و غیر پارامتری را در صورت استفاده از مجموعه داده های غیر عادی خلاصه می کنیم. ما روشهای پارامتریک و غیر پارامتری را که به غیر غیر معمول بودن قوی هستند شناسایی می کنیم. ما تجزیه و تحلیل یک آزمایشگاه مهندسی نرم افزار در مقیاس بزرگ را برای نشان دادن استفاده از آنها ارائه می کنیم. ما استفاده از توطئه های تراکم هسته، و روش های پارامتری و غیر پارامتری با استفاده از چهار مجموعه داده های مختلف مهندسی نرم افزار را نشان می دهد. ما توضیح می دهیم که چرا روش ها ضروری و منطق انتخاب یک تحلیل خاص است. ما پیشنهاد می کنیم به جای توطئه های جعبه ای برای استفاده از توزیع داده ها از توابع توده دانه استفاده کنیم. برای تجزیه و تحلیل پارامترها، ما توصیه می کنیم به معنی کاهش، که می تواند آزمون قابل اعتماد از تفاوت بین محل مرکزی دو یا چند نمونه پشتیبانی کند. هنگامی که توزیع داده ها در بین گروه ها متفاوت است یا ما مقادیر مقیاس های مقطع داریم، توصیه می کنیم روش های غیر پارامتری مانند δ کلیف یا روش ANOVA مبتنی بر قدرتمند باشد.
مقدمه
در سال 1996 اولین نویسنده این مقاله کتابی را درباره معیارهای نرم افزار (Kitchenham 1996) نوشت. در فصل کتاب در مورد روش های آماری، توصیه او به استفاده از توطئه جعبه برای تجسم داده ها بود. توطئه های جعبه بر پایه آمار متوسط و چهارم (که شبیه به کوارتل ها هستند)، بنابراین قوی تر از هر گرافیک بر اساس ابزار است. اگر داده ها غیر عادی بود، او از استفاده از روش های غیر پارامتری مانند آزمون های رتبه Kruskal-Wallis برای مقایسه چندین نمونه توصیه کرد. با طرح های پیچیده تر، او با استفاده از تجزیه و تحلیل روش های واریانس (ANOVA) با تغییرات در صورت لزوم توصیه کرد. محققان دیگر مهندسی نرم افزار ترجیح دادند از تست های غیر پارامتری بر اساس تئوری محدودیت مرکزی اجتناب کنند، که ثابت می کند که برای هر مجموعه ای از متغیرهای توزیع شده یکسان، میانگین مقادیر متغیر، با میانگین، μ و واریانس تقریبا طبیعی است. σ 2 / N
Year: 2016
Publisher : Springer
By : Barbara Kitchenham · Lech Madeyski · David Budgen · Jacky Keung · Pearl Brereton · Stuart Charters · Shirley Gibbs · Amnart Pohthong
File Information: persian Language/ 52 Page / size: 1.70 KB
Only site members can download free of charge after registering and adding to the cart
سال : 1395
ناشر : Springer
کاری از : باربارا Kitchenham · Lech Madeyski · دیوید Budgen · جکی Keung · مروارید Brereton · استوارت چارتز · Shirley Gibbs · Amnart Pohthong
اطلاعات فایل : زبان فارسی / 52 صفحه / حجم : KB 1.70
نقد و بررسیها
هنوز بررسیای ثبت نشده است.