Калькулятор статистики онлайн
Обновлено: май 2026Вычислите среднее арифметическое, медиану, моду, дисперсию, стандартное отклонение, квартили Q1/Q3, межквартильный размах и другие описательные статистики по вашему набору данных мгновенно.
Что такое описательная статистика и зачем она нужна
Описательная статистика (descriptive statistics) — раздел математической статистики, посвящённый методам сбора, организации, обобщения и представления данных. В отличие от статистики вывода (inferential statistics), описательная статистика не делает предсказаний и не проверяет гипотезы — она описывает и суммирует свойства имеющейся выборки с помощью числовых характеристик и графиков.
Описательная статистика — фундаментальный инструмент анализа данных, который применяется повсюду: в науке (обработка экспериментальных результатов), в бизнесе (анализ продаж, KPI, опросов клиентов), в медицине (описание клинических данных), в образовании (анализ успеваемости, результатов тестов), в социологии (обработка анкет), в спорте (статистика игроков) и в повседневной жизни (бюджет, расход топлива, температура).
Наш онлайн-калькулятор статистики позволяет мгновенно вычислить все основные описательные характеристики набора данных: среднее арифметическое, медиану, моду, размах, дисперсию (генеральную и выборочную), стандартное отклонение (σ и s), квартили Q1 и Q3, межквартильный размах (IQR), минимум и максимум. Просто введите числа через запятую, пробел или перенос строки — и получите полный статистический анализ.
Среднее арифметическое — формула, свойства и примеры
Среднее арифметическое (arithmetic mean, обозначается x̄ для выборки или μ для генеральной совокупности) — наиболее распространённая мера центральной тенденции. Формула:
x̄ = (x₁ + x₂ + … + xₙ) / n = ∑xᵢ / n
Среднее арифметическое минимизирует сумму квадратов отклонений от себя — это делает его оптимальной оценкой центра распределения в смысле метода наименьших квадратов. Именно поэтому среднее так широко используется в регрессионном анализе, контроле качества и финансовой аналитике.
Пример. Оценки студента за семестр: 4, 5, 3, 5, 4, 5, 4, 3, 5, 4. Среднее = (4 + 5 + 3 + 5 + 4 + 5 + 4 + 3 + 5 + 4) / 10 = 42 / 10 = 4,2. Это «средний балл» студента.
Свойства среднего арифметического: (1) сумма отклонений всех значений от среднего равна нулю: ∑(xᵢ − x̄) = 0; (2) если ко всем значениям прибавить константу c, среднее увеличится на c; (3) если все значения умножить на константу c, среднее тоже умножится на c; (4) среднее чувствительно к выбросам — одно аномально большое или малое значение может существенно сдвинуть среднее.
Медиана — определение, формула, преимущества
Медиана (Me) — значение, которое делит упорядоченную выборку на две равные половины. Для нахождения медианы необходимо отсортировать данные по возрастанию, а затем:
- Если n нечётное: Me = x₍(n+1)/2₎ — средний элемент.
- Если n чётное: Me = (x₍n/2₎ + x₍n/2+1₎) / 2 — среднее двух средних элементов.
Пример. Данные: 2, 5, 8, 11, 15. n = 5 (нечётное), медиана = x₃ = 8. Данные: 3, 7, 9, 12. n = 4 (чётное), медиана = (7 + 9) / 2 = 8.
Ключевое преимущество медианы — устойчивость к выбросам (робастность). Если в наборе зарплат 30 000, 35 000, 40 000, 45 000, 500 000, среднее = 130 000, а медиана = 40 000. Медиана точнее отражает «типичную» зарплату. Именно поэтому при описании доходов населения, цен на недвижимость и других распределений с длинным хвостом используют медиану, а не среднее.
В медицине медиана выживаемости — стандартный показатель эффективности лечения. В маркетинге медианное время на сайте — более информативная метрика, чем среднее (которое искажается единичными долгими сессиями). В контроле качества медиана используется в построении медианных контрольных карт.
Мода — наиболее частое значение
Мода (Mo) — значение, которое встречается в выборке чаще всего. Если все значения уникальны, говорят, что моды нет. Распределение может быть:
- Унимодальным — одна мода (одна вершина на гистограмме).
- Бимодальным — две моды (две вершины).
- Мультимодальным — три и более мод.
Пример. Данные: 2, 3, 3, 5, 7, 7, 7, 9. Мода = 7 (встречается 3 раза). Данные: 1, 2, 3, 4, 5 — моды нет (все частоты равны 1).
Мода — единственная мера центральной тенденции, применимая к категориальным (номинальным) данным. Например, если опрос о любимом цвете дал результаты: красный (30), синий (45), зелёный (25), мода = синий. Среднее и медиана для таких данных не определены.
В розничной торговле мода используется для определения самого популярного размера одежды, самого продаваемого товара, самого частого дня покупок. В демографии — для определения наиболее распространённого возраста в населении.
Размах, дисперсия и стандартное отклонение — меры рассеивания
Меры центральной тенденции (среднее, медиана, мода) описывают «центр» данных, но не говорят о том, насколько данные разбросаны. Для оценки разброса используются меры рассеивания (variability).
Размах (Range, R) — простейшая мера рассеивания: R = xₘₐₓ − xₘᵢₙ. Размах легко вычислить, но он использует только два крайних значения и полностью зависит от выбросов.
Дисперсия (Variance) — средний квадрат отклонений от среднего. Генеральная дисперсия:
σ² = ∑(xᵢ − μ)² / N
Выборочная дисперсия (с поправкой Бесселя):
s² = ∑(xᵢ − x̄)² / (n − 1)
Поправка Бесселя (деление на n − 1 вместо n) корректирует систематическое занижение при оценке дисперсии генеральной совокупности по выборке. Число n − 1 называется количеством степеней свободы.
Стандартное отклонение (Standard Deviation) — квадратный корень из дисперсии. Генеральное: σ = √(σ²), выборочное: s = √(s²). В отличие от дисперсии, стандартное отклонение измеряется в тех же единицах, что и исходные данные, поэтому его легче интерпретировать.
Пример. Данные: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5. Среднее = 5,2. Сумма квадратов отклонений = (4−5,2)² + (8−5,2)² + … = 49,6. Генеральная дисперсия = 49,6 / 10 = 4,96. Выборочная дисперсия = 49,6 / 9 ≈ 5,51. Генеральное σ ≈ 2,227. Выборочное s ≈ 2,348.
Квартили Q1, Q3 и межквартильный размах IQR
Квартили — три значения, которые делят упорядоченный набор данных на четыре равные части. Q1 (первый квартиль, 25-й перцентиль) — значение, ниже которого находится 25% данных. Q2 (второй квартиль) совпадает с медианой. Q3 (третий квартиль, 75-й перцентиль) — значение, ниже которого 75% данных.
Существует несколько методов вычисления квартилей (метод Туки, метод Мура и Маккейба, линейная интерполяция). Наш калькулятор использует метод линейной интерполяции, совместимый с Excel и Google Sheets: Q(p) = x₍⌊i⌋₎ + (i − ⌊i⌋) × (x₍⌈i⌉₎ − x₍⌊i⌋₎), где i = (n − 1) × p.
Межквартильный размах (IQR, Interquartile Range) = Q3 − Q1 — характеризует разброс центральных 50% данных. IQR устойчив к выбросам (в отличие от размаха R) и широко используется для обнаружения аномальных значений.
Правило 1,5×IQR для выбросов. Нижняя граница = Q1 − 1,5 × IQR. Верхняя граница = Q3 + 1,5 × IQR. Значения за пределами этих границ считаются потенциальными выбросами. Этот метод, предложенный Джоном Тьюки, является основой «ящика с усами» (box plot) — одного из самых информативных графических представлений в статистике.
Пример. Данные (уже отсортированы): 2, 4, 6, 8, 10, 12, 14, 16. Q1 = 5 (интерполяция между 4 и 6), Q3 = 13 (интерполяция между 12 и 14). IQR = 13 − 5 = 8. Нижняя граница = 5 − 12 = −7. Верхняя = 13 + 12 = 25. Все значения внутри границ — выбросов нет.
Правило трёх сигм и нормальное распределение
Правило трёх сигм (three-sigma rule, правило 68–95–99,7) — эмпирическое правило для нормального (гауссова) распределения, устанавливающее связь между стандартным отклонением и долей данных, попадающих в определённый интервал:
| Интервал | Доля данных | Описание |
|---|---|---|
| [μ − σ; μ + σ] | ≈ 68,27% | Примерно две трети данных |
| [μ − 2σ; μ + 2σ] | ≈ 95,45% | Почти все данные |
| [μ − 3σ; μ + 3σ] | ≈ 99,73% | Практически все данные |
Если значение выходит за пределы μ ± 3σ, его вероятность менее 0,27% — такое значение можно считать аномальным. Этот принцип лежит в основе статистического контроля качества (контрольные карты Шухарта), обнаружения мошенничества, фильтрации шумов в сигналах и многих других приложений.
Важно помнить: правило трёх сигм точно работает только для нормального распределения. Для произвольных распределений применяется неравенство Чебышёва: доля данных в интервале [μ − kσ; μ + kσ] составляет не менее 1 − 1/k² для любого k > 1. Например, в пределах 2σ гарантированно не менее 75% данных (по Чебышёву), а для нормального распределения — 95,45%.
Коэффициент вариации — сравнение изменчивости
Коэффициент вариации (CV, Coefficient of Variation) — относительная мера рассеивания, выраженная в процентах:
CV = (s / x̄) × 100%
Коэффициент вариации позволяет сравнивать изменчивость данных с разными масштабами. Например, стандартное отклонение зарплат (в рублях) и роста людей (в сантиметрах) нельзя сравнивать напрямую, но можно сравнить их CV. Общепринятая шкала: CV < 10% — слабая вариация, 10–25% — умеренная, > 25% — сильная.
В химическом и фармацевтическом анализе CV — стандартная мера воспроизводимости метода измерения. В финансах CV используется для оценки риска инвестиций: чем выше CV, тем выше относительный риск при той же доходности. В метрологии CV показывает точность прибора.
Описательная статистика в Excel и Python
Описательные статистики можно вычислить во множестве программных инструментов. В Microsoft Excel / Google Sheets доступны функции: СРЗНАЧ (AVERAGE) — среднее, МЕДИАНА (MEDIAN) — медиана, МОДА (MODE) — мода, ДИСП.Г (VAR.P) — генеральная дисперсия, ДИСП.В (VAR.S) — выборочная дисперсия, СТАНДОТКЛОН.Г (STDEV.P) — генеральное σ, СТАНДОТКЛОН.В (STDEV.S) — выборочное s, КВАРТИЛЬ (QUARTILE) — квартиль, МИН/МАКС — минимум/максимум.
В Python с библиотеками NumPy и pandas вычисление описательных статистик занимает одну строку: df.describe() для pandas DataFrame или np.mean(), np.median(), np.std(), np.var(), np.percentile() для массивов NumPy. Библиотека SciPy предоставляет дополнительные функции: scipy.stats.mode(), scipy.stats.iqr(), scipy.stats.describe() (полная описательная статистика одним вызовом).
В R базовые функции: mean(), median(), var(), sd(), quantile(), range(), summary() (последняя выводит минимум, Q1, медиану, среднее, Q3 и максимум одновременно — так называемую «пятичисловую сводку» плюс среднее).
Наш онлайн-калькулятор удобен тем, что не требует установки программного обеспечения — достаточно скопировать данные в текстовое поле и мгновенно получить все описательные статистики.
Применение описательной статистики на практике
Описательная статистика используется практически в каждой области знаний. Рассмотрим несколько примеров:
Образование. Средний балл ЕГЭ по региону, медианный балл класса, стандартное отклонение оценок (характеризует «ровность» подготовки группы). Если σ мало — ученики показали схожие результаты; если велико — разброс значительный.
Экономика. Средняя и медианная зарплата (медиана обычно ниже средней из-за правого перекоса распределения доходов), дисперсия доходности акций (мера инвестиционного риска), коэффициент вариации ВВП (стабильность экономики).
Медицина. Среднее артериальное давление в группе пациентов, стандартное отклонение уровня глюкозы (вариабельность — важный диагностический показатель), медианная продолжительность лечения, IQR массы тела новорождённых.
Контроль качества. Среднее и стандартное отклонение используются для построения контрольных карт Шухарта. Если значение выходит за пределы μ ± 3σ, процесс считается вышедшим из-под контроля. Коэффициент вариации используется для оценки стабильности производственного процесса.
Спорт. Средний результат спортсмена, медианное время круга, дисперсия бросков (стабильность). В баскетболе: среднее количество очков за игру, ассистов, подборов — всё это описательная статистика.
Таблица формул описательной статистики
| Показатель | Формула | Обозначение |
|---|---|---|
| Среднее арифметическое | ∑xᵢ / n | x̄, μ |
| Медиана | Средний элемент упорядоченного ряда | Me, Q2 |
| Мода | Наиболее частое значение | Mo |
| Размах | xₘₐₓ − xₘᵢₙ | R |
| Генеральная дисперсия | ∑(xᵢ − μ)² / N | σ² |
| Выборочная дисперсия | ∑(xᵢ − x̄)² / (n − 1) | s² |
| Генеральное ст. откл. | √(σ²) | σ |
| Выборочное ст. откл. | √(s²) | s |
| Q1 (25-й перцентиль) | Линейная интерполяция | Q1 |
| Q3 (75-й перцентиль) | Линейная интерполяция | Q3 |
| Межквартильный размах | Q3 − Q1 | IQR |
| Коэффициент вариации | (s / x̄) × 100% | CV |
Описательная статистика vs статистика вывода
Описательная статистика и статистика вывода — два фундаментальных раздела статистики, решающих разные задачи:
Описательная статистика отвечает на вопрос «что происходит с нашими данными?» Она суммирует и визуализирует имеющиеся данные с помощью мер центральной тенденции (среднее, медиана, мода), мер рассеивания (дисперсия, стандартное отклонение, IQR, размах) и графиков (гистограмма, ящик с усами, точечная диаграмма).
Статистика вывода (inferential statistics) отвечает на вопрос «что можно сказать о генеральной совокупности по выборке?» Она включает доверительные интервалы, проверку гипотез (t-тест, χ²-тест, ANOVA), регрессионный анализ, корреляцию. Статистика вывода невозможна без описательной — прежде чем проверять гипотезу, нужно описать данные.
Типичный workflow анализа данных начинается с описательной статистики: вычислить средние, дисперсии, построить гистограммы, проверить на выбросы (IQR-метод). Только после этого переходят к статистике вывода: проверяют гипотезы, строят модели, делают прогнозы. Пропускать этап описательной статистики — одна из самых распространённых ошибок начинающих аналитиков.
Источники
- Гмурман В. Е. «Теория вероятностей и математическая статистика» — классический учебник по математической статистике для вузов
- Кобзарь А. И. «Прикладная математическая статистика» — описательная статистика, критерии, таблицы распределений
- Walpole R. E. et al. «Probability & Statistics for Engineers and Scientists» — международный учебник по прикладной статистике
- ФИПИ — Федеральный институт педагогических измерений, демоверсии и спецификации ЕГЭ по математике 2026
- Tukey J. W. «Exploratory Data Analysis» (1977) — классическая работа о квартилях, IQR и ящиках с усами