У этого термина существуют и другие значения, см. Гистограмма.
Гистогра́мма в математической статистике — это один из графических методов исследования рядов распределения значений случайной величины.[B: 1]
Среди графических методов исследования рядов распределения указаны[1] следующие:
способ точек, (в результате которого получается точечная диаграмма);
способ прямоугольников (дающий ступенчатый многоугольник, столбчатую диаграмму, или гистограмму);
способ прямых (дающий многоугольник частот);
кривая сумм (изображение ряда из накопленных частот);
изображение наблюдённых значений случайной величины (по оси абсцисс откладывается их порядковый номер);
огива (значения случайной величины, полученные при наблюдении, располагаются в возрастающем порядке; по оси абсцисс откладывается их новый порядковый номер).
Ступенчатые многоугольники и многоугольники частот носят общее название многоугольников распределения. В качестве наиболее удобных указаны точечная диаграмма, ступенчатый многоугольник и многоугольник частот.[1]
Для двумерного случая вместо ряда распределения строится таблица распределения, и ей соответствующее графическое построение называют призмограммой.[1]
ГОСТ Р 50779.10-2000 предлагал следующие определения:
2.17 гистограмма Графическое представление распределения частот для количественного признака, образуемое соприкасающимися прямоугольниками, основаниями которых служат интервалы классов, а площади пропорциональны частотам этих классов
2.18 столбиковая диаграмма Графическое представление распределения частот для дискретной случайной величины, образуемое набором столбцов равной ширины, высоты которых пропорциональны частотам[D: 1]
Альтернативное определение
Пусть — выборка из некоторого распределения. Определим разбиение числовой прямой . Пусть
— число элементов выборки, попавших в -й интервал. Тогда кусочно-постоянная функция , имеющая вид:
При выполнении чертежа по способу прямоугольников горизонтальная ось разбивается на равные отрезки, соответствующие разрядам; на этих отрезках, как на основаниях, строятся
прямоугольники с высотой, пропорциональной частоте данного разряда.[4]
Опишем эту процедуру более детально. Сначала множество значений, которое может принимать элемент выборки, разбивается на несколько разрядов (bins). Чаще всего эти интервалы берут одинаковыми, но это не является строгим требованием. Эти интервалы откладываются на горизонтальной оси, затем над каждым рисуется прямоугольник. Если все интервалы были одинаковыми, то высота каждого прямоугольника пропорциональна числу элементов выборки, попадающих в соответствующий интервал. Если интервалы разные, то высота прямоугольника выбирается таким образом, чтобы его площадь была пропорциональна числу элементов выборки, которые попали в этот интервал.
Существенным для построения гистограммы является выбор оптимального разбиения, поскольку при увеличении интервалов снижается детализация оценки плотности распределения, а при уменьшении падает точность её значения. Для выбора оптимального количества интервалов часто применяется правило Стёрджеса
,
где — общее число наблюдений величины, — логарифм по основанию 2, — обозначает целую часть числа .
Также часто встречается правило, оценивающее оптимальное количество интервалов как квадратный корень из общего числа измерений:
Использование
Представление рядов распределения в преобразованном виде является необходимым условием при сравнении этих рядов между собой[1].
Исследование рядов распределения в значительной степени облегчается благодаря применению графического метода. При изображении рядов распределения на горизонтальной оси откладывают значения разрядов или наблюдённые значения случайной величины , а на вертикальной оси, — соответственно, разрядные частоты или наблюдённые частоты[1].
В общем виде одна из наиболее важных задач формулируется так: на заданном уровне значимости проверить гипотезу о том, что представленное на гистограмме распределение является мономодальным[A: 1].
Примеры использования
Гистограммы применяются (в том числе в иллюстративных целях) во всех областях знания, где приходится иметь дело с обработкой эмпирического числового материала и анализом частотности реализации тех или иных событий.
Так, например, анализ гистограмм традиционно считается среди геологов наглядным и информативным методом
решения геологических задач, поскольку он позволяет проверять геологические гипотезы, сформулированные на языке статистики[A: 1].
В кардиологии построение и описание гистограммы является обязательным геометрическим методом анализа вариабельности ритма сердца, предложенным стандартами 1996 года[A: 2][B: 2].
В качестве дополнительных способов описания гистограмм ритма сердца используют методы их триангулярной интерпретации, такие как индекс Святого Георга и триангулярный индекс[6].
На производстве при анализе состояния технологического процесса, построение гистограмм считается эффективным способом оценки ситуации и проведения анализа на первом этапе изучения стабильности технологического процесса, а также рассматривается как один из эффективных инструментов менеджмента качества на этапе контроля качества готовой продукции и анализа текущего состояния технологического процесса[A: 3].
↑Нормализованная гистограмма является плотностью вероятности. В частности:
.
.
↑Таким образом площадь фигуры под нормализованной гистограммой, ограниченной интервалом , приближается к вероятности принятия значений внутри этого интервала любой из случайных величин . Однако, нормализованная гистограмма не сходится поточечно к теоретической плотности распределения этих случайных величин.
↑Для построения гистограммы наблюдаемый диапазон изменения случайной величины разбивается на несколько интервалов и подсчитывается доля от всех измерений, попавшая в каждый из интервалов. Величина каждой доли принимается в качестве оценки вероятности попадания случайной величины в соответствующий интервал. Говорить о плотности вероятности в контексте гистограммы неправильно, т. к. гистограммирование трансформирует распределение любого вида в дискретное (рассматривается событие попадания величины в некоторый интервал, число которых счетно), а для дискретной случайной величины не существует функции плотности распределения вероятностей.
↑Рябыкина, 1998, § 3.6. Геометрические методы анализа ритмограмм, с. 43—49.
Литература
Книги
↑Митропольский А. К.. Техника статистических вычислений. — 2 изд., перераб. и доп.. — М.: Наука, 1971. — 576 с. — (Физико-математическая библиотека инженера). — 19 500 экз.
↑Рябыкина Г. В., Соболев А. В. Вариабельность ритма сердца. — М.: «Стар'Ко», 1998. — 200 с. — ISBN 5-85493-032-3.
Статьи
↑ 12Ткачев Ю. А. Исследование гистограмм геологических признаков компьютерным моделированием (рус.) // Вестник Института геологии Коми НЦ УрО РАН : журнал. — 2004. — № 2. — С. 7—11.
↑Абдуллин И. А., Белобородова О. И., Лаптев Н. И., Москвичева Е. Л., Горяйнов А. Д. Применение статистических методов для оценки технологического процесса производства кумулятивных зарядов (рус.) // Вестник Казанского технологического университета : журнал. — 2010. — № 12. — С. 477—482.