Учебная работа № 1540. Структура статистики объектов нечисловой природы
СТРУКТУРА СТАТИСТИКИ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ
Рассматривается структура основополагающего для разработки АРМ «МАТЭК» направления научнопрактических исследований, известного под названием «статистика объектов нечисловой природы».
Термин «статистика объектов нечисловой природы» впервые появился в 1979 г. в монографии [1]. В том же году в статье [2] была сформулирована программа развития этого нового направления прикладной математической статистики, которая к 1985 г. в основном была реализована (см. обзоры [35]).
Статистика объектов нечисловой природы как самостоятельное научное направление была выделена в СССР. В 80е годы существенно возрос интерес к этой тематике и у зарубежных исследователей. Это отражено в отчетах [67] о Первом Всемирном Конгрессе Общества математической статистики и теории вероятностей им. Бернулли, состоявшемся в сентябре 1986 г. в Ташкенте. Статистика объектов нечисловой природы используется в нормативнотехнической и методической документации (ГОСТ 2466081 и другие стандарты по статистическому приемочному контролю по альтернативному признаку, рекомендации [8] и др.). Ее применение позволяет получить существенный техникоэкономический эффект (см. например, сводку [9]).
Однако тематика статистики объектов нечисловой природы обсуждалась до сих пор в основном кругу развивающих ее специалистов, в результате она недостаточно отражена в монографической литературе. Цель настоящего пункта отчета дать введение в статистику объектов нечисловой природы, выделить ее структуру, указать основные идеи, результаты и публикации.
Объектами нечисловой природы (см. также пункты 2. 3 и 2. 4 настоящего отчета) называют элементы пространств, не являющихся линейными. Примерами являются бинарные отношения (ранжировки, разбиения, толерантности [10]), множества, последовательности символов (тексты). Объекты нечисловой природы нельзя складывать и умножать на числа, не теряя при этом содержательного смысла. Этим они отличаются от издавна используемых в прикладной статистики (в качестве элементов выборок) чисел, векторов и функций.
Прикладную статистику по виду статистических данных принято делить [4, 8] на следующие направления:
статистика случайных величин (одномерная статистика);
многомерный статистический анализ;
статистика временных рядов и случайных процессов; статистика объектов нечисловой природы.
При создании теории вероятностей и математической статистики исторически первыми были рассмотрены объекты нечисловой природы белые и черные шары в урне. На основе соответствующих вероятностных моделей были введены биномиальное, гипергеометрическое и другие распределения, получены теоремы МуавраЛапласа, Пуассона и др. Современное развитие этой тематики привело, в частности, к созданию теории статистического контроля качества продукции по альтернативному признаку (годен не годен) в работах А. Н. Колмогорова [11], Б. В. Гнеденко [12], Ю. К. Беляева [13], Я. П. Лумельского [14] и многих других.
В семидесятых годах в связи с запросами практики весьма усилился интерес к статистическому анализу нечисловых данных. Московская группа, организованная Ю. Н. Тюриным и другими специалистами вокруг семинара «Математические методы в экспертных оценках», развивала в основном вероятностную статистику нечисловых данных [15]. Были установлены разнообразные связи между различными видами объектов нечисловой природы и изучены свойства этих объектов. Московской группой выпущены, в частности, сборники [16 22] и обзоры [23, 24]. Хотя в названиях многих из этих изданий стоят слова «экспертные оценки», анализ содержания сборников показывает, что подавляющая часть статей посвящена математикостатистическим вопросам, а не проблемам проведения экспертиз. Частое употребление указанных слов отражает лишь один из импульсов, стимулирующих развитие статистики объектов нечисловой природы и идущих от запросов практики. При этом необходимо подчеркнуть, что полученные результаты могут и должны активно использоваться в теории и практике экспертных оценок, в особенности при разработке АРМ «МАТЭК».
Новосибирская группа (Б. Г. Миркин [2528], Г. С. Лобов [29] и др.), как правило, не использовала вероятностные модели, т. е. вела исследования в рамках анализа данных (в том смысле, как этот термин разъясняется в работах [4, 8]). В московской группе в рамках анализа данных также велись работы, в частности, Б. Г. Литваком [30]. Исследования по статистике объектов нечисловой природы выполнялись также в Ленинграде, Ереване, Киеве, Таллине, Тарту, Красноярске, Минске, Днепропетровске, Владивостоке, Калинине и других центрах, некоторые из них будут упомянуты ниже (см. также материалы конференций по анализу нечисловых данных [31, 32]).
. Внутреннее деление статистики объектов нечисловой природы
Внутри рассматриваемого направления прикладной статистики выделим следующие области:
1. Статистика конкретных видов объектов нечисловой природы;
2. Статистика в пространствах общей (произвольной) природы;
3. Применение идей, подходов и результатов статистики объектов нечисловой природы в классических областях прикладной статистики.
Единство рассматриваемому направлению придает прежде всего вторая составляющая, позволяющая с единой точки зрения подходить к статистическим задачам описания данных, оценивания, проверки гипотез при рассмотрении выборки, элементы которой имеют ту или иную конкретную природу. Внутри первой составляющей рассмотрим [33]:
1. 1) теорию измерений;
1. 2) статистику бинарных отношений;
1. 3) теорию люсианов (бернуллиевских векторов);
1. 4) статистику случайных множеств;
1. 5) статистику нечетких множеств;
1. 6) многомерное шкалирование;
1. 7) аксиоматическое введение метрик.
Перечисленные разделы тесно связаны друг с другом, как продемонстрировано, в частности, в работах [1, 4, 24]. Вне данного перечня остались работы по хорошо развитым классическим областям статистическому контролю [1114], таблицам сопряженности [34], а также по анализу текстов [35, 36] и некоторые другие [2529]. Таким образом, рассмотрим постановки 197090 гг. вероятностной статистики объектов нечисловой природы.
. Статистика в пространствах общей природы
Пусть элементы пространства
Таким образом
достигает минимума на
Для классического случая
Для ряда конкретных объектов среднее как решение экстремальной задачи вводилось рядом авторов. В 1929 г. Джини и Гальвани [38] применили такой подход для усреднения точек на плоскости и в пространстве (см. также [39]). Кемени [4042] решение задачи (1) называл медианой или средним для выборки, состоящей из ранжировок. При моделировании лесных пожаров, согласно выражению (1), было введено «среднеуклоняемое множество» [43]. Общее определение среднего (1) рассмотрено нами в работах [2, 37].
Основной результат, связанный со средними (1) аналог закона больших чисел. Пусть.
Закон больших чисел состоит в сходимости.
Одно из возможных уточнений таково [46]: для функции
введем понятие «
Очевидно,
стремится к 1 при.
Естественное обобщение рассматриваемой задачи позволяет построить общую теорию оптимизационного подхода в статистике. Как известно [47], большинство задач прикладной статистики может быть представлено в качестве оптимизационных. Как себя ведут решения экстремальных задач? Частные случаи этой постановки: как ведут себя при росте объема выборки оценки максимального правдоподобия, минимального контраста (в том числе робастные в смысле ТьюкиХьюбера [1, 4850]), оценки нагрузок в факторном анализе и методе главных компонент при отсутствии нормальности, оценки метода наименьших модулей в регрессии [51] и т. д.
Обычно легко устанавливается, что для некоторых пространств
для любого
т. е. решения экстремальных задач также сходятся. Понятие сходимости в соотношении (8) уточняется с помощью
Как оценить распределение случайного элемента в пространстве общей природы? Поскольку понятие функции распределения неприменимо, естественно использовать непараметрические оценки плотности, т. е. функции.
где.
где
С помощью непараметрических оценок плотности можно развивать регрессионный анализ, дискриминантный анализ и другие направления в пространствах общей природы ([15], [59]).
Для проверки гипотез согласия, однородности, независимости в пространствах общей природы могут быть использованы статистики интегрального типа
где
Условия, при которых это справедливо, даны в работе [60]. (Хотя они сформулированы для конечномерного случая, переход в пространства общей природы не представляет принципиальных трудностей.) Пример применения вывод предельного распределения статистики типа омегаквадрат для проверки симметрии распределения [61] (см. также [1, гл. 2]).
Перейдем к статистике конкретных видов объектов нечисловой природы.
2. 5. 4. Теория измерений
Цель теории измерений борьба с субъективизмом исследователя при приписывании численных значений реальным объектам. Так, расстояния можно измерять в метрах, микронах, милях, парсеках и других единицах измерения. Выбор единиц измерения зависит от исследователя, т. е. субъективен. Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую именно единицу измерения предпочтет исследователь, т. е. когда они инвариантны относительно допустимого преобразования шкалы.
Теория измерений известна в СССР уже около 30 лет по переводам [62, 63]. С семидесятых годов активно работают отечественные исследователи (см. обзор в [1, гл. 3]). В настоящее время изложение основ теории измерений включают в справочные издания [47], помещают в научнопопулярные журналы [64] и книги для детей [65]. Однако она еще не стала общеизвестной среди специалистов, в частности, среди метрологов. Поэтому опишем одну из задач теории измерений.
Согласно [1, 62, 63], шкала задается группой допустимых преобразований (прямой в себя). Номинальная шкала (шкала наименований) задается группой всех взаимнооднозначных преобразований, шкала порядка группой всех строго возрастающих преобразований. Это шкалы качественных признаков [27]. Группа линейных возрастающих преобразований