Типичные ошибки рейтингов, наводнивших средства массовой информации

15 октября 2006


Большинство рейтингов, попадающих в СМИ (кроме результатов социологических исследований), сделаны непрофессионалами и содержат одни и те же ошибки. В результате читатели (зрители, слушатели) вводятся в заблуждение, часто страдает репутация компаний или персон, если они являются объектами рейтингов.

Я решил обратить внимание читателей на эту тему, потому что почти везде и почти всегда сталкивался (и сталкиваюсь!) с "рейтингом", построенными на основе взвешенной суммы оценок:

R = ? wi ri    (1)

где:

ri - оценка сотрудника по i-му критерию,
wi - вес i-го критерия.

Беда в том, что эта формула не всегда дает верный результат! Неискушенного читателя это утверждение обычно приводит в недоумение. Следуют заявления вроде того, что приведенная формула "соответствует здравому смыслу", или "отвечает интуитивному представлению о сравнительном качестве объектов" и т.п. Однако, все не так очевидно.

Обратимся, прежде всего, к оценкам. Условно разделим оценки на "объективные" и "экспертные". Часто приходится слышать расхожее мнение, что экспертных оценок следует избегать или, по меньшей мере, без них всегда можно обойтись. Вредное заблуждение! На практике все обстоит как раз наоборот. Большинство так называемых "объективных" данных нуждаются в оценке эксперта. Например, пусть корректно рассчитанный срок окупаемости некоторого проекта оказался равным 7-ми месяцам. Хорошо это или плохо? Может оказаться, что для одного проекта такой срок может быть оценен как "отличный", для другого, как "удовлетворительный", а для третьего, как "плохой". Такие оценки может дать только эксперт. Конечно, бывают и такие данные для работы с которыми экспертные оценки действительно не нужны. Например, количество бензина, сжигаемого автомобилем за 100 км пробега. Очевидно, что здесь всегда чем меньше, тем лучше. Но таких простых случаев, увы, мало и без экспертных оценок, как правило, обойтись не удается.

Коль скоро мы вынуждены прибегать к помощи экспертов, то должны владеть методами сбора и обработки экспертной информации. А это - особая область знаний, в которой накоплен богатый теоретический материал и практический опыт. Например, эксперта упрощенно можно рассматривать как некий "измерительный прибор". Возникает вопрос о точности, с которой этот "прибор" может измерять. Один из ответов на этот вопрос дан в классической работе Миллера (Г. Миллер. Магическое число семь плюс минус два. Инженерная психология. - М.: Прогресс, 1964). Там показано, что эксперт чаще всего не способен различать более 7 градаций. Однако, сплошь и рядом приходится сталкиваться с ситуацией необоснованного использования шкал размерностью выше 7. Например, в "самопальных" рейтингах очень популярна 10-балльная шкала.

Нередки попытки получить от эксперта информацию в такой форме, в которой он не может дать ее с достаточной надежностью. Достоверно установлено, что эксперты плохо дают оценки в численном виде. Гораздо надежнее они работают с рангами. А наиболее уверенно - в вербальными оценками. Убедительные результаты исследований по этому вопросу приведены в книге Ларичева и Мошкович ("Качественные методы принятия решений", 1996).

Не менее серьезные проблемы связаны с критериями. Прежде всего, не всегда удается обосновать тот набор критериев, который необходим и достаточен для построения корректного рейтинга. Может показаться, что набор критериев "естественно" возникает в каждой конкретной задаче. Но, увы, это далеко не так. Известен случай, когда результаты крупного тендера, проводившегося на уровне министерства РФ, были оспорены на том основании, что при сравнении участников был упущен из рассмотрения один из важных критериев. Добавление или исключение критериев может кардинально изменить рейтинг. Однако, большинство СМИ не утруждают себя обоснованием применяемых ими критериев. Вместе с тем, существуют специальные технологии выработки обоснованных критериальных наборов.

Еще сложнее обстоит дело с весами критериев. Можно даже сказать, что веса критериев – самое тонкое место в задаче построения рейтинга. Манипулируя весами можно получить любой рейтинг, который только можно пожелать! В подавляющем большинстве случаев веса попросту назначают, исходя из интуитивного представления о сравнительной важности критериев. Тем самым и рейтинг получается фактически "назначенным". Однако, исследования показывают, что человек (эксперт) не способен непосредственно назначать критериям корректные численные веса. Необходим специальный подбор корректной процедуры получения весов. Более того! Оказывается, что веса критериев нужны не всегда. Возможны осмысленные рейтинги, при построении которых можно вовсе обойтись без численных весов критериев. Достаточно информации типа "критерий Х важнее критерия Y". Итак, при серьезном рассмотрении выходит, что и оценки по критериям и сами критерии с их весами в рейтингах СМИ зачастую имеют весьма сомнительное происхождение.

Вне поля критики осталась одна операция суммирования. Неужели и она может подвести? Еще как! Оказывается, что операция суммирования в данном случае не всегда корректна! В классической книге американских математиков Кини и Райфа ("Принятие решений при многих критериях: предпочтения и замещения", 1981) строго доказано, что подобная формула корректна только тогда, когда все критерии попарно независимы по предпочтению. Что такое "зависимость" критериев, какие виды зависимости бывают, и что из этого следует – все это выходит за рамки данных заметок.

Более того, оказывается, что сумма оценок основана на следующем неявном постулате: "низкая оценка по одному критерию может быть компенсирована высокой оценкой по другому". Однако, это верно далеко не всегда. Например, снижение качества изображения телевизора не может быть компенсировано улучшением качества его звука.

Другая распространенная ошибка возникает, если оценки по каждому критерию дает не один эксперт, а несколько экспертов. Первое, что приходит в голову – нужно взять среднее арифметическое оценок экспертов. Именно это чаще всего мы и видим в рейтингах СМИ. К сожалению, все не так просто. Прежде всего, нужно задуматься о согласованности экспертных суждений. Действительно, если эксперты оценивают реальный объект, то их оценки не должны сильно расходиться. А если они все-таки существенно расходятся? Тогда, прежде всего, нельзя использовать среднее арифметическое, поскольку тогда мы получаем так называемую "среднюю температуру по больнице". Действительно, если сложить температуру всех высокотемпературных больных и температуру тел в морге, а потом поделить на общее количество замеров, то можно получить 36, 6°. Свидетельствует ли это о том, что "в среднем" все находящиеся в больнице здоровы? Тем не менее, абсурдность усреднения оценок без предварительного анализа согласованности мало кто понимает. А что делать, если согласованность все же оказалась низкой? В этом случае нужно пытаться выяснить причину расхождений и по возможности попытаться устранить ее. Часто причиной может быть отсутствие важной информации у некоторых экспертов. Иногда ситуация слишком неопределенна, "размыта". В некоторых случаях эксперты разбиваются на устойчивые группы. В этом случае также нельзя использовать среднее арифметическое. Группы нужно уметь выявлять и обрабатывать отдельно. Таким образом, способ обработки оценок в каждом конкретном случае должен подбираться индивидуально и тщательно обосновываться.

Таким образом, на всех этапах построения рейтинга должны использоваться корректные процедуры, подбор которых для каждого случая может грамотно выполнить только специалист. В противном случае, ценность полученных "рейтингов" не дотянет даже до ценности выеденного яйца, которое само по себе все же имеет цену, хотя бы как минеральное удобрение. Более того - они даже вредны, поскольку дают искаженную картину реальности.

В случае, когда объектами рейтинга выступают компании или персоны, может встать вопрос об ущербе, нанесенном деловой репутации. Если в результате судебного разбирательства будет выяснено, что опубликованные результаты были получены с использованием некорректных методов, то авторы подобного "рейтинга" могут оказаться в крайне незавидном положении.

Меня часто спрашивают: рейтингам каких российских СМИ можно доверять?

Могу рекомендовать следующие источники:

Желающим более глубоко разобраться в проблемах построения рейтингов можно рекомендовать следующую доступную литературу:

Не стоит пристально рассматривать год выхода в свет того или иного источника. Поскольку речь идет о математических методах, то уместно напомнить, что теорема Пифагора не устарела и по сей день.

  1. Ларичев О.И. Теория и методы принятия решений. - М.: Логос, 2000 (рекомендовано Министерством образования РФ в качестве учебника для студентов ВУЗ'ов).
  2. Литвак Б.Г. Экспертная информация: методы получения и анализа. - М.: Радио и связь, 1981.
  3. Кини Р.Л., Райфа Х. Принятие решений при многих критериях: предпочтения и замещения. -М. : Радио и связь, 1981.
  4. Подиновский В.В. Количественная важность критериев. Автоматика и телемеханика, №5, 2000 г.
  5. Миркин Б.Г. Проблема группового выбора. -М.: Наука, 1974.
  6. Гафт М.Г. Принятие решений при многих критериях. -М.: Знание, 1979.
  7. Гафт М.Г., Подиновский В.В. О построении решающих правил в задачах принятия решений. -Автоматика и телемеханика, №6, 1981.
  8. Белкин А.Р., Левин М.Ш. Принятие решений: комбинаторные модели аппроксимации информации. - М.: Наука, 1990.
  9. Ларичев О.И., Мошкович Е.М. Качественные методы принятия решений. - М.: Физматлит, 1996.
  10. Г. Миллер. Магическое число семь плюс минус два. Инженерная психология. - М.: Прогресс, 1964.


Павел Горский, эксперт