суббота, 27 февраля 2010 г.

Как не запутаться в статистическом анализе

Хорошо известно, что российский фондовый рынок зависит в первую очередь от цены на нефть. На рисунке ниже невооруженным глазом видно, что индекс ММВБ практически копирует динамику цены на нефть марки «Брент». Однако для целей финансового и статистического анализа часто используют зависимость не между уровнями временных рядов, а между первыми разностями или доходностями.

На следующем рисунке видно, что коэффициент корреляции между ежедневными доходностями ММВБ и Брент составляет 0,1241 (корень квадратный из коэффициента детерминации простой регрессии 0,015), что означает отсутствие какой бы то ни было зависимости.



Но если построить регрессию между уровнями временных рядов (рисунок ниже), то коэффициент корреляции «удивительным образом» возрастает до 0,8968. А это очень сильная зависимость.


Конечно, никаких чудес нет. Вся проблема в том, что зависимость между доходностями определяется строгим соответствием между изменениями цен двух активов (в данном случае индекса ММВБ и цены на нефть) в течение короткого промежутка времени. Такой статистический анализ может иметь значение для целей краткосрочной (внутридневной или дневной) торговли на биржи, но оказывается совершенно бесполезным для других целей, в частности для определения премии за риск по модели CAPM, для составления долгосрочного портфеля или прогнозирования движения фондового рынка. В этом случае требуется либо перейти к соответствующему периоду времени – использовать годовую, а не ежедневную зависимость, либо проводить анализ на основе уровней временного ряда.
Преобразования временных рядов – рутинная практика в статистическом анализе и прогнозировании. Как видим, она не так безобидна, как может показаться. Например, зависимость некоторой переменной от времени в рамках метода ARIMA (метод Бокса-Дженкинса) принято выражать после преобразования нестационарного ряда в стационарный путем взятия разностей. По моим наблюдениям, метод ARIMA часто выдает противоположные статистически значимые результаты в зависимости от количества взятых разностей. Хотя обычно подчеркивают, что данный метод требует профессионализма в использовании, он все же весьма подвержен ошибкам и искажениям и не гарантирует получения правильных прогнозов. Весьма любопытно, что порой статистически значимыми оказываются прогнозы, в которых вопреки растущему тренду ARIMA выдает нисходящий прогноз или наоборот.

Чтобы не быть голословным приведу пример. В известном учебнике StatSoft к программе Statistica приводится пример выполнения прогноза по модели ARIMA с интервенцией для временного ряда, описывающего количество звонков после повышения тарифа на 20%.

http://www.statsoft.ru/home/portal/applications/ForecastingAdvisor/Methods/VremRyad/vremryad.htm

Прогноз оказывается статистически значимым и вроде бы даже придраться не к чему, но...

Приглядитесь к Рисунку 6. График ряда и прогноза на один цикл (год) вперед.


Если продлить прогноз по этой модели не на один, а на пять лет, то будет заметно, что тренд идет вниз, тогда как одного взгляда на график исходных данных достаточно, чтобы сделать заключение о том, что тренд в прогнозном периоде должен быть восходящим. Несмотря на статистическую значимость, прогноз придется признать несостоятельным. Значит, нужно заново перейти к этапу преобразования ряда к стационарному виду путем взятия разностей, чтобы получить более адекватную модель. Но можно ли быть уверенным, что прогноз верный, если нельзя положиться на статистические тесты?

Все это объясняется эффектами преобразований ряда к стационарному виду. Проблема усугубляется, когда от ARIMA переходят к ARIMAX или VAR, т.е. проводят прогноз переменной не только на основе автокорреляции преобразованного ряда или его ошибок, но и добавляют одну или несколько преобразованных предикторных переменных. Если при этом хотят установить зависимость между показателями, то такие статистические методы либо скрывают имеющуюся в действительности зависимость, либо наоборот создают ложную зависимость, которой нет на самом деле.
В таких случаях лучше обратиться к анализу коинтеграции временных рядов.

1 комментарий: