Прогнозирование временных рядов - ABCD42.RU

Прогнозирование временных рядов

Временной ряд

  1. Где применяются временные ряды
  2. Прогнозирование временных рядов
  3. Модели ARMA и ARIMA
  4. Prophet
  5. Прогноз по методу экспоненциального сглаживания
  6. Временные ряды и их характеристики
  7. Типы временных рядов

Временной ряд — упорядоченная последовательность значений какого-либо показателя за несколько периодов времени. Основная характеристика, которая отличает временной ряд от простой выборки данных, — указанное время измерения или номер изменения по порядку.

Пример временного ряда: биржевой курс.

Пример выборки данных: электронные почты клиентов магазина.

Где применяются временные ряды

Временные ряды используются для аналитики и прогнозирования, когда важно определить, что будет происходить с показателями в ближайший час/день/месяц/год: например, сколько пользователей скачают за день мобильное приложение. Показатели для составления временных рядов могут быть не только техническими, но и экономическими, социальными и даже природными.

Прогнозирование временных рядов

Модели ARMA и ARIMA

Они сыграли фундаментальную роль в обработке сигналов связи во время Второй мировой войны. После их начали использовать в анализе временных рядов в 1970 году.

ARMA (Autoregressive Moving Average) — авторегрессионная модель скользящей средней.

ARIMA (Autoregressive Integrated Moving Average) — авторегрессионная интегрированная модель скользящей средней.

AR → Авторегрессионная модель

В ней значения в будущем определяются как значения из прошлого, умноженные на коэффициенты.

Это относится к различным методам вычисления различий между последовательными наблюдениями для получения стационарного процесса из нестационарного.

MA → Модель скользящей средней

Это регрессионная модель, которая использует прошлые ошибки прогноза для прогнозирования интересующей переменной.

Для работы с временными рядами с сезонными компонентами используется SARIMA (интегрированное скользящее среднее сезонной авторегрессии). Это расширение модели ARIMA, добавляющее в нее сезонные условия.

Data Scientist с нуля

Получите востребованные IT-навыки за один год и станьте перспективным профессионалом. Мы поможем в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.

Prophet

Prophet разработан командой Facebook Core Data Science и представляет собой инструмент с открытым исходным кодом для бизнес-прогнозирования. Модель Prophet основана на трех переменных:

g (t) — тренд. Логистическая функция позволяет моделировать рост с насыщением, когда при увеличении показателя снижается темп его роста.

s (t) — сезонность отвечает за моделирование периодических изменений, связанных с недельной и годовой сезонностью.

h (t) — праздники и события. Учитываются аномальные дни, которые не влияют на сезонность.

ε(t) — ошибка. Содержит информацию, которую модель не учитывает.

У Prophet существует больше инструментов для обработки и сортировки данных по сезонности, чем у SARIMA. Такое преимущество позволяет анализировать временные ряды с различной сезонностью — неделей, месяцем, кварталом или годом.

Прогноз по методу экспоненциального сглаживания

Преимущество этого метода — возможность сделать прогноз на длительный период. Математически экспоненциальное сглаживание выражается так:

a (alfa) — коэффициент сглаживания, который принимает значения от 0 до 1. Он определяет, насколько продолжительность изменит существующие значения в базе данных.

x — текущее значение временного ряда (например, объем продаж).

y — сглаженная величина на текущий период.

t — значение тренда за предыдущий период.

Пример экспоненциального сглаживания:

Голубая линия на графике — это исходные данные, темно-синяя линия представляет экспоненциальное сглаживание временного ряда с коэффициентом сглаживания 0,3, а оранжевая линия использует коэффициент сглаживания 0,05. Чем меньше коэффициент сглаживания, тем более плавным будет временной ряд.

Временные ряды и их характеристики

Предполагается, что временные ряды генерируются регулярно, но на практике это не всегда так. В нерегулярных рядах измерения нельзя провести через одинаковые промежутки времени. Примером нерегулярного временного ряда является пополнение банковской карты.

Типы временных рядов

Помимо регулярности, временные ряды делятся на детерминированные и недетерминированные.

Детерминированный временной ряд — ряд, в котором нет случайных аспектов или показателей: он может быть выражен формулой. Это значит, что мы можем проанализировать, как показатели вели себя в прошлом, и точно прогнозировать их поведение в будущем.

Недетерминированный временной ряд имеет случайный аспект и прогнозирование будущих действий становится сложнее. Природа таких показателей случайна.

Стационарные и нестационарные ряды

На наблюдение за показателями и их систематизацией влияют тенденции и сезонные эффекты. От этих условий зависит сложность моделирования системы прогнозирования. Временные ряды можно разделить по наличию или отсутствию тенденций и сезонных эффектов на стационарные и нестационарные.

В стационарных временных рядах статистические свойства не зависят от времени, поэтому результат легко предсказать. Большинство статистических методов предполагают, что все временные ряды должны быть стационарными. Пример стационарных временных рядов — рождаемость в России. Конечно, она зависит от множества факторов, но ее спад или рост возможно предсказать: у рождаемости нет ярко выраженной сезонности.

В нестационарных временных рядах статистические свойства меняются со временем. Они показывают сезонные эффекты, тренды и другие структуры, которые зависят от временного показателя. Пример — международные перелеты авиакомпаний. Количество пассажиров на тех или иных направлениях меняется в зависимости от сезонности.

Для классических статистических методов удобнее создавать модели стационарных временных рядов. Если прослеживается четкая тенденция или сезонность во временных рядах, то следует смоделировать эти компоненты и удалить их из наблюдений.

Прогнозирование временных рядов — популярная аналитическая задача, которую используют в разных сферах жизни — бизнесе, науке, исследованиях общества и потребительского поведения. Прогнозы используются для предсказания, например, сколько серверов понадобится онлайн-магазину, когда спрос на товар вырастет.

Освойте необходимые навыки и инструменты и пройдите через все этапы работы над аналитическим проектом. Дополнительная скидка 5% по промокоду BLOG.

Статистические методы прогнозирования временных рядов. Предобработка данных. Кривые роста

В этой статье попытаемся дать общее представление о статистических методах прогнозирования временных рядов.

Прогноз – возможное состояние объекта в будущем, а также суждение об альтернативных путях достижения этого состояния в будущем.

Классификация прогнозов:
По масштабности выделяют следующие прогнозы:

  • Прогнозы микроуровня
  • Прогнозы макроуровня
  • Глобальные прогнозы

По времени прогнозы делят на:

  • Краткосрочные
  • Среднесрочные
  • Долгосрочные

Это довольно условное деление, так как деление производит эксперт, изучающий временные ряды.

Прогнозирование можно рассматривать на двух уровнях:

  • Прогнозирование какпредсказание
  • Прогнозирование какпредуказание

Предсказание – отвечает на вопрос «что нам ожидать в будущем?», описывает перспективы изменения объекта исследования в будущем. (Такие прогнозы называют поисковыми)
Предуказание – отвечает на вопрос «что нам нужно изменить в будущем, что бы получить заданное состояние объекта?», возможное решение проблем, возникающих при предсказании. (Такие прогнозы называют нормативными).

Этапы прогнозирования включают в себя следующие уровни:

  • Сбор необходимой задачи для прогноза
  • Предобработка данных
  • Определение моделей прогнозирования
  • Оценка параметров выбранных моделей
  • Проверка на адекватность выбранной модели
  • Выбор лучшей модели для прогнозирования
  • Построение прогноза по выбранной модели
  • Анализ результатов

Изменение экономико-финансовых показателей чаще всего отражается временными и динамическими рядами.
Динамические ряды – совокупность последовательных наблюдений показателя х в зависимости от изменения показателя y.
Временные ряды – называют совокупность последовательных наблюдений, упорядоченных во временной последовательности.

Рисунок 1. Пример временного ряда

Временные ряды можно разделить на моментные и интервальные ряды. Моментные временные ряды – наблюдения характеризуют объект на определенный момент времени. Интервальные временные ряды – ряд наблюдений характеризует объект за определенный период времени.
Процесс прогнозирования финансово-экономических рядов состоит в определении и выделении закономерностей, которые объясняли динамику изменения процесса в прошлом, для того чтобы потом использовать ее для описания ее развития в будущем. Для успешного осуществления процесса прогнозирования необходимо, что бы анализируемый временной ряд был достаточной длины (свойство полноты информации), во временном ряде не должно быть пропусков (свойство непрерывности). Соответствие изучаемого временного ряда этим требованиям проверяется на этапе «Предварительная обработка данных».

Давайте рассмотрим компоненты временного ряда.

  • Трендовая – T
  • Сезонная – S
  • Циклическая -C
  • Нерегулярная – e

Тренд – направленное изменение значений наблюдаемого временного ряда. Наряду с трендовыми движениями, в экономических процессах часто присутствует сезонная составляющая, которая представляет период колебания показателей, не превышающих 1 год. Если период более 1 года, то говорят, что во временном ряду присутствует циклическая составляющая. Если из изучаемого ряда убрать трендовую составляющую и периодическую (циклическая и сезонная), то останется нерегулярная, случайная компонента.
Если временной ряд равен сумме своих компонент
Y=T+S+C+e,
то полученная модель ряда называется аддитивной, если в виде произведения
Y=T*S*C*e,
то это мультипликативная модель.
Смешанный тип модели временного ряда соответственно представлен формулой
Y=T*S*C+e, где Y-значение временного ряда.
Если все компоненты во временном ряду правильно выделены, то случайная недетерминированная, некоррелированная компонента е обладает следующими свойствами:

  • е – является случайными величинами
  • случайные величины распределены по нормальному закону распределения
  • имеет математическое ожидание равно 0
Читайте также  Процесс прокатки металла

Предобработка временных рядов

Аномальные наблюдения могут возникнуть из-за ошибок в измерении и передачи информации (ошибки первого рода – подлежат устранению) или воздействия на изучаемый процесс редко появляющихся объективных факторов (ошибки второго рода – не подлежат устранению).
Устранение аномальных наблюдений производится в 2 этапа: поиск аномальных наблюдений по методу Ирвинга и замена их на среднее арифметическое соседних значений.



Одним из самых распространённых методов сглаживания временных рядов является метод скользящей средней. Суть использования метода заключается в замене значений временного ряда на более сглаженные значения, подверженные колебаниям в меньшей степени. Скользящие средние позволяют выявить тенденцию в развитии процесса и отфильтровать компоненты временного ряда, а также подготовить данные для построения модели прогнозирования.
Сглаживание может производиться следующими методами:

  • Простой скользящей средней (SMA)
  • Взвешенной скользящей средней (WMA)
  • Экспоненциальной скользящей средней (EMA)

Далее рассмотрим основные методы, используемые для определения наличия – отсутствия тренда в исследуемом временном ряде:

  • Критерий восходящих/нисходящих серий Кокса-Стюарта
  • Критерий серий (основанный на медиане выборки)
  • Метод Фостера-Стюарта
  • Метод автокорреляционных функций

Расчет количественных характеристик развития экономических процессов включает в себя определение: расчета абсолютных приростов, расчета темпов роста, выявления автокорреляции временного ряда. В основе вычисления этих показателей лежит сравнение значений временного ряда. Такой подход к анализу и прогнозированию процесса применим, если изучаемый временной ряд имеет линейную тенденцию. К недостаткам такого анализа следует отнести то, что в нем учитывается только конечные и начальные значения временного ряда и исключается влияние промежуточных данных.

Построение моделей временных рядов
Формирование значений временного ряда определяется тремя закономерностями:

  • Инерцией тенденции
  • Инерцией взаимосвязи между последовательными значениями временного ряда
  • Инерцией взаимосвязи между исследуемым показателем и показателями – факторами, оказывающие на него воздействие

В соответствии с этими закономерностями выделяют задачи анализа и моделирования тенденций (решается с помощью моделей кривых роста), анализа взаимосвязи между значениями временного ряда (решается с помощью адаптивных моделей), анализа причинных взаимодействий между исследуемым показателем и показателями – факторами (решается регрессионными методами).
Кривая роста – плавная кривая, аппроксимирующая временной ряд. Аналитические методы выделения неслучайной составляющей временного ряда с помощью кривых роста реализуется в рамкам модели регрессии.
Процедура разработки прогноза по кривым роста:

  • Выбор кривой роста
  • Оценка параметров выбранной кривой
  • Расчет точного и интервального прогноза
  • Оценка полученного прогноза

Кривые роста делятся на три класса. К первому классу относят кривые для описания монотонных процессов развития объекта. Ко второму классу относят кривые, которые описывают процессы с пределом роста в исследуемом периоде (их называют кривые насыщения). Если кривые насыщения имеют точку перегиба, то они относятся к 3му классу S – образных кривых.


1 класс кривых роста включает – полином первого порядка, второго, третьего, экспоненту, экспоненциальные кривые.
2 класс кривых роста включает – модифицированную экспоненту.
3 класс кривых – Кривая Гомперца, логистическая кривая.

Наиболее простой способ выбрать кривую роста – визуальный метод. Подбирают кривую, наиболее точно описывающую исследуемый процесс.
Оценка качества полученной модели для прогнозирования по кривым роста производится при проверке адекватности и оценки точности модели.
В проверку адекватности входит: проверка независимости (отсутствие автокорреляции по критерию Дарбина-Уотсона), проверка случайности, соответствие остатков временного ряда случайному распределению(R/S критерий), равенство 0 средней ошибки.
Точность модели оценивается по методу МНК, т.е. кривая подбирается таким образом, чтобы график функции кривой роста располагался на минимальном удалении от точек процесса.

Прогнозирование временных рядов в MS EXCEL (обзорная статья)

history 4 июля 2021 г.
    Группы статей

В первом разделе статьи модели для прогнозирования временных рядов сравниваются с моделями, построение которых основано на причинно-следственных закономерностях.

Во втором разделе приведен краткий обзор трендов временных рядов (линейный и сезонный тренд, стационарный процесс). Для каждого тренда предложена модель для прогнозирования.
Затем даны ссылки на сайты по теории прогнозирования временных рядов и содержащие базы статистических данных.

Disclaimer:
Напоминаем, что задача сайта excel2.ru (раздел Временные ряды ) продемонстрировать использование MS EXCEL для решения задач, связанных с прогнозированием временных рядов. Поэтому, статистические термины и определения приводятся лишь для логики изложения и демонстрации идей. Сайт не претендует на математическую строгость изложения статистики. Однако в наших статьях:
• ПОЛНОСТЬЮ описан встроенный в EXCEL инструментарий по анализу временных рядов (в составе надстройки Пакет анализа , различных типов Диаграмм ( гистограмма , линия тренда ) и формул);
• созданы файлы примера для построения соответствующих графиков, прогнозов и их интервалов предсказания, вычисления ошибок, генерации рядов (с трендами и сезонностью ) и пр.

Модели временных рядов и модели предметной области

Напомним, что временным рядом (англ. Time Series) называют совокупность наблюдений изучаемой величины, упорядоченную по времени. Наблюдения производятся через одинаковые периоды времени. Другой информацией, кроме наблюдений, исследователь не обладает.

Основной целью исследования временного ряда является его прогнозирование – предсказание будущих значений изучаемой величины. Прогнозирование основывается только на анализе значений ряда в предыдущие периоды, точнее — на идентификации трендов ряда. Затем, после определения трендов, производится моделирование этих трендов и, наконец, с помощью этих моделей — экстраполяция на будущие периоды.

Таким образом, прогнозирование основывается на фактических данных (значениях временного ряда) и модели ( скользящее среднее , экспоненциальное сглаживание , двойное и тройное экспоненциальное сглаживание и др.).

Примечание : Прогнозирование методом Скользящее среднее в MS EXCEL подробно рассмотрено в одноименной статье .

В отличие от методов временных рядов, где зависимости ищутся внутри самого процесса , в «моделях предметной области» (англ. «Causal Models») кроме самих данных используют еще и законы предметной области.

Примером построения «моделей предметной области» ( моделей строящихся на основе причинно-следственных закономерностей, априорно известных независимо от имеющихся данных ) может быть промышленный процесс изготовления защитной ткани. Пусть в таком процессе известно, что прочность материала ткани зависит от температуры в реакторе, в котором производится процесс полимеризации (температура — контролируемый фактор). Однако, прочность материала является все же случайной величиной, т.к. зависит помимо температуры также и от множества других факторов (качества исходного сырья, температуры окружающей среды, номера смены, умений аппаратчика реактора и пр.). Эти другие факторы в процессе производства стараются держать постоянными (сырье проходит входной контроль и его поставщик не меняется; в помещении, где стоит реактор, поддерживается постоянная температура в течение всего года; аппаратчики проходят обучение и регулярно проводится переаттестация). Задачей статистических методов в этом случае – предсказать значение случайной величины (прочности) при заданном значении изменяемого фактора (температуры).

Обычно для описания таких процессов (зависимость случайной величины от управляемого фактора) являются предметом изучения в разделе статистики « Регрессионный анализ », т.к. есть основания сделать гипотезу о существовании причинно-следственной связи между управляемым фактором и прогнозируемой величиной.

Модели, строящиеся на основе причинно-следственных закономерностей, упомянуты в этой статье для того чтобы акцентировать, что их изучение предшествует теме «временные ряды». Так, часть методов, например «Регрессионный анализ» (используется метод наименьших квадратов — МНК ), используется при анализе временных рядов, но изучаются в моделях предметной области, поэтому неподготовленным «пытливым умам» не стоит игнорировать раздел статистики « Статистический вывод », в котором проверяются гипотезы о равенстве среднего значения и строятся доверительные интервалы для оценки среднего , и упомянутый выше «Регрессионный анализ».

Читайте также  Экологическая обстановка Челябинской области

Кратко о типах процессов и моделях для их прогнозирования

Выбор подходящей модели прогнозирования делается с учетом типа моделируемого процесса (наличие трендов). Рассмотрим основные типы процессов.

1. Стационарный процесс

Стационарный процесс – это случайный процесс чьи характеристики не зависят от времени их наблюдения. Этими характеристиками являются среднее значение , дисперсия и автоковариация. В стационарном процессе не могут быть выделены предсказуемые паттерны. Соответственно ряды демонстрирующие тренд и сезонность — не стационарны. А вот ряд с цикличностью (апериодической) является стационарным, т.к. на долгосрочном временном интервале появление циклов предсказать невозможно.

Почему стационарный процесс важен? Так как стационарность подразумевает нахождение процесса в состоянии статистической стабильности, то такие временные ряды имеют постоянное среднее значение и дисперсию, которые определяются стандартным образом.

Также для стационарного процесса определяется функция автокорреляции – совокупность коэффициентов корреляции значений временного ряда с собственными значениями, сдвинутыми по времени на один или несколько периодов. Сдвиг на несколько временных периодов часто называется лагом (обозначается k).

Функция автокорреляции является важным источником информации о временном ряде.

Примером стационарного процесса является колебания биржевого индекса, состоящего из стоимости акций нескольких компаний, около определённого значения (в период стабильности рынка).

Примечание : график стоимости акций построен на реальных данных, см. файл примера Google .

Специальным видом стационарного процесса является белый шум. У этого процесса: среднее значений ряда равно 0, имеется конечная дисперсия и отсутствует корреляция между значениями исходного ряда и рядом сдвинутым на произвольное количество периодов (лагов). В MS EXCEL белый шум можно сгенерировать функцией СЛЧИС().

2. Линейный тренд

Некоторые процессы генерируют тренд (монотонное изменение значений ряда). Например, линейный тренд y=a*x+b, точнее y=a*t+b, где t – это время. Примером такого (не стационарного) процесса может быть монотонный рост стоимости недвижимости в некотором районе.

Для вычисления прогнозного значения можно воспользоваться методами Регрессионного анализа и подобрать параметры тренда: наклон и смещение по вертикали.

Примечание : Про генерацию случайных значений, демонстрирующих линейный тренд, можно посмотреть в статье Генерация данных для простой линейной регрессии в EXCEL .

3. Процессы, демонстрирующие сезонность

В сезонном процессе присутствует точно или примерно фиксированный интервал изменений, например, продажи некоторых товаров имеют четко выраженный пик в ноябре-декабре каждого года в связи с праздником.

Для прогнозирования вычисляется индекс сезонности, затем ряд очищается от сезонной компоненты. Если ряд также демонстрирует тренд, то после очистки от сезонности используются методы регрессионного анализа для вычисления тренда.

Примечание : Про генерацию случайных значений, демонстрирующих сезонность, можно посмотреть в статье Генерация сезонных трендов в EXCEL.

Часто на практике встречаются ряды, являющиеся комбинацией вышеуказанных типов тенденций.

О моделях прогнозирования

В качестве простейшей модели для прогноза можно взять последнее значение индекса. Этой модели соответствует следующий ход мысли исследователя: «Если значение индекса вчера было 306, то и завтра будет 306».

Этой модели соответствует формула Y прогноз(t) = Y t-1 (прогноз в момент времени t равен значению временного ряда в момент t-1).

Другой моделью является среднее за последние несколько периодов ( скользящее среднее ). Этой модели соответствует другой ход мысли исследователя: «Если среднее значение индекса за последние n периодов было 540, то и завтра будет 540». Этой модели соответствует формула Y прогноз(t) =(Y t-1 + Y t-2 +…+Y t-n )/n

Обратите внимание, что значения временного ряда берутся с одинаковым весом 1/n, то есть более ранние значения (в момент t-n) влияют на прогноз также как и недавние (в момент t-1). Конечно, в случае, если речь идет о стационарном процессе (без тренда), такая модель может быть приемлема. Чем больше количество периодов усреднения (n), тем меньше влияние каждого индивидуального наблюдения.

Третьей моделью для стационарного процесса может быть экспоненциальное сглаживание . В этом случае веса более ранних периодов будут меньше чем веса поздних. При этом учитываются все предыдущие наблюдения. Вес каждого последующего наблюдения больше на 1-α (Фактор затухания), где α (альфа) – это константа сглаживания (от 0 до 1).
Этой модели соответствует формула Y прогноз(t) =α*Y t-1 + α*(1-α)*Y t-2 + α*(1-α)2*Y t-3 +…)

Формулу можно переписать через предыдущий прогноз Y прогноз(t) =α*Y t-1 +(1- α)* Y прогноз(t-1) = α*(Y t-1 — Y прогноз(t-1) )+Y прогноз(t-1) = α*(ошибка прошлого прогноза)+ прошлый прогноз

При экспоненциальном сглаживании прогнозное значение равно сумме последнего наблюдения с весом альфа и предыдущего прогноза с весом (1-альфа). Этой модели соответствует следующий ход мысли исследователя: «Вчера рано утром я предсказывал, что индекс будет равен 500, но вчера в конце дня значение индекса составило 480 (ошибка составила 20). Поэтому за основу сегодняшнего прогноза я беру вчерашний прогноз и корректирую его на величину ошибки, умноженную на альфа. Параметр альфа (константа) я найду методом экспоненциального сглаживания».

Подробнее о методе прогнозирования на основе экспоненциального сглаживания можно найти в этой статье .

Полезный сигнал и шум

Из-за случайного разброса, присущему временному ряду, временной ряд представляют как комбинацию двух различных компонентов: полезного сигнала и шума (ошибки). Полезный сигнал следует одному из 3-х вышеуказанных типов процессов. Сигнал может быть смоделирован и соответственно спрогнозирован. Шум представляет собой случайные ошибки (со средним значением =0, отсутствием корреляции и с фиксированной дисперсией ).

Основной задачей моделирования идентификация полезного сигнала, имеющего определенный тренд, от непредсказуемого шума. Для этого как раз и используются Модели сглаживания.

Анализ временных рядов

Составляющие временного ряда

При анализе временного ряда выделяют три составляющие: тренд, сезонность и шум. Тренд — это общая тенденция, сезонность, как следует из названия — влияния периодичности (день недели, время года и т.д.) и, наконец, шум — это случайные факторы.

Что бы понять отличие этих трёх величин, смоделируем функцию расстояния от земли до луны. Известно, что в среднем луна каждый год отдаляется на 4 см — это тренд, в течение дня луна совершает оборот вокруг земли и расстояние колеблется от

405400 км — это сезонность. Шум — это «случайные» факторы, например, влияние других планет. Если мы изобразим сумму этих трёх графиков, то мы получим временной ряд — функцию, показывающую изменение расстояния от земли до луны во времени.

Тренд. Методы сглаживания

Методы сглаживания необходимы для удаления шума из временного ряда. Существуют различные способы сглаживания, основные — это метод скользящей средней и метод экспоненциального сглаживания.

Метод скользящей средней

Идея метода скользящего среднего заключается в смещении точки графика на среднее значение некоторого интервала. В качестве интервала берут нечётное количество участков, например, три — предыдущий, текущий и следующий периоды, находится среднее и принимается в качестве сглаженного значения:

У данного метода есть проблема: случайное высокое или низкое значение сильно влияют на скользящую линию. В качестве решения были введены веса. Для распределение веса используют оконные функции, основные оконные функции — это окно Дирихле (прямоугольная функция), В-сплайны, полиномы, синусоидальные и косинусоидальные:

Минусы использования скользящей средней — это сложность вычислений и некорректные данные на концах графика.

Исходные данные Скользящая средняя Взвешенная скользящая средняя (синусоидальное окно, n=5) Взвешенная скользящая средняя (окно Ганна, n=5)
800 839 283
877 852 473 400
880 933 516 439
1175 1087 583 440
1416 1173 700 588
1220 1432 777 708
1916 1587 894 610
1794 1469 1012 958
944 1784 954 897
2483 1513 992 472
830 1611 934 1242
2186 1728 1033 415
1412 1876 943 1093
3075 1931 1283 706
1052 2042 1204 1538
2630 2637 1272 526
3792 2226 1514 1315
1429 2860 1666 1896
3590 3315 1662 715
4448 3156 2582 1795
Таблица 1. Сглаживание методом скользящей средней

Как видно из графика, увеличение n выдаёт более плавную функцию, таким образом нивелируя более мелкие колебания во временном ряду. Обратите внимание, что при сглаживании не имеет значения, совпадает график среднего с графиком данных или нет, целью является построение правильной формы.

Метод экспоненциального сглаживания

Метод экспоненциального сглаживания получил своё название потому, что в сглаженной функции экспоненциально убывает влияние предыдущего периода с неким коэффициентом чувствительности α. Сглаженное значение находится как разница между предыдущим действительным значением и рассчитанным значением:

Коэффициент чувствительности, α, выбирается между 0 и 1, в качестве базиса используют значение 0,3. Если есть достаточная выборка, то коэффициент подбирается путём оптимизации.

Исходные данные Экспоненциальное сглаживание, α=0,1 Экспоненциальное сглаживание, α=0,6
800 800 800
877 -640 160
880 664 462
1175 -510 343
1416 577 568
1220 -378 622
1916 462 483
1794 -224 956
944 381 694
2483 -249 289
830 472 1374
2186 -342 -52
1412 526 1332
3075 -332 314
1052 606 1719
2630 -440 -56
3792 659 1600
1429 -214 1635
3590 336 203
4448 57 2073
Таблица 2. Экспоненциальное сглаживание

Методы прогнозирования

Методы прогнозирования основываются на выявлении тенденции во временном ряду и последующем использовании найденного значения для предсказания будущих значений. В методах прогнозирования выделяют тренд и сезонность, в общем случае, все типы сезонности могут быть найдены последовательными итерациями. Например, при анализе данных за год, можно выделить сезонность времени года, а в оставшемся тренде найти сезонность по дням недели и так далее.

Двойное экспоненциальное сглаживание

Двойное экспоненциальное сглаживание выдаёт сглаженное значение уровня и тенденции.

Внимание! Может возникнуть путаница, метод Хольт-Винтерса отличается терминами: тренд, сезонность и шум соответственно называются уровень, тренд и сезонность.

Smooth — сглаживание, сглаженный уровень на период τ, sτ, зависит от значения уровня на текущий период (Dτ), тренда за предыдущий период (tτ-1) и рассчитанного сглаженного значения на предыдущий период (sτ-1):
sτ = αDτ + (1 — α)(sτ-1 + tτ-1)

Trend — тенденция, тренд на период τ, tτ, зависит от рассчитанного сглаженного значения за предыдущий и текущий периоды (sτ и sτ-1) и от предыдущей тенденции:
tτ = β(sτ-sτ-1) + (1-β)tτ-1

Рассчитанные по данным формулам уровень и тренд могут быть использованы в прогнозировании:
D’τ+h = sτ + h·tτ

При расчёте, значения s и t для первого периода назначают s1 = D1 и t=0

Метод Хольт-Винтерса

Метод Хольт-Винтерса включает в себя сезонную составляющую, т.е. периодичность. Существуют две разновидности метода — мультипликативный и аддитивный. В отличие от двойного экспоненциального сглаживания, метод Хольт-Винтерса изучает также влияние периодичности.

Общая идея нахождения значений сглаженного уровня, тренда и периодичности заключается в следующем: сглаженный уровень (s — smooth, иногда используют l — level) — это базовый уровень значений, тренд (t — trend) — это показатель скорости роста, разница между сглаженными значениями текущего и предыдущего периода. Для изучения периодичности (p — period), мы разбиваем данные на периоды размером k и выделяем влияние каждого элемента (1,2. k) периода на сглаженный уровень.

Для более точных расчётов вводится показатель обратной связи.

В общем понимании, обратная связь — это влияние предыдущих значений на новые: например, когда Вы начинаете говорить, Вы регулируете громкость своего голоса в зависимости от того, что слышат Ваши уши — это и есть обратная связь.

Для начала расчётов, значения s, t и k, в самом простом виде, могут быть выбраны как sτ = Dτ, t = 0, p = 0.

Для прогнозирования используется следующая формула:

Мультипликативный метод Хольт-Винтерса

Мультипликативный метод отличается от аддитивного тем, что параметры, влияющие на периодичность и сглаженный уровень рассчитываются отношением:

Для прогнозирования используется следующая формула:

Метод Хольт-Винтерса в excel

Таблица для скачивания в форматах ods и xls.

Качество прогнозирования

Проверка качества прогнозирования возможна в случае наличия достаточной выборки и является важной проверкой на достоверность прогноза, для проверки и оптимизации значений α, β и γ необходимо построить прогноз на существующие данные, например, если у нас в наличии данные за пять лет и мы хотим предсказать следующий год, то необходимо построить модель на первых четырёх годах, проверить и оптимизировать коэффициенты для минимизации ошибки между прогнозом и данными на 5й год. После оптимизации модель может быть перестроена с учётом последнего периода для повышения точности, далее следует построение прогноза.

Методы оптимизации будут описаны в отдельной статье, ниже представлен пример прогнозирования методом Хольт Винтерса.

Анализ временных рядов и прогнозирование в Excel на примере

Анализ временных рядов позволяет изучить показатели во времени. Временной ряд – это числовые значения статистического показателя, расположенные в хронологическом порядке.

Подобные данные распространены в самых разных сферах человеческой деятельности: ежедневные цены акций, курсов валют, ежеквартальные, годовые объемы продаж, производства и т.д. Типичный временной ряд в метеорологии, например, ежемесячный объем осадков.

Временные ряды в Excel

Если фиксировать значения какого-то процесса через определенные промежутки времени, то получатся элементы временного ряда. Их изменчивость пытаются разделить на закономерную и случайную составляющие. Закономерные изменения членов ряда, как правило, предсказуемы.

Сделаем анализ временных рядов в Excel. Пример: торговая сеть анализирует данные о продажах товаров магазинами, находящимися в городах с населением менее 50 000 человек. Период – 2012-2015 гг. Задача – выявить основную тенденцию развития.

Внесем данные о реализации в таблицу Excel:

На вкладке «Данные» нажимаем кнопку «Анализ данных». Если она не видна, заходим в меню. «Параметры Excel» — «Надстройки». Внизу нажимаем «Перейти» к «Надстройкам Excel» и выбираем «Пакет анализа».

Подключение настройки «Анализ данных» детально описано здесь.

Нужная кнопка появится на ленте.

Из предлагаемого списка инструментов для статистического анализа выбираем «Экспоненциальное сглаживание». Этот метод выравнивания подходит для нашего динамического ряда, значения которого сильно колеблются.

Заполняем диалоговое окно. Входной интервал – диапазон со значениями продаж. Фактор затухания – коэффициент экспоненциального сглаживания (по умолчанию – 0,3). Выходной интервал – ссылка на верхнюю левую ячейку выходного диапазона. Сюда программа поместит сглаженные уровни и размер определит самостоятельно. Ставим галочки «Вывод графика», «Стандартные погрешности».

Закрываем диалоговое окно нажатием ОК. Результаты анализа:

Для расчета стандартных погрешностей Excel использует формулу: =КОРЕНЬ(СУММКВРАЗН(‘диапазон фактических значений’; ‘диапазон прогнозных значений’)/ ‘размер окна сглаживания’). Например, =КОРЕНЬ(СУММКВРАЗН(C3:C5;D3:D5)/3).

Прогнозирование временного ряда в Excel

Составим прогноз продаж, используя данные из предыдущего примера.

На график, отображающий фактические объемы реализации продукции, добавим линию тренда (правая кнопка по графику – «Добавить линию тренда»).

Настраиваем параметры линии тренда:

Выбираем полиномиальный тренд, что максимально сократить ошибку прогнозной модели.

R2 = 0,9567, что означает: данное отношение объясняет 95,67% изменений объемов продаж с течением времени.

Уравнение тренда – это модель формулы для расчета прогнозных значений.

Большинство авторов для прогнозирования продаж советуют использовать линейную линию тренда. Чтобы на графике увидеть прогноз, в параметрах необходимо установить количество периодов.

Получаем достаточно оптимистичный результат:

В нашем примере все-таки экспоненциальная зависимость. Поэтому при построении линейного тренда больше ошибок и неточностей.

Для прогнозирования экспоненциальной зависимости в Excel можно использовать также функцию РОСТ.

Для линейной зависимости – ТЕНДЕНЦИЯ.

При составлении прогнозов нельзя использовать какой-то один метод: велика вероятность больших отклонений и неточностей.

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: