Главная > Математика > Методы анализа данных. Подход, основанный на методе динамических сгущений
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

18.3. КЛАССИФИКАЦИЯ ПОТРЕБИТЕЛЕЙ ЭЛЕКТРОЭНЕРГИИ ПО ГРАФИКАМ НАГРУЗКИ

18.3.1. Введение

Классические методы классификации потребителей электроэнергии по кривым нагрузок на первом шаге заключаются в априорном определении классов исходя из таких внешних характеристик, как ежегодное потребление, а на втором шаге — в статистической обработке

значений потребляемой мощности для каждого класса пользователей. При этом в результате последовательности приближений определяется разбиение на однородные классы. Такая процедура предполагает существование более или менее прямой связи между внешними характеристиками и видом кривых потребления электроэнергии.

Автоматическая классификация позволяет находить разбиение потребителей, не опираясь на априорную информацию, а исходя лишь из вида кривых нагрузок. Данные являются многомерными, они состоят из результатов разумных измерений на выборках из исходного массива. Они представляют собой совокупность кривых нагрузок в течение одного дня, построенных по десятиминутным интервалам. Для некоторых категорий потребителей имеется довольно большое количество данных. Например, для потребителей электроэнергии низкого напряжения (для населения) были собраны данные о потребляемой мощности за десятиминутные промежутки в течение года (365 X 144 точек для каждого потребителя). Такой большой массив данных не может быть непосредственно обработан даже методами автоматической классификации. Поэтому вначале исследовалось поведение кривых в течение фиксированного дня, затем за несколько наиболее представительных дней недели (например, зимой, когда потребление электроэнергии особенно велико).

Далее будут рассматриваться два разных набора данных. С одной стороны, это потребители электроэнергии низкого напряжения (население). Для них потребление носит в значительной мере случайный характер: кривые нагрузок могут изменяться как относительно среднего уровня требуемой мощности, так и по форме (разбиение требуемой мощности по часам дня). С другой стороны, это предприятия, использующие среднее напряжение. В этом случае нас будет интересовать только классификация кривых нагрузок по форме. С этой целью исходные данные преобразуются в «приведенные» (берется отношение потребляемых в различное время мощностей к среднему значению в течение дня). В этих двух случаях производится классификация данных, имеющих различную структуру, что особенно ясно выявится при анализе результатов.

18.3.2. Графики нагрузки для потребителей электроэнергии низкого напряжения, для которых электроэнергия не является основным источником отопления [2]

18.3.2.1. Данные

В качестве исходных данных было взято объединение массивов выборочных измерений, проведенных в двух различных сельских областях. Для получения однородного массива не учитывались потребители, для которых электроэнергия является главным источником отопления, в противном случае потребовалось бы учитывать эффект разницы в температуре, которая неодинакова для двух выбранных областей. Таким образом, была получена, по нашим оценкам, достаточно представительная выборка из 1243 потребителей.

Было решено изучать данные, собранные для этого множества за неделю, на которую приходится максимальная нагрузка (вторая неделя января), в один из рабочих дней, для определенности во вторник. В целях упрощения данные за десятиминутные интервалы усреднялись на каждые полчаса. Тем самым число значений потребляемой мощности для каждого человека сводилось к 48. Для каждого потребителя эти 48 значений, упорядоченные во времени, представлялись кривой нагрузок. На самом деле отдельно рассматривались данные для интервалов мин мин) — загруженный период и мин незагруженный период, по следующей причине. Выборка разделяется на потребителей с «обычным тарифом» и с «двойным тарифом», причем заранее известно, кто потребляет большое количество энергии ночью (в незагруженные часы), используя при этом в течение дня не меньше электроэнергии, чем потребитель с «обычным тарифом». Классификация всего массива данных привела бы к увеличению числа классов из-за этого различия в поведении потребителей, известного a priori. Поэтому, нам кажется, уместнее проводить две классификации: одну — по 31 переменной, соответствующей загруженному периоду; другую — по 17 переменным, соответствующим незагруженному периоду. Первая классификация потребует большего внимания по причине неравномерного потребления электроэнергии в загруженные часы.

18.3.2.2. Выбор расстояния

В связи с тем, что нас интересует не столько форма каждой кривой, сколько соответствующая потребляемая мощность, решено было не использовать расстояние которое может служить только для сравнения профилей кривых. Наиболее простым подходящим расстоянием будет евклидово, составленное из весовых коэффициентов переменных (т. е. метрика в пространстве объектов, задаваемая диагональной матрицей, составленной из весов переменных). Им мы и будем пользоваться. Прежде чем говорить о конкретном определении весов, нам кажется необходимым описать роль, которую играют переменные в образовании типологий.

1. Удобная запись дисперсионного критерия. Основным критерием, которым мы будем пользоваться, является межклассовая дисперсия. Частично этот критерий оптимизируется на втором шаге и может быть еще улучшен на третьем. Межклассовая дисперсия В определяется в -мерном пространстве объектов число переменных), где, как предполагается, введена диагональная евклидова метрика. Таким образом, имеем

где отношение межклассовой дисперсии к общей дисперсии по переменной; вес переменной в евклидовой метрике. Если метрика задается единичной матрицей, то

В этой формуле (дисперсия переменной, подсчитанная по всей выборке) не зависит от разбиений на классы.

Для максимизации упомянутого критерия на различных шагах метода ищутся такие классы, чтобы отношение было велико для переменных с большой дисперсией Поэтому в результирующем разбиении классы будут различаться, главным образом, по переменным с большой дисперсией. Для строгости здесь надо предположить некоррелированность всех переменных, иначе нельзя будет независимо изменять величины Это приводит к необходимости предварительного анализа связей между переменными, по которым будет проводиться классификация.

2. Анализ главных компонент по загруженному периоду. На рис. 18.2 приводятся результаты применения анализа главных компонент к нормированным переменным для загруженного периода. Их можно сравнить со случаем, когда переменные ненормированы, см. рис. 18.3,

Анализ нормированных переменных выявил положительные корреляции между всеми переменными: все они имеют положительные проекции на первую главную ось, которая объясняет 43% инерции всего множества точек, тогда как вторая ось объясняет только 7%. Это явление хорошо известно в анализе главных компонент, оно носит название «эффекта размера», который определяется первым собственным числом, в данном случае этот эффект связан с уровнем потребляемой мощности. Тот факт, что корреляции всех переменных с первым фактором положительны и почти равны, означает, что мощности, потребляемые в каждый отрезок времени, возрастают одновременно с ростом средней потребляемой мощности. Очень большой по сравнению с другими осями процент инерции, объясняемой первой осью, является следствием того, что дисперсия множества кривых, вызванная различиями в потребляемой мощности, значительно превосходит дисперсию в результате их различий по форме.

Проекция на плоскость, порожденную второй и третьей главными компонентами, выявляет связи между отрезками времени, когда ликвидирован эффект различия в потребляемой мощности. Это можно сделать, приводя кривые к средней мощности, иначе говоря, если поделить мощность, потребляемую в каждый отрезок времени, на среднюю дневную мощность. Следует заметить, что кривая, соединяющая последовательные моменты времени на этой плоскости, близка к окружности. Она отражает корреляции между мощностями, потребляемыми в последовательные промежутки времени. Впадина в районе точек мин, по-видимому, говорит о том, что соответствующие интервалы характеризуются компонентой более высокого порядка (пятой) и что приведенные мощности некоррелированы с мощностями,

(кликните для просмотра скана)

(кликните для просмотра скана)

потребляемыми в другие моменты времени. Вторая и третья компоненты объясняют почти одинаковые доли инерции. Они выявляют отрицательные связи между приведенными переменными: с одной стороны мин, и незагруженный отрезок около утра — с другой мин, мин, Это можно объяснить тем, что некоторые загруженные периоды «компенсируются» другими, незагруженными. Более интересна кажущаяся очевидной некоррелированность между вечерними и утренними отрезками времени и уникальность отрезка мин), который некоррелирован со всеми предыдущими промежутками времени.

Анализ главных компонент нормированных переменных интересен, главным образом, потому, что он позволяет просто измерить корреляционные связи между переменными. Если мы не собираемся нормировать переменные для классификации, то для определения факторов, учитывающих дисперсии переменных, следует рассмотреть результаты анализа главных компонент для ненормированных переменных, изображенных на рис. 18.3. Очевидно, что они несильно отличаются от случая, когда переменные нормированы. Первая компонента объясняет 44% общей инерции. Проекции переменных на нее в этом случае не равны, что говорит о неодинаковых значениях дисперсии этих переменных (точнее, о долях дисперсии, объясняемых различиями в потребляемой мощности).

Если осуществить поворот на 90° плоскости второй и третьей компонент так, чтобы третья компонента заняла место второй, то окажется, что кривая, соединяющая различные моменты времени, имеет ту же форму, что и при анализе нормированных переменных. Вторая и третья компоненты попросту поменялись местами. Как и прежде, они объясняют малую долю инерции (вторая третья По величине вклада в общую инерцию эти компоненты намного отстают от первой.

Эта плоскость позволяет анализировать дисперсию переменных по кривым приведенной мощности. Вторая компонента выявляет немного большую дисперсию переменных, соответствующих вечернему и утреннему времени чем третья, по которой противостоят промежутки . Такое сильное сходство между рис. 18.2 и 18.3 является результатом того, что мощности, потребляемые в различное время, имеют близкие значения дисперсии.

В результате проделанного анализа можно сделать вывод: 17 переменных, соответствующих загруженному периоду, в первом приближении можно представить тремя некоррелированными факторами дисперсии которых сильно различаются. Критерий (4) можно представить в виде

Если в пространстве объектов используется евклидово расстояние, задаваемое единичной матрицей, то дисперсии главных компонент будут пропорциональны их вкладу в общую дисперсию, а именно 44% для первой, 7,8 и 6,2% для второй и третьей компонент. Очевидно, что классификацию следует производить в первую очередь по первой компоненте, а найденные классы будут различаться, главным образом, по уровню потребляемой мощности.

Из-за близости дисперсий второй и третьей компонент неясно, по какому направлению классифицировать кривые согласно их форме. Это проявится во втором примере; при классификации кривых с приведенной потребляемой мощностью получаются неустойчивые классы.

3. Выбор взвешенного евклидова расстояния. Алгоритм классификации, в котором критерием является межклассовая дисперсия, одновременно уменьшает внутриклассовую дисперсию, т. е. сумму взвешенных дисперсий внутри каждого класса. Можно сказать, что классификация сводит дисперсию исходного набора данных к дисперсии двух типов:

Согласно этому выражению дисперсия класса, имеющего маленький вес, может превышать общую дисперсию. Дисперсия вычисляется в выбранной метрике как сумма дисперсий по всем переменным. В нашем случае было бы интересно проследить уменьшение внутриклассовой дисперсии в различные отрезки времени. Для этого можно сравнить кривую зависимости от времени среднеквадратичного отклонения для исходного набора данных и соответствующие кривые для каждого типа потребителей. На самом деле в каждый момент времени лучше рассматривать коэффициент вариации:

где стандартное отклонение, среднее значение переменной.

Вначале классифицировалось подмножество исходного набора данных (453 потребителя с обычным тарифом). Было показано, что для некоторых типов потребителей в определенные промежутки времени величина (5) может быть больше, чем для всего набора данных. Это видно из рис. 18.4 (а), (б), (в). Утверждается, что экстремальные точки графика для всего набора данных (наибольшие значения в и один локальный максимум в сохраняются, будучи более или менее выраженными и для соответствующих кривых полученных типов. В этих точках графики средней потребляемой мощности как для всего набора данных, так и для типов имеют локальные минимумы. Большие значения коэффициента вариации в периоды времени, когда средняя потребляемая мощность мала, являются

следствием характера потребления в эти периоды «все или ничего». Особенно характерно это для типов, отличающихся в среднем небольшой потребляемой мощностью в точках, где коэффициент вариации превосходит свое значение для всей совокупности. Для того чтобы смягчить такие, в данном случае неприятные, эффекты, следует ввести дополнительные весовые коэффициенты для всех главных компонент, кроме одной, выражающей различия в потребляемой средней мощности. Эти веса должны придать одинаковую важность всем промежуткам времени (см. пояснения к рис. 18.3 о корреляции исходных переменных с первой главной компонентой).

Рис. 18.4(a). Кривая средних нагрузок и кривая зависимости коэффициента вариации в процентах от времени по выборке из 453 потребителей электроэнергии низкого напряжения, пользующихся обычным тарифом

Надо сделать так, чтобы алгоритм сокращал излишки дисперсии в моменты времени которым соответствуют большие значения Для этого введем расстояние между объектами следующим образом:

где мощность, потребляемая объектом в промежуток времени; выборочное среднее значение потребляемой мощности в промежуток времени.

Если теперь расписать критерий межклассовой дисперсии, задаваемый формулой (3), то станет ясно, почему мы выбрали такую систему весов:

Нельзя сказать, что в этой формуле переменные некоррелированы. Тем не менее можно думать, что после равномерной минимизации (7) по всем отрезкам времени (классификация по средней потребляемой мощности, которая соответствует первой главной компоненте) по причине сильной положительной корреляции переменных с первой главной компонентой алгоритм учтет взвешивание при классификации кривых по их форме и, таким образом, дисперсия в промежутки времени с большими значениями будет уменьшена.

Рис. 18.4(б). (см. скан) Разбиение выборки из 453 потребителей электроэнергии низкого напряжения, пользующихся обычным тарифом, на 4 типа

Такая модификация метрики в пространстве объектов может быть сведена к простому преобразованию исходных данных (мощность, потребляемая в промежуток времени делится на среднюю мощность Полученная

в результате классификация перестает быть оптимальной в смысле предыдущего критерия, но, естественно, является оптимальной, в смысле критерия (7). Как уже говорилось, такая система весов производит ожидаемый эффект: кривые для отдельных классов сглаживаются и не превышают коэффициент вариации для исходной выборки.

Рис. 18.4(b). (см. скан) Кривая зависимости от времени коэффициента вариации для каждого типа потребителей

Поэтому расстояние (6) будет использовано при решении нашей задачи.

18.3.2.3. Предварительные результаты

Ниже будут приведены результаты классификации 1243 потребителей, каждый из которых задается значениями 31 переменной, соответствующей загруженному времени суток. Было произведено четыре

прогона программы, реализующей метод динамических сгущений, максимальное число классов задавалось равным 20. Выбор большого числа классов объясняется желанием получить побольше устойчивых форм, которые мы ищем на первом шаге. На вход программы при каждом прогоне подавались в качестве начальных ядер классов тройки объектов, выбранных случайным образом. При выбранной метрике были получены 152 устойчивые формы.

На втором шаге была проделана восходящая иерархическая классификация полученных устойчивых форм.

Рис. 18.5. Кривая зависимости среднего значения от числа классов на различных уровнях иерархии устойчивых форм при классификации 1243 потребителей электроэнергии низкого напряжения в загруженный период

В качестве критерия бралась дисперсия, расстояние не менялось, и учитывались весовые коэффициенты исходных устойчивых форм. Кривая зависимости доли межклассовой дисперсии от числа классов на различных уровнях иерархии выявляет довольно чистую типологию, состоящую из четырех типов. Нижняя часть этой кривой (начиная с 24 классов) приводится на рис. 18.5.

Кривая межклассовой дисперсии определялась по переменным, которые вносят наибольший вклад в разделение типов потребителей, т. е. объясняющим до 80% межклассовой дисперсии. Смысл отбора наиболее информативных переменных на каждом уровне перегруппировки (очевидно, что на разных уровнях эти переменные различны) в том, чтобы ограничить долю незначимой дисперсии в разделении типов.

Такое выделение наиболее значимых типов производится по рис. 18.5 проще, чем по кривой общей дисперсии. Можно считать, что доля дисперсии дается предварительным анализом главных компонент в зависимости от доли дисперсии, объясняемой достаточным для хорошей интерпретации числом главных компонент. В программе классификации доля межклассовой инерции считается параметром, который часто берут равным 80% без точных обоснований.

При решении данной задачи мы ограничились первыми двумя шагами, не пытаясь оптимизировать четыре класса, найденные методом восходящей иерархии.

Рис. 18.6(a). Кривые средней потребляемой мощности и коэффициента вариации в загруженный период для исходной совокупности из 1243 потребителей электроэнергии

На рис. 18,6 (а) представлена кривая средних нагрузок и, что нас особенно интересует, кривая зависимости коэффициента вариации от времени в загруженный период суток для всего набора данных. Обратим внимание на точки локального максимума, соответствующие Согласно (7) относительное уменьшение дисперсии в эти часы должно быть наиболее сильным. В действительности наиболее сильное уменьшение дисперсии наблюдается после полудня, но ближе к а не в Можно сделать вывод, что четыре найденных типа не очень хорошо оптимизируют критерий (7) (и это не удивительно, потому что на таком высоком уровне иерархии накапливается большое число отклонений от оптимума в результате последовательных перегруппировок). Поэтому интересно рассмотреть значения для типологии устойчивых форм, полученных на первом шаге. Точка, соответствующая видна сразу, точка не так очевидна (соответствующее значение в это время максимально среди утренних часов, но оно меньше, чем для некоторых периодов времени во второй половине дня). Для того чтобы понять это явление, следует вернуться к связям между переменными. Анализ главных компонент показал, что незагруженные послеобеденные часы отрицательно связаны с утренними промежутками времени

(третья компонента анализа ненормированных данных), тогда как утреннее время отрицательно связано с периодом мин (вторая компонента). Очевидно, что эти корреляции не изменились при взвешивании переменных. Напротив, они изменяют главные оси инерции, которые приобретают направление, определяемое наибольшими значениями относительной дисперсии. Вечерние часы имеют явно меньше, чем утренние, и потому компонента, связывающая вечернее время с утренним, получает большой вес.

Рис. 18.6(б). Кривые средней потребляемой мощности и коэффициента вариации для каждого из трех типов, полученных в результате окончательного разделения исходной совокупности

Она становится второй после компоненты, определяющей уровень потребляемой мощности (которая не меняется при взвешивании). Таким образом, при классификации уменьшается на интервале и утром (особенно в этим объясняются большие значения при классификации на 4 типа.

18.3.2.4. Окончательная классификация на 3 типа

Рассмотренная классификация выборки из потребителей электроэнергии низкого напряжения составляет только первый этап анализа. Затем была сделана попытка объяснить найденные классы с помощью внешних переменных: технических (плата за электроэнергию, тариф, потребление за год) и социально-экономических (виды

электроприборов, тип жилища, возраст и т. п.). По этим переменным имелись анкетные данные тех же потребителей. После преобразования количественных переменных в качественные была построена таблица сопряженности между четырьмя найденными типами и различными градациями переменных. Факторный анализ соответствий позволил различить типы потребителей с помощью имеющихся внешних переменных.

Наиболее экспликативными оказались следующие признаки: суммарное потребление за год в загруженный период, наличие электроприборов, тип жилища и социально-профессиональная категория. Однако по этим переменным оказалось невозможным различать два типа, характеризуемых наибольшей потребляемой мощностью, к которым относится 3,2 и 2,1% выборки. Поэтому было решено объединить эти типы. На рис. 18.6 (б) представлены кривые средней потребляемой мощности и коэффициента вариации для полученных таким образом трех типов. Интересно сравнить их с соответствующими кривыми для исходной совокупности на рис. 18.6 (а). Следует отметить различия в объемах найденных классов: 57% выборки принадлежит первому классу, характеризующемуся небольшой потребляемой мощностью -второму классу, к которому относятся потребители, использующие примерно вдвое больше электроэнергии тогда как 6% выборки относится к третьему классу с очень большим потреблением Заметим, также упомянутое выше уменьшение коэффициента вариации по крайней мере на 30%. Класс с высоким уровнем потребления характеризуется дисперсией, явно меньшей, чем средняя дисперсия.

18.3.2.5. Замечания по проведенной классификации и дополнения

Классификация той же выборки по незагруженному периоду (17 переменных) привела также к выделению трех классов. За исключением первого класса, содержащего большую часть совокупности, который характеризуется низким уровнем потребления электроэнергии, не существует заметных пересечений классов соответствующих уровней потребления при классификации по загруженному и незагруженному периодам. Следовательно, при классификации потребителей имеет смысл отдельно рассматривать каждый из двух периодов.

После того как проведена классификация потребителей электроэнергии низкого напряжения по данным, измеренным в один день недели, на которую выпадает самая большая нагрузка в году, было бы интересно знать, сохраняется ли характер потребления в другие дни. Решено было считать, что характер потребления сохраняется, если дисперсия потребляемой мощности внутри найденных классов мало меняется в другие дни. На основании анализа был сделан вывод, что классификация по данным, снятым во вторник второй недели января, является разбиением потребителей, поведение которых мало меняется в течение всего года. Это дает возможность косвенным образом сравнить потребителей, используя всю имеющуюся информацию, т. е. потребление ими электроэнергии в течение всего года.

Далее была сделана попытка различить выделенные типы по внешним переменным. Оказалось, что значения переменных, обладающих наилучшей дискриминантной способностью, содержатся в платежных карточках потребителей. Таким образом, для обоих периодов суток появилась возможность определить класс, которому принадлежит данный потребитель исходя лишь из его тарифа и мощности электроэнергии, потребляемой им за год.

С точки зрения приложений представленные результаты классификации составляют только первый этап. Они могут служить отправной точкой для более тонких статистических исследований каждого класса.

18.3.3. Графики нагрузки для потребителей электроэнергии среднего напряжения

18.3.3.1. Данные

Исходными данными является выборка из 190 потребителей электроэнергии среднего напряжения. В нее вошли предприятия промышленности и сферы обслуживания. Каждый потребитель задается тремя графиками нагрузки: в субботу 15 декабря 1973 г., в воскресенье 16 декабря и в среду 19 декабря того же года. Каждая кривая строится по точкам, соответствующим потребляемой мощности за -минутные промежутки времени. Таким образом, каждым суткам соответствует 48 значений мощности. Характер потребления не связывался a priori с потребляемой мощностью. Производилась классификация по преобразованным кривым нагрузок. Собранные по трем дням 144 значения потребляемой мощности делились на среднее значение для среды. Таким образом, можно сравнивать потребителей по форме кривых в среду, по уровню потребляемой мощности и форме кривых в субботу и воскресенье.

Проводились две классификации. Вначале классифицировались потребители по преобразованным данным, снятым в среду, затем, определяя для каждого потребителя недельную кривую нагрузки присоединением к субботней и воскресной кривым пяти кривых, аналогичных измеренной в среду, производилась классификация по всей неделе.

В обоих случаях применялся метод выявления типологии, описанный в гл. 2, причем использовалась евклидова метрика. Выбор других параметров классификации приводится одновременно с результатами.

18.3.3.2. Результаты

1. Типология, построенная по данным за среду. Был проведен ряд экспериментов для того, чтобы оценить влияние основных параметров программы, реализующей метод динамических сгущений (максимальное число классов, число прогонов программы с различными случайными выборами исходных ядер, априорный выбор ядер), на

типологию. Оказалось, что во всех случаях анализ графика зависимости межклассовой дисперсии от уровня перегруппировки устойчивых форм привел к разбиению на пять классов (рис. 18.7), которые характеризуются следующими видами потребления электроэнергии: равномерным, слабо модулированным, сильно модулированным, «два пика» и потреблением с кратковременными перерывами.

Рис. 18.7. (см. скан) Классификация 190 потребителей электроэнергии среднего напряжения на 5 типов. Третья среда декабря 1973 г.

Доля межклассовой дисперсии в общей дисперсии довольно мала: около 35% (в предыдущем примере классификации на четыре типа критерий объяснял 42% общей дисперсии). Усредненные кривые, представляющие полученные классы, мало менялись при различных прогонах, тогда как числа элементов, попавших в каждый из классов, претерпевали значительные колебания. Это видно из табл. 18.1. Можно сказать, что 66% объектов

сохраняли свое положение при пяти прогонах. Довольно большая ооля потребителей, отнесенных при первом втором и пятом прогонах к классу со слабо модулированным потреблением при Других двух прогонах оказывалась в классе с равномерным потреблением. Это, как видно рис. 18.7, заметно изменяло соответствующие кривые нагрузок,

Таблица 18.1. (см. скан) Результаты пяти прогонов

При пятом прогоне в качестве ядер использовались графики, лучше всего представляющие соответствующие классы в предыдущих препонах, Преследовалась цель хорошего разделений равномерного (1-й тип) и слабо модулированного (2-й тип) потребления. Представительные элементы исходйых классов при пяти прогонах программы в Последнем протоне выбирались соображений наилучшего раздельная пятй тйпой, а особенно первого и второго. Полученные пять Классов дают наилучшее разделение типов, и поэтому было решено их взять в качестве окончательного результата. Их можно сравнить ряс. 18.7) с результатами четвертого прогона, где первый и второй типы разделяются хуже.

Неустойчивость полученных классов, на наш взгляд, можно объяс нить следующим образом. Хотя анализ главных компонент и не проводился для этих данных, результаты, полученные для потребителей электроэнергии низкого напряжения, наводят на мысль, что факторы, объясняющие форму кривых, могут обладать близкими инерциями (для потребителей электроэнергии низкого напряжения это второй и третий факторы). Сказанное означает, что множество точек, соответствующих объектам, довольно равномерно распределяется в пространстве, порожденном первыми факторными осями, т. е. не существует направления, вдоль которого эти точки вытянулись бы, что дало бы возможность их легко разделить на типы потребителей. Таким образом, хоть и выделяются довольно явно пять классов, между ними нельзя провести четкие границы.

Неустойчивость полученной типологии, а особенно трудность интерпретации результатов классификации по графику суточной нагрузки с помощью месячных или годовых характеристик, которые, как правило, имеются у нас в распоряжении, приводит к необходимости классификации потребителей по графику недельной нагрузки.

2. Типология, построенная по данным за неделю. В этом случае каждому потребителю соответствовали семь графиков суточной нагрузки, пять из которых были аналогичны графику потребления в среду (все данные о потребляемой мощности были поделены на среднее для среды значение). Как и в предыдущем случае, было проделано несколько прогонов. Анализ зависимости межклассовой дисперсии от числа классов привел к выявлению шести классов. При этом доля межклассовой дисперсии составила 45% общей дисперсии. Усредненные кривые, представляющие полученные классы, а также число элементов, попавших в каждый из классов, относительно мало менялись при различных прогонах.

Для лучшего разделения соседних классов было проведено пять прогонов программы, при этом каждый раз по-новому выбирались исходные ядра, представляющие шесть классов. В прогоне, результаты которого были признаны окончательными, найдено 33 устойчивые формы. Зависимость отношения межклассовой дисперсии к общей от числа классов иерархии устойчивых форм имеет следующий вид:

(см. скан)

Это привело к выделению шести классов. Соответствующие усредненные кривые изображены на рис. 18.8. Итак, были выявлены следующие типы:

Тип 1 «Равномерное потребление»: 24 объекта, для которых потребляемая мощность практически постоянна для всей недели (1 базисная устойчивая форма из 24 объектов).

Тип 2 «Модулированное потребление во все дни»: 26 объектов с модулированным характером потребления

(загруженные—незагруженные часы) в течение всей недели, модуляция в среду выражена сильнее, чем в воскресенье (1 базисная форма из 19 объектов).

Тип 3 «Потребление с перерывами»: 16 объектов, для которых характерно очень слабое потребление в некоторые периоды (1 базисная устойчивая форма из 12 объектов).

Тип 4 «Слабо модулированное потребление»: 38 объектов, характеризующихся слабо модулированным потреблением в рабочие дни недели и очень слабо модулированным в субботу утром, в воскресенье они потребляют постоянную незначительную мощность (3 базисные устойчивые формы из 13, 9 и 7 объектов).

Тип 5 «Сильно модулированное потребление»: 65 объектов, для которых потребление электроэнергии сильно модулировано в рабочие дни, модулировано в субботу утром, постоянно и незначительно в воскресенье (1 базисная устойчивая форма из 47 объектов).

Тип 6 «Два пика»: 21 объект, характеризующийся большим потреблением с 8 до 12 ч и с 14 до 18 ч в рабочие дни, довольно большим в субботу утром и незначительным в остальное время (1 устойчивая форма из 14 объектов).

Эти результаты позволяют утверждать, что все 6 типов довольно «монолитны», поскольку 76% выборки (145 объектов из 190) оказываются перегруппированными в 8 базисных устойчивых форм. Наряду с этим согласно рис. 18.8 типы довольно хорошо различимы (усредненные кривые нагрузки различимы, стандартные отклонения довольно малы). По численности полученные классы весьма однородны: они содержат соответственно 12,7; 13; 8,4; 20; 34,2; 11% всех рассматриваемых объектов. Повеем этим причинам полученную типологию было решено считать удовлетворительной и использовать для дальнейшего анализа данной выборки из потребителей электроэнергии среднего напряжения.

С другой стороны, нам казалось интересным сравнить эту типологию с результатами, полученными при классификации тех же потребителей по преобразованным данным, измеренным в среду. Прежде всего заметим, что лишняя группа (модулированное потребление во все дни) возникла из-за различий в потреблении в воскресные дни. Однако главное то, что полученная типология намного устойчивее относительно различных прогонов, чем в предыдущем случае. Эта устойчивость подтверждается монолитностью классов, о которой уже говорилось, и тем, что доля межклассовой дисперсии возросла с 35 до 45 %. Пять классов типологии, выявленной в среду, разделяются намного лучше, если данные о потребителях задаются в виде пяти кривых, аналогичных графику в среду и присоединенных к графикам субботы, воскресенья. Нам кажется, что это можно объяснить тем, что небольшие различия близких кривых в один день во втором случае повторялись пять раз. Отклонения, которые ранее могли сойти за случайные, теперь стали значительными. Иначе говоря, факторы различия кривых в среду имели во втором случае намного больший вес, что и облегчило разделение типов.

При данной задаче анализ поведения объектов в один день оказывается недостаточным для однозначного определения, к какому типу

относится тот или иной потребитель Были сделаны попытки разделения найденных типов с помощью внешних характеристик, обладающих наибольшей дискриминантной способностью. Перераспределение исходной выборки привело к уменьшению ошибок при определении первого (равномерное потребление), третьего (потребление с перерывами)

Рис. 18.8. (см. скан) Окончательная классификация 190 потребителей электроэнергии низкого напряжения на типов по 3-й неделе декабря 1973 г.

и пятого (сильно модулированное потребление) типов, которые составляют три главных типа потребления. Графики, соответствующие различным типам, практически не изменились. Такая дискриминация могла быть проведена только исходя из достаточно четкой типологии, которую сделало возможным наблюдение объектов в течение недели.

<< Предыдущий параграф Следующий параграф >>
Оглавление