| Аннотация | Один из важных инструментов анализа и предсказания функционирования рынков электроэнергии - это агент-ориентированные модели, в которых имитируется поведение децентрализованных агентов (например, производителей и покупателей), у каждого из которых собственные цели и возможности. В этих моделях большую роль играет самообучение агентов, подающих ценовые заявки на оптовом рынке. В процессе повторяющихся взаимодействий агент адаптируется к окружающей обстановке и поведению других агентов, учится предсказывать результаты своих действий. В статье представлена модификация классического алгоритма обучения с подкреплением Эрева-Рота, принимающая во внимание расстояния между альтернативами. Предложенный модифицированный алгоритм был применен для обучения агентов в агент-ориентированной модели оптового рынка электроэнергии России (сибирская ценовая зона) в рамках рынка на сутки вперед. Показано, что он обладает рядом существенных преимуществ по сравнению с исходным алгоритмом. В частности, алгоритм хорошо поддается интерпретации, устойчив к выбору величины шага дискретизации, инвариантен к сдвигу шкалы выигрышей. В целом алгоритм более гибок, чем исходный. При использовании модифицированного алгоритма наблюдается хорошее соответствие между динамикой модельной цены и наблюдаемой динамикой цены на рынке. |