Бази даних

Автореферати дисертацій - результати пошуку

Mozilla Firefox Для швидкої роботи та реалізації всіх функціональних можливостей пошукової системи використовуйте браузер
"Mozilla Firefox"

Вид пошуку
Формат представлення знайдених документів:
повнийстислий
 Знайдено в інших БД:Наукова електронна бібліотека (2)Реферативна база даних (11)
Пошуковий запит: (<.>K=S&P<.>)
Загальна кількість знайдених документів : 1

      
1.

Кнігніцька Т. В. 
Оцінки параметрів авторегресійних моделей: автореферат дис. ... д.філософ : 113 / Т. В. Кнігніцька. — Б.м., 2023 — укp.

Дисертаційна робота присвячена знаходженню відстаней між вимірюваннями даних, які представлені часовими рядами, та визначенню оптимальної кількості кластерів на основі власних значень стохастичної матриці графа. Дисертація складається із вступу, трьох розділів, висновків та переліку використаних джерел. У вступі обгрунтовано актуальність теми дослідження, сформульовано мету, завдання, предмет, об'єкт та методи дослідження, вказано наукову новизну, практичне значення отриманих результатів, зв'язок роботи з науковими дослідженнями та особистий внесок здобувача, а також наведено дані про те, де доповідались, обговорювались та були опубліковані основні результати дисертації. У першому розділі здійснено огляд наукової літератури, присвяченої дослідженню часових рядів, зокрема, визначенню метрик подібності між часовими рядами та підходи до кластеризації даних, які представлені у вигляді неструктурованих типів даних. Детально проаналізовано хронологію розвитку наукових підходів до задач кластеризації, класифікації, зменшення розмірності часових рядів. Розділ 1 відображає загальний огляд розвитку наукових досліджень при дослідженні часових рядів та існуючі метрики для встановлення подібності між часовими рядами. Тут наведено методи дослідження структурних стрибків у часових рядах та зроблено огляд наукових досліджень, які стосуються неперервних часових рядів. Вибір оптимальної кількості кластерів при поділі даних на групи також представлено у розділі 1.У другому розділі запропоновано визначати подібність або відстань між часовими рядами за допомогою моделей часових рядів. Запропонований алгоритм для встановлення подібності двох наборів даних використовує параметри моделі, а не самі вимірювання. У якості моделей часових рядів розглянуто стаціонарні ARMA моделі. Отриманий алгоритм порівнюється з уже існуючими метриками знаходження відстаней у випадку збільшення вимірювань часового ряду та у випадку зростання кількості викидів у вхідному часовому ряді. Отриманий алгоритм має меншу обчислювальну складність, ніж алгоритми Евкліда, DTW та ERP. Запропоновану відстань можна використовувати для кластеризації сильно зашумлених даних.Наукову новизну висновків, зроблених на основі отриманих у другому розділі результатів, розкривають такі положення: Описано алгоритм для знаходження відстані між часовими рядами на основі моделей часових рядів. Отримана відстань є більш стійкою до викидів у часових рядах. У випадку збільшення кількості викидів запропонований у дисертаційному дослідженні алгоритм дає кращі результати (відносна похибка зростає логарифмічно), ніж аналогічні алгоритми (Евклідова відстань, ERP, DTW) для знаходження відстані між часовими рядами (відносна похибка зростає лінійно).Запропонований метод знаходження відстані між вимірюваннями часового ряду дає кращі результати для великих часових рядів, коли кількість вимірювань T > 1000. До того ж обчислювальна складність отриманого алгоритму є меншою за обчислювальну складність уже існуючих алгоритмів.У третьому розділі розглянуто проблему кластеризацiї на графах на основi власних значень стохастичної матрицi графа. Доведено, що власнi значення стохастичної матрицi для великих графiв (N >100) подiляються на три групи, одна iз яких є визначальною для числа кластерiв у графi. Використовуючи теорiю випадкових матриць, вдалося показати, що асимптотичний розподiл пiдгрупи дiйсних частин власних значень стохастичної матрицi графу описується напiвколовим розподiлом Вiгнера. Використання стохастичних матриць дало змогу точно локалiзувати власнi значення, що вiдповiдають за кiлькiсть кластерiв, чого не вдавалося зробити для матриць сумiжностi. Основнi припущення моделi пов’язанi з властивостями дискретних ланцюгiв Маркова, що дозволяє розширити область застосування отриманих результатiв на бiльш широкий клас об’єктiв. Теоретичнi результати перевiренi на кластеризацiї часових рядiв,що описують вартостi N = 470 акцiй S&P500 в перiод з 2013 до 2018 року.Наукову новизну висновків, зроблених на основі отриманих у третьому розділі результатів, розкривають такі положення: У роботi запропоновано новий метод визначення оптимальної кiлькостi кластерiв при кластеризацiї об’єктiв, що задаються неструктурованими даними (графами та часовими рядами) на основi спектрального аналiзу стохастичної матрицi даного графу.Використовуючи метод Монте-Карло, вдалося показати, що запропонований метод дає кращi результати для визначення оптимальної кiлькостi кластерiв у порiвняннi iз деякими класичними методами.^UThe dissertation work is devoted to finding the distances between data measurements, which are represented by time series, and determining the optimal number of clusters based on the eigenvalues of the stochastic matrix of the graph. The dissertation consists of an introduction, three sections, conclusions and a list of used sources.The introduction substantiates the relevance of the research topic, formulates the goal, task, subject, object and research methods, indicates the scientific novelty, the practical significance of the results obtained, the connection of the work with scientific research and the personal contribution of the recipient, and also provides data on where the main results of the dissertation were reported, discussed and published. In the first section, a review of the scientific literature devoted to the study of time series, in particular, the determination of similarity metrics between time series and approaches to clustering data, which are presented in the form of unstructured data types, is carried out. The chronology of the development of scientific approaches to the problems of clustering, classification, and dimensionality reduction of time series is analyzed in detail. Chapter 1 presents a general overview of the development of scientific research in the study of time series and existing metrics for establishing similarity between time series. Methods for studying structural jumps in time series are presented here, and an overview of scientific research related to continuous time series is provided. The selection of the optimal number of clusters when dividing the data into groups is also presented in section 1.In the second section, it is proposed to determine the similarity or distance between time series using time series models. The proposed algorithm uses model parameters rather than the measurements themselves to establish the similarity between two data sets. Stationary ARMA models are considered as time series models. The resulting algorithm is compared with already existing metrics for finding distances in the case of an increase in time series measurements and in the case of an increase in the number of outliers in the input time series. The resulting algorithm has lower computational complexity than the Euclidean, DTW, and ERP algorithms. The proposed distance can be used for clustering highly noisy data.The scientific novelty of the conclusions drawn on the basis of the results obtained in the second section is revealed by the following provisions:An algorithm for finding the distance between time series based on time series models is described. The resulting distance is more robust to outliers in the time series. In the case of an increase in the number of emissions, the algorithm proposed in the dissertation research gives better results (the relative error increases logarithmically) than similar algorithms (Euclidean distance, ERP, DTW) for finding the distance between time series (the relative error increases linearly).The proposed method of finding the distance between time series measurements gives better results for large time series when the number of measurements T > 1000. In addition, the computational complexity of the obtained algorithm is lower than the computational complexity of already existing algorithms.In the third section, the problem of clustering on graphs based on the eigenvalues of the stochastic matrix of the graph is considered. It is proved that the eigenvalues of the stochastic matrix for large graphs (N >100) are divided into three groups, one of which is the determinant for the number of clusters in the graph. Using the theory of random matrices, it was possible to show that the asymptotic distribution of the subgroup of the real parts of the eigenvalues of the stochastic matrix of the graph is described by the semicircular Wigner distribution. The use of stochastic matrices made it possible to precisely localize the eigenvalues responsible for the number of clusters, which could not be done for adjacency matrices. The main assumptions of the model are related to the properties of discrete Markov chains, which makes it possible to expand the scope of the obtained results to a wider class of objects. The theoretical results were tested on the clustering of time series describing the values of N = 470 S&P500 shares in the period from 2013 to 2018.The scientific novelty of the conclusions drawn on the basis of the results obtained in the third section is revealed by the following provisions:The paper proposes a new method for determining the optimal number of clusters when clustering objects given by unstructured data (graphs and time series) based on the spectral analysis of the stochastic matrix of the given graph.Using the Monte Carlo method, it was possible to show that the proposed method gives better results for determining the optimal number of clusters in comparison with some classical methods.


Шифр НБУВ: 05 Пошук видання у каталогах НБУВ 
 

Всі права захищені © Національна бібліотека України імені В. І. Вернадського