Математическое моделирование и вычислительный эксперимент
Правильная ссылка на статью:
Труб И.И.
Об аппроксимации выходных данных вероятностной модели иерархических битовых индексов
// Программные системы и вычислительные методы.
2018. № 4.
С. 102-113.
DOI: 10.7256/2454-0714.2018.4.27809 URL: https://nbpublish.com/library_read_article.php?id=27809
Аннотация:
Предметом исследования является вероятностная модель иерархических битовых индексов баз данных. Объектом исследования являются выходные данные модели - трехпараметрическое дискретное распределение количества индексов для реализации запросов к базе данных, параметризуемое интенсивностью занесения записей в базу, средней длиной запроса и размером крупного индекса. Автор рассматривает такие аспекты темы как выбор гипотезы из известных теоретических распределений, методика проверки гипотезы, подбор функций для приближения зависимости математического ожидания от третьего параметра, подбор функции для приближения зависимости точки минимума математического ожидания по третьему параметру от первых двух. Исследование таких зависимостей объясняется тем, что оптимальный выбор именно третьего параметра является целью проектировщика, а первые два - это исходные данные модели. Методологией исследования являются методы математической статистики, в частности, оценка параметров и критерий Пирсона проверки гипотез, методы построения наилучших приближений, в частности, метод наименьших квадратов, теория кривых третьего порядка. Основные выводы проведенного исследования: наилучшей аппроксимацией для исследуемого семейства распределений является распределение Пойа; наилучшими приближениями для зависимости математического ожидания от третьего параметра являются модель Бэкона-Уаттса и теплоемкостная модель. Особым вкладом автора в исследование темы является вывод эмпирической формулы, имеющей практическое значение. Она позволяет проектировщику на основе первых двух параметров сразу, без использования громоздких расчетов по модели, получить приближенное оптимальное значение третьего параметра и построить таким образом индекс базы данных оптимального размера. Новизна исследований заключается в получении приближенных зависимостей для нового вида распределения, которое невозможно описать замкнутой формулой.
Ключевые слова:
анализ выходных данных, метод наименьших квадратов, теплоемкостная модель, кривые третьего порядка, модель Бэкона-Уаттса, отрицательное биномиальное распределение, распределение Пойа, дискретное распределение вероятностей, иерархические битовые индексы, степенная функция
Abstract:
The subject of the study is a probabilistic model of hierarchical bit indexes of databases. The object of the study is the output of the model — a three-parameter discrete distribution of the number of indexes for implementing queries to the database, parametrized by the intensity of recording records in the database, the average query length, and the size of a large index. The author considers such aspects of the topic as the choice of a hypothesis from known theoretical distributions, a method for testing a hypothesis, selection of functions for approximating the dependence of the expectation on the third parameter, selection of a function for approximating the dependence of the minimum point of the expectation for the third parameter from the first two. The study of such dependencies is explained by the fact that the optimal choice of the third parameter is the goal of the designer, and the first two are the initial data of the model. The methodology of the research is the methods of mathematical statistics, in particular, the estimation of parameters and the Pearson criterion of testing hypotheses, methods for constructing the best approximations, in particular, the method of least squares, the theory of curves of the third order. The main conclusions of the study: the best approximation for the studied family of distributions is the Polya distribution; The best approximations for the dependence of the expectation on the third parameter are the Bacon-Watts model and the heat capacity model. A special contribution of the author to the study of the topic is the derivation of an empirical formula that has practical significance. It allows the designer on the basis of the first two parameters at once, without using cumbersome calculations on the model, to obtain an approximate optimal value of the third parameter and thus construct an index of the database of the optimal size. The novelty of the research lies in obtaining approximate dependencies for a new type of distribution that cannot be described by a closed formula.
Keywords:
power function, output analysis, least square method, heat capacity model, third order curves, Bacon-Watts model, Polia distribution, negative binomial distribution, discrete probability distribution, hierarchical bitmap indexes