Труб И.И. —
Об аппроксимации выходных данных вероятностной модели иерархических битовых индексов
// Программные системы и вычислительные методы. – 2018. – № 4.
– С. 102 - 113.
DOI: 10.7256/2454-0714.2018.4.27809
URL: https://e-notabene.ru/itmag/article_27809.html
Читать статью
Аннотация: Предметом исследования является вероятностная модель иерархических
битовых индексов баз данных. Объектом
исследования являются выходные данные модели - трехпараметрическое дискретное распределение количества индексов для реализации запросов
к базе данных, параметризуемое интенсивностью занесения записей в базу, средней длиной запроса и размером крупного индекса.
Автор рассматривает такие аспекты темы как выбор гипотезы
из известных теоретических распределений, методика проверки гипотезы,
подбор функций для приближения зависимости математического
ожидания от третьего параметра, подбор функции для приближения
зависимости точки минимума математического ожидания по третьему
параметру от первых двух. Исследование таких зависимостей
объясняется тем, что оптимальный выбор именно третьего параметра
является целью проектировщика, а первые два - это исходные данные модели.
Методологией исследования являются методы математической статистики,
в частности, оценка параметров и критерий Пирсона проверки гипотез,
методы построения наилучших приближений, в частности, метод наименьших квадратов, теория кривых третьего порядка.
Основные выводы проведенного исследования: наилучшей
аппроксимацией для исследуемого семейства распределений является
распределение Пойа; наилучшими приближениями для
зависимости математического ожидания от третьего параметра являются модель Бэкона-Уаттса и теплоемкостная модель. Особым вкладом автора в исследование темы является вывод эмпирической формулы, имеющей практическое значение. Она позволяет проектировщику на основе первых двух параметров сразу, без использования громоздких расчетов по модели, получить приближенное оптимальное значение третьего параметра и построить таким образом индекс базы данных оптимального размера. Новизна исследований заключается в получении приближенных зависимостей для нового вида распределения, которое невозможно описать замкнутой формулой.
Abstract: The subject of the study is a probabilistic model of hierarchical bit indexes of databases. The object of the study is the output of the model — a three-parameter discrete distribution of the number of indexes for implementing queries to the database, parametrized by the intensity of recording records in the database, the average query length, and the size of a large index. The author considers such aspects of the topic as the choice of a hypothesis from known theoretical distributions, a method for testing a hypothesis, selection of functions for approximating the dependence of the expectation on the third parameter, selection of a function for approximating the dependence of the minimum point of the expectation for the third parameter from the first two. The study of such dependencies is explained by the fact that the optimal choice of the third parameter is the goal of the designer, and the first two are the initial data of the model. The methodology of the research is the methods of mathematical statistics, in particular, the estimation of parameters and the Pearson criterion of testing hypotheses, methods for constructing the best approximations, in particular, the method of least squares, the theory of curves of the third order. The main conclusions of the study: the best approximation for the studied family of distributions is the Polya distribution; The best approximations for the dependence of the expectation on the third parameter are the Bacon-Watts model and the heat capacity model. A special contribution of the author to the study of the topic is the derivation of an empirical formula that has practical significance. It allows the designer on the basis of the first two parameters at once, without using cumbersome calculations on the model, to obtain an approximate optimal value of the third parameter and thus construct an index of the database of the optimal size. The novelty of the research lies in obtaining approximate dependencies for a new type of distribution that cannot be described by a closed formula.
Труб И.И. —
Вероятностная модель иерархических индексов базы данных
// Программные системы и вычислительные методы. – 2017. – № 4.
– С. 15 - 31.
DOI: 10.7256/2454-0714.2017.4.24437
URL: https://e-notabene.ru/itmag/article_24437.html
Читать статью
Аннотация: Предметом исследования является предложенная автором концепция иерархических bitmap-индексов. Она заключается в том, что в целях повышения производительности обработки запросов по фильтру времени индексы поддерживаются не только для значений основной единицы времени, но и произвольных более крупных кратных единиц. Объектом исследования является построение аналитической вероятностной модели таких индексов для частного случая экспоненциального распределения случайного потока занесения записей в базу данных. Автор уделяет основное внимание такому аспекту как вычисление дискретного распределения количества индексов, участвующих в обработке запроса. Методологией исследования являются теория вероятностей, методы комбинаторики, теория меры, вычислительный эксперимент. Кроме того, показано, что для исследования особенностей предложенной модели могут быть использованы новейшие понятия теории клеточных автоматов, такие как окрестность Зайцева. Основные результаты работы можно сформулировать следующим образом: введена оригинальная, интуитивно понятная концепция построения индексов; сформулированы новые, содержательные задачи оптимизации для выбора системы иерархических индексов; построена и верифицирована математическая модель, позволяющая оценить эффективность использования выбранной иерархии индексов. Показано, что в предельном случае модель естественным образом стремится к множеству фрактальной природы, в частности, одной из разновидностей канторовой пыли, для которой выведена формула вычисления ее размерности Хаусдорфа-Безиковича через прикладные параметры исходной задачи.
Abstract: The subject of the study is the concept of hierarchical bitmap-indexes proposed by the author. It is that in order to improve the processing performance of queries on the time filter, the indices are supported not only for the values of the basic unit of time, but also for arbitrary larger multiple units. The object of the study is the construction of an analytic probability model of such indices for the particular case of the exponential distribution of a random stream of recording records in a database. The author focuses on such an aspect as the calculation of the discrete distribution of the number of indices involved in the processing of the query. The methodology of the study is probability theory, combinatorial methods, measure theory, computational experiment. In addition, it is shown that the latest concepts of the theory of cellular automata, such as the Zaitsev's neighborhood, can be used to study the features of the proposed model. The main results of the work can be formulated as follows: introduced an original, intuitive concept of building indexes; new, meaningful optimization problems for selecting a hierarchical index system are formulated; a mathematical model is constructed and verified, allowing to estimate the efficiency of using the chosen hierarchy of indices. It is shown that in the limiting case the model naturally tends to a set of fractal nature, in particular, one of the varieties of Cantor dust, for which the formula for calculating its Hausdorff-Besicovitch dimension is derived through the application parameters of the initial problem.
Труб И.И. —
Численное моделирование общей задачи распределения количества bitmap-индексов
// Программные системы и вычислительные методы. – 2017. – № 3.
– С. 35 - 53.
DOI: 10.7256/2454-0714.2017.3.22952
URL: https://e-notabene.ru/itmag/article_22952.html
Читать статью
Аннотация: Предметом исследования является математическая модель в виде системы рекуррентных интегральных соотношений, описывающая распределение количества единичных интервалов, в которых произошло по крайней мере одно событие случайного потока с произвольной функцией распределения. Рассмотрены многочисленные аспекты численной реализации этой системы, такие как выбор метода обращения преобразования Лапласа, численное интегрирование вблизи точек разрыва, обеспечение устойчивости вычислений, контроль достоверности результатов, учет особенностей машинной арифметики действительных чисел. Особое внимание уделяется связи результатов вычислений с семантикой прикладной задачи, решение которой они представляют. Методологией исследования являются теория вероятностей (виды и свойства распределений), методы вычислительной математики (численное интегрирование, интерполяция, обращение преобразования Лапласа), программная реализация математической модели и выполнение вычислительных экспериментов. Основными выводами проведенного исследования являются валидность и счетная реализуемость построенной автором математической модели, обоснование получения численного решения для произвольного распределения потока случайных событий.
Новизна исследования заключается в полученном численном решении задачи распределения количества bitmap-индексов для распределения Вейбулла, гамма-распределения, логнормального распределения и других, представлении и анализе различных зависимостей, таких как плотность распределения количества индексов и среднее число индексов для заданной длины интервала.
Abstract: The subject of the research is the mathematical model in the form of recurrent integral relation system that describes the distribution of unit intervals where at least one random stream event with the arbitrary distribution function has happened. The author of the article examines numerous aspects of the numerical implementation of this system such as the Laplace transformation access method, numerical integration near discontinuity points, stability of calculations, validity check results, and particularities of real number machine arithmetic. Trub pays special attention to the connection between calculation data and semantics of the applied problem which solution is represented by these data. The methodology of the research is based on the probability theory (distribution types and qualities), numerical mathematics methods (numerical integration, interpolation, Laplace transformation), software implementation of the mathematical model and computing experiment conduction. The main conclusions of this research is the validity and numerical implementability of the mathematical model created by the author of the article as well as substantiation of the numerical solution for arbitrary distribution of the random stream events distribution. The novelty of the research is caused by the fact that the author develops a numerical solution of the bitmap-indices distribution for Weibull distribution, gamma distribution, logarithmically normal distribution, etc., and analyzes dependencies of different kinds such as the indices density function and average number of indices for the specified interval length.
Труб И.И. —
О распределении количества bitmap-индексов для произвольного потока занесения записей в базу данных
// Программные системы и вычислительные методы. – 2017. – № 1.
– С. 11 - 21.
DOI: 10.7256/2454-0714.2017.1.21790
URL: https://e-notabene.ru/itmag/article_21790.html
Читать статью
Аннотация: Предметом исследования является задача вычисления для интервала времени заданной длины распределения вероятностей количества единичных интервалов, на которых происходит по крайней мере одно событие некоторого случайного потока, заданного произвольным распределением вероятностей. Прикладное значение данной задачи заключается в том, что ее решение дает оценку количества bitmap-индексов, попадающих в результат запроса к базе данных, отфильтрованного по диапазону времени. Объектом исследования является математическая модель задачи, построенная средствами теории вероятностей, и методы получения с ее помощью численных результатов. Методологией исследования является детальная декомпозиция случайного потока событий с учетом прикладной логики решаемой задачи и вывод на основе методов теории вероятностей уравнений, которым удовлетворяет искомая функция распределения. Важным элементом методологии является использование аппарата преобразований Лапласа и применение теоремы о свертке. Основным результатом работы является постановка оригинальной задачи теории массового обслуживания и получение ее решения в виде системы интегральных рекуррентных уравнений для набора вспомогательных кусочно-непрерывных функций, совокупность которых позволяет получить итоговую функцию. Сформулирован вычислительный алгоритм решения полученной системы. Показано, что для случая экспоненциального распределения непосредственно получаемое ввиду его простоты решение удовлетворяет системе интегральных уравнений.
Abstract: The subject of the study is the problem of calculating distribution of probabilities of the number of unit intervals for a time interval of a given length, on which at least one event of some random flow predetermined by arbitrary probability distribution occurs. The applied value of this task is that its solution gives an estimate of the number of bitmap-indexes falling into the result of a query to a database filtered by a time range. The object of the study is the mathematical model of the problem constructed by means of the theory of probability, and the methods of obtaining numerical results with its usage. The methodology of the research is a detailed decomposition of the random flow of events, taking into account the applied logic of the problem being solved and the derivation on the basis of methods of probability theory of equations satisfied by the desired distribution function. An important part of the methodology is the use of the Laplace transform apparatus and the application of the convolution theorem. The main result of the study is the formulation of the original problem of queuing theory and the derivation of its solution in the form of a system of integral recurrence equations for a set of auxiliary piecewise continuous functions whose totality allows to obtain the final function. The author formulates a computational algorithm for solving the resulting system. The article shows that, for the case of an exponential distribution, the solution immediately obtained, because of its simplicity, satisfies the system of integral equations.
Труб И.И. —
Аналитическое вероятностное моделирование bitmap-индексов
// Программные системы и вычислительные методы. – 2016. – № 4.
– С. 315 - 323.
DOI: 10.7256/2454-0714.2016.4.21091
Читать статью
Аннотация: Объектом исследования являются двоичные (bitmap)-индексы как средство повышения эффективности обработки поисковых запросов и построения отчетов в современных СУБД. Предметом исследования является математическая модель зависимости количества индексов, необходимых для построения выборки, удовлетворяющей запросу, от интенсивности добавления записей в базу данных и заданного диапазона значений запроса. Данная характеристика является наиболее значимой для оценки производительности обработки запроса, так как определяет количество операций дизъюнкции над битовыми строками, которое необходимо выполнить для получения результирующей выборки. Данная задача возникла целиком из практических потребностей ввиду критического влияния быстродействия построения отчетов на потребительскую ценность коммерческих продуктов - приложений СУБД.
Методологией исследования является вероятностное аналитическое моделирование на основе представления исходных данных в виде пуассоновских процессов, а также использование аппарата математического анализа (интегральное исчисление и суммирование рядов) для получения конечных результатов. Новизна исследования заключается в разработке математической модели, предложенной для данного объекта исследования, которая позволяет ставить широкий спектр задач анализа и оптимизации. Поставленная задача решена - получены формулы для распределения количества индексов и среднего количества индексов в одном запросе. Для каждого результата проведена оценка его достоверности на основе альтернативного подхода или правдоподобных рассуждений. Поставлены задачи построения вероятностной модели для распределений произвольного вида и оптимизации обработки запросов с помощью иерархических bitmap-индексов. Следует отметить, что сформулированная в работе задача и полученные результаты имеют и самостоятельное теоретическое значение в рамках теории массового обслуживания безотносительно к прикладной области.
Abstract: The study is devoted to bitmap-indexes as a tool of improving efficiency of processing search queries and reporting in the current database. The subject of research is mathematical model of dependence of the number of indexes, required to build a sample that meets the request, on the intensity of adding records to the database and query the specified range of values. This characteristic is most significant for evaluating query processing performance because it determines the number of disjunction operations on bit strings, required to get a result set. This problem arose entirely from the practical needs due to the critical impact of the speed of building of reports on customer value commercial products - database applications. The methodology of this study is probabilistic analytical modeling based on representations of the original data in the form of Poisson process and the use of the apparatus of mathematical analysis (integral calculus and summation rows) to get the final results. The novelty of the research is to develop a suggested mathematical model, which allows to put a wide range of problems of the analysis and optimization. The problem is solved – the author presents the formula for the distribution of the number of indexes, and the average number of indexes in a single query. For each result author evaluated reliability on the basis of an alternative approach or plausible reasoning. The paper sets the tasks of constructing a probabilistic model for the distribution of any type of query processing and optimization using hierarchical bitmap-indexes. It should be noted, that formulated problem and the results obtained have an independent theoretical value within the queuing theory without regard to the application area.