Арзуманян Р.В., Сухинов А.И. —
Факторизация матрицы обратного дискретного преобразования 8х8 стандарта кодирования видео HEVC и быстрый алгоритм на её основе
// Программные системы и вычислительные методы. – 2016. – № 3.
– С. 287 - 298.
DOI: 10.7256/2454-0714.2016.3.19558
Читать статью
Аннотация: Предметом данной работы является разработка алгоритма быстрого обратного дискретного преобразования размера 8х8 стандарта кодирования видео ITU-T H265 (HEVC). Рассматриваются отличия в структуре матрицы обратного преобразования от матрицы обратного дискретного косинусного преобразования, а также подходы, которые могут быть применены для факторизации упомянутой матрицы. Даётся оценка числа операций, необходимых для выполнения преобразования и проводится численный эксперимент для проверки эффективности разработанного алгоритма с точки зрения скорости его исполнения на центральном процессоре (CPU). Метод проведения работы – теоретическое исследование с последующим проведением численного эксперимента со сбором интересующей информации и анализом результатов. Для проведения численного эксперимента была написана программа на языке Си, реализующая стандартный алгоритм обратного преобразования (непосредственное перемножение матрицы преобразования и вектора коэффициентов) и предлагаемый быстрый алгоритм обратного преобразования, разработанный в теоретической части данной работы. Проведено сравнение результатов производительности. Новизна работы заключается в том, что в ней предложен ранее неизвестный алгоритм быстрого обратного преобразования 8х8 стандарта HEVC и схема факторизации матрицы преобразования. По сравнению с предшествующими работами, предложенный алгоритм требует меньшего числа арифметических операций, а значит, может быть исполнен за меньшее время.
В данной статье были сделаны выводы относительно возможности реализации быстрого обратного преобразования стандарта HEVC, предложена схема факторизации матрицы указанного преобразования размера 8х8 и разработан быстрый алгоритм обратного преобразования на основе найденной схемы факторизации.
Abstract: The subject of the present research is the development of the algorithm for the fast inverse discrete transform of the 8x8 ITU-T H265 (HEVC) video coding standard. The authors of the article analyze differences between the structures of the inverse transform matrix and inverse discrete cosine transform matrix as well as approaches that may be applied to factorization of the aforesaid matrix. They also provide an evaluation of a number of operations necessary to perform the transfer. The authors conduct a numerical experiment to prove the efficiency of the developed algorithm from the point of view of the speed of performance on the central processing unit (CPU). The research method used by the authors is the theoretical analysis and numerical experiment including collection of relevant information and analysis of results. To conduct the numerical experiment the authors have written a C-language program that executes a standard algorithm of the inverse transfer (direct multiplication of the transform matrix and coefficient vectors) and the fast algorithm of the inverse transfer as it is described in the theoretical part of the research. Then the authors have compared the productivity results. The novelty of the research is caused by the fact that the authors offer a new algorithm for the fast transfer of the 8x8 HEVC standard and the scheme of inverse matrix factorization. Compared to previous researches and algorithm, the given algorithm requires fewer arithmetic operations, thus takes less time. At the end of their research article the authors make conclusions regarding the possibility of the fast inverse transfer of the HEVC standard, offer their own scheme for the aforesaid 8x8 matrix factorization and develop the fast algorithm for the inverse transfer based on the discovered factorization schemes.
Арзуманян Р.В., Сухинов А.И. —
Исследование возможности реализации высокопроизводительного программного декодера Google VP9
// Программные системы и вычислительные методы. – 2016. – № 2.
– С. 184 - 200.
DOI: 10.7256/2454-0714.2016.2.18430
Читать статью
Аннотация: Предметом данной работы является оптимизация и организация параллельного исполнения стадий декодирования видеосигнала, сжатого в соответствие со спецификацией Google VP9. Подробно рассматриваются наиболее затратные с точки зрения машинного времени стадии декодирования и восстановления сжатого видеосигнала, исследуются возможности оптимизации и параллельного исполнения алгоритмов, лежащих в основе таких стадий как на центральных процессорах, так и на видеокартах с поддержкой вычислений общего назначения. Даётся комплексная оценка характеристик стадий декодирования, включая требования к производительности процессора и подсистемы памяти. Метод проведения работы – проведение численного эксперимента со сбором интересующей информации и последующим анализом результатов. Сбор информации реализован при помощи модификации исходного кода эталонного кодека и последующей сборки его в программное приложение - кодек. Новизна работы заключается в том, что в ней проведён комплексный анализ возможности вычислительных методов, лежащих в основе кодека и даны оценки возможности реализации параллельных вычислений с учётом особенностей целевого аппаратного обеспечения – MCCPU и GPGPU, а также проведена оптимизация стадии арифметического декодирования с учётом статистических особенностей распределения длин литералов, декодируемых из сжатого битового потока.
В данной статье были сделаны выводы относительно наиболее вычислительно сложных стадий декодирования и возможности их оптимизации и параллельной реализации, а также проанализированы отличия от конкурирующего кодека Н265.
Abstract: The article is devoted to optimization and execution of parallel decoding stages of the video signal compressed in accordance with specification Google VP9. The authors in detail discuss the most time consuming stages of decoding and restoring a compressed video and study possible optimization and parallel execution of algorithms underlying such steps using both CPUs and graphics cards with general-purpose computing support. The article gives a comprehensive assessment of the characteristics of the decoding stages, including the requirements for processor and memory subsystem. The main method of the study is in carrying out a numerical experiment with the collection of information of interest and then analyzing the results. Gathering of information is implemented by modifying the source code reference codec and subsequent assembly into a software codec application. The novelty of the work lies in the fact that it carried out a comprehensive analysis of the possibility of computational methods lying in the codec based. The research evaluates the feasibility of parallel calculations, taking into account peculiarities of the target hardware (MCCPU and GPGPU). The authors performed an optimization of arithmetic decoding step taking into account the statistical characteristics of the distribution of the lengths of literals, decoded from a compressed bit stream.
In this article, the authors make conclusions regarding the most computationally complex decoding stages and the possibility of their optimization and parallel implementation, and analyze differences between the described codec a competing codec N265.