Галушко И.Н. —
Корректировка результатов OCR-распознавания текста исторического источника с помощью нечетких множеств (на примере газеты начала XX века)
// Историческая информатика. – 2023. – № 1.
– С. 102 - 113.
DOI: 10.7256/2585-7797.2023.1.40387
URL: https://e-notabene.ru/istinf/article_40387.html
Читать статью
Аннотация: Наша статья посвящена попытке применения современных методов NLP для оптимизации процесса распознавания текста исторических источников. Любой исследователь, решивший воспользоваться инструментами распознавания отсканированных текстов, столкнется с рядом ограничений точности конвейера (последовательности операций распознавания). Даже наиболее качественно обученные модели могут давать существенную ошибку по причине неудовлетворительного состояния дошедшего до нас источника: порезы, изгибы, кляксы, стертые буквы – всё это мешает качественному распознаванию. Наше предположение состоит в том, что, используя заранее заданный набор слов, маркирующих присутствие интересующей нас темы, с помощью модуля нечетких множеств (Fuzzy sets) из NLP-библиотеки SpaCy, мы сможем восстановить по шаблонам те слова, которые по итогам процедуры распознавания оказались распознаны с ошибками. Для проверки качества процедуры восстановления текста на выборке из 50 номеров газеты «Биржевые ведомости» мы посчитали оценки количества слов, которые бы не вошли в семантический анализ из-за неправильного распознавания. Все метрики были посчитаны также с использованием паттернов нечетких множеств. Оказалось, что в среднем на номер «Биржевых ведомостей» приходится 938.9 слов, маркирующих тему нашего исследования – торговые и финансовые операции с ценными бумагами. Из них изначально правильно распознаются в среднем 87.2% слов. Примерно 119.6 слов (в среднем на 50 номеров) содержат опечатки, связанные с некорректным распознаванием. Благодаря использованию алгоритмов нечетких множеств нам удалось эти слова восстановить и включить в семантический анализ. Мы считаем, что восполнение 12.8% слов, потенциально относящихся к изучаемой теме – это хороший результат, существенно повышающий качество дальнейшего семантического анализа текста методами компьютерного моделирования.
Abstract: Our article is presenting an attempt to apply NLP methods to optimize the process of text recognition (in case of historical sources). Any researcher who decides to use scanned text recognition tools will face a number of limitations of the pipeline (sequence of recognition operations) accuracy. Even the most qualitatively trained models can give a significant error due to the unsatisfactory state of the source that has come down to us: cuts, bends, blots, erased letters - all these interfere with high-quality recognition. Our assumption is to use a predetermined set of words marking the presence of a study topic with Fuzzy sets module from the SpaCy to restore words that were recognized with mistakes. To check the quality of the text recovery procedure on a sample of 50 issues of the newspaper, we calculated estimates of the number of words that would not be included in the semantic analysis due to incorrect recognition. All metrics were also calculated using fuzzy set patterns. It turned out that approximately 119.6 words (mean for 50 issues) contain misprints associated with incorrect recognition. Using fuzzy set algorithms, we managed to restore these words and include them in semantic analysis.
Галушко И.Н. —
Опыт применения контент-анализа для исследования экономического мышления крупного биржевого игрока на Санкт-Петербургском фондовом рынке в начале XX века: И.П. Манус и «поведенческие финансы»
// Историческая информатика. – 2021. – № 2.
– С. 204 - 220.
DOI: 10.7256/2585-7797.2021.2.36032
URL: https://e-notabene.ru/istinf/article_36032.html
Читать статью
Аннотация: Данная работа посвящена изучению экономического мышления биржевых спекулянтов на Санкт-Петербургской бирже в начале ХХ века. Мы исследуем, как участники рынка анализировали фундаментальные (или экономические) и спекулятивные / иррациональные факторы ценообразования для принятия торгового решения. Наше внимание сосредоточено на способах восприятия рынка его агентами. В нашем исследовании для анализа источника мы используем методы контент-анализа и сетевого анализа с целью создать матрицу авторского восприятия через выявление связей между категориями экономического мышления. Основная идея данной работы состоит в обращении к уровню принятия торгового решения: на историческом материале, описывающем биржевую жизнь в Российской империи начала XX в., мы постараемся понять, как участник торгов концептуализировал в своём экономическом мышлении процесс функционирования фондового рынка. По итогам исследования были сформулированы два ключевых вывода. Согласно представлениям И.П. Мануса, фундаментальные факторы экономического процесса являются частью концепта совершенной экономики, к которой реальная экономика стремится как к идеалу. Главным искажением, не дающим этой утопии сбыться, выступает, по Манусу, человеческий фактор: желание легких денег, толкающее на финансовое преступление; искусственно поддерживаемая асимметрия информации; глупость и эмоциональность «толпы», выступающей вечной жертвой циничного спекулянта и т.п. В то же время оказалось, что всякая спекулятивная стратегия предполагает, в рефлексивной модели Мануса, эксплуатацию фундаментальных механизмов (таких как «ликвидность» или «объем предложения») через создание барьеров для функционирования совершенной экономики.
Abstract: The article studies St. Petersburg Stock Exchange speculator’s economic thinking at the beginning of the 20th century. It finds out how market participants analyzed fundamental (or economic) and speculative / irrational pricing factors to make trade decisions. The author primarily addresses the way the market was perceived by its agents. He makes content analysis and network analysis to create the matrix of perception by identifying connections in categories of economic thinking. The main idea of the study is its address to the level of trade decision formation. Describing the stock exchange life in the Russian Empire in the early 20th century, the author attempts to see how trade participants understood the way the stock exchange market functioned. Based on the results of the study, two key findings are formulated. According to I.P. Manus, the fundamental factors of the economic process are a part of the concept of the perfect economy which the real economy strives for. The main distortion that prevents this utopia from coming true is the human factor: the desire for easy money that leads one to a financial crime; artificially maintained information asymmetry; the stupidity and emotionality of the "crowd" which is the "eternal" victim of a cynical speculator, etc. At the same time, it turned out that any speculative strategy presupposes (in the reflexive model of Manus) the exploitation of fundamental mechanisms (such as "liquidity" or "supply volume") through the creation of barriers to the functioning of the perfect economy.