

# **Методы высокопроизводительной цифровой обработки сигналов на основе вычислений в системе остаточных классов**

**2.3.5 – Математическое и программное обеспечение вычислительных систем, комплексов и  
компьютерных сетей**

Соискатель: кандидат физико-математических наук, доцент, заведующий кафедрой математического моделирования факультета математики и компьютерных наук имени профессора Н.И. Червякова Северо-Кавказского федерального университета, заведующий отделом модульных вычислений и искусственного интеллекта регионального научно-образовательного математического центра «Северо-Кавказский центр математических исследований» Северо-Кавказского федерального университета, **Ляхов Павел Алексеевич**

Санкт-Петербург, 2026

## Глобальный объем цифровых данных и темп его роста за последние 15 лет\* (зеттабайт, ЗБ)



\* Data Age 2025. The Digitization of the World From Edge to Core. URL: <https://www.seagate.com/files/www-content/our-story/trends/files/dataage-idc-report-final.pdf>

# Темп роста вычислительной мощности суперкомпьютеров\* и производительности программируемых пользователем вентильных матриц



Высокий темп непрерывного увеличения количественных и качественных характеристик цифровых сигналов, которые нужно регистрировать, обрабатывать, хранить и передавать, приводит к сильному ужесточению требований, предъявляемых к системам цифровой обработки сигналов. Современные системы, в том числе на основе искусственного интеллекта, должны обладать непомерно высокой вычислительной мощностью для удовлетворения потребности в обработке цифровых данных.

## **Противоречие в практике**

**Противоречие в практике** заключается в том, что существующие системы цифровой обработки сигналов (ЦОС), в том числе на основе искусственного интеллекта, не могут удовлетворить потребности в обработке данных, а темпы развития и совершенствования вычислительных средств и их мощности значительно уступают темпам возрастания объема цифровых одномерных и многомерных сигналов и роста вычислительной сложности методов для их обработки.

Исходя из обозначенного противоречия сформулирована **цель диссертационного исследования**, заключающаяся в повышении производительности систем ЦОС.

Достижение выбранной цели окажет большое влияние на развитие таких направлений, как медицинская визуализация, системы компьютерного зрения, робототехнические комплексы, включая беспилотный транспорт, спутниковые системы, цифровое сельское хозяйство, многочисленные приложения искусственного интеллекта.

В качестве **объекта исследования** выбраны системы ЦОС. В роли **предмета исследования** выступают методы организации параллельной обработки данных в системах ЦОС.

## Степень разработанности темы

Существует множество перспективных теоретических решений, способных повысить производительность систем ЦОС. В их число входят подходы, основанные на применении приближенных вычислений, учете неявной информационной избыточности, использовании блоков реализации арифметических операций с упрощенной структурой и многие другие.

Однако, большинство из них используют позиционные системы счисления, унаследованные от процессоров ранних поколений, что существенно ограничивает вычислительные возможности систем на их основе. Приближение к пределу миниатюризации технологических процессов производства вычислительных средств на основе кремниевых технологий требует изменения подходов к организации вычислений, особенно для использования во встраиваемых проблемно-ориентированных процессорах.

Среди различных альтернативных числовых систем, расширяющих вычислительные возможности и повышающих производительность систем цифровой обработки данных, особый интерес представляет система остаточных классов (СОК), способная обеспечить распараллеливание вычислений на арифметико-логическом уровне, что особенно эффективно при реализации модульных операций сложения, вычитания и умножения. СОК представляет собой непозиционную систему счисления, основанную на прямой сумме конечных колец, и оперирует с небольшими остатками вместо обработки чисел большой разрядности, что позволяет значительно ускорить вычисления.

## Базовые понятия системы остаточных классов

Для представления чисел в СОК и проведения вычислений используется  $n$  попарно взаимно-простых чисел  $m_i$  ( $i = 1, 2, \dots, n$ ), называемых набором модулей данной СОК. В дальнейшем будем обозначать это  $RNS = \{m_i | i = 1, 2, \dots, n\}$ . Попарная взаимная простота модулей СОК означает, что для любой пары чисел  $i$  и  $j$ , удовлетворяющей условиям  $1 \leq i < j \leq n$ , выполняется условие  $\text{GCD}(m_i, m_j) = 1$ , где  $\text{GCD}(x, y)$  обозначает наибольший общий делитель чисел  $x$  и  $y$ .

Динамический диапазон  $M$  данных, представимых в СОК, определяется по формуле  $M = \prod_{i=1}^n m_i$ . Из теории чисел известно, что любая система сравнений относительно  $X$ :

$$\begin{cases} X \equiv x_1 \pmod{m_1}, \\ X \equiv x_2 \pmod{m_2}, \\ \dots \\ X \equiv x_n \pmod{m_n}, \end{cases}$$

имеет единственное решение на подмножестве целых чисел  $\{0, 1, \dots, M - 1\}$ , что означает возможность взаимно-однозначного отображения указанного множества на множество кортежей  $\{x_1, x_2, \dots, x_n\}$ , где  $0 \leq x_i < m_i$  для  $i = 1, 2, \dots, n$ . Данный факт носит название Китайской теоремы об остатках и открывает возможность машинного представления целочисленного типа данных без знака в виде совокупности чисел  $\{x_1, x_2, \dots, x_n\}$ , ограниченных вычислительным диапазоном системы. Для знакового представления чисел в СОК динамический диапазон  $M$  делится на две части, при этом поддерживается представление чисел  $X$ , удовлетворяющих одному из требований:

$$-\frac{M-1}{2} \leq X \leq \frac{M-1}{2} \text{ для нечетных } M \text{ и } -\frac{M}{2} \leq X \leq \frac{M}{2} - 1 \text{ для четных } M.$$

## Демонстрация арифметического параллелизма системы остаточных классов

$$A = 23, \quad B = 37, \quad C = 398$$

$$RNS = \{7, 15, 16\} \quad M = 7 \cdot 15 \cdot 16 = 1680$$

$$A = (2, 8, 7), \quad B = (2, 7, 5), \quad C = (6, 8, 14)$$

$$A \cdot B + C$$

Вычисления в позиционной системе счисления

$$\begin{array}{r} \times \quad 23 \\ \times \quad 37 \\ \hline 851 \end{array} \qquad \begin{array}{r} + \quad 851 \\ + \quad 398 \\ \hline 1249 \end{array}$$

Вычисления в системе остаточных классов

$$\begin{array}{r} \times \quad (2, 8, 7) \\ \times \quad (2, 7, 5) \\ \hline (4, 11, 3) \end{array} \qquad \begin{array}{r} + \quad (4, 11, 3) \\ + \quad (6, 8, 14) \\ \hline (3, 4, 1) \end{array}$$

Проверка

$$1249 \bmod 7 = 3$$

$$1249 \bmod 15 = 4$$

$$1249 \bmod 16 = 1$$

# Параллельная обработка данных в системе остаточных классов

При параллельной обработке данных в СОК, согласно представленной схеме, на вход подается информация, представленная в позиционной системе счисления (ПСС). Устройство прямого преобразования ПСС→СОК вычисляет представление поступивших данных в СОК, т. е. генерирует кортежи  $\{x_1, x_2, \dots, x_n\}$  для каждого поступившего на вход числа  $X$  по формуле  $x_i \equiv |X|_{m_i}$  для  $i = 1, 2, \dots, n$ . После выполнения прямого преобразования ПСС→СОК в арифметических каналах по каждому из модулей  $\{m_1, m_2, \dots, m_n\}$  выполняются модульные операции сложения, вычитания и умножения, причем в силу теоретико-числовых свойств, это выполняется параллельно, т.е. результаты вычислений в каждом из арифметических каналов не учитываются в других. На практике это означает, что обработка данных при использовании набора модулей  $\{m_1, m_2, \dots, m_n\}$ , имеющему небольшую разрядность по сравнению с разрядностью диапазона  $M$ , выполняется за счет параллельной организации вычислений быстрее, чем аналогичные арифметические операции в ПСС с диапазоном  $M$ . Устройство обратного преобразования позволяет восстановить позиционное представление данных. Оно может быть

реализовано по формуле  $X = \left| \sum_{i=1}^n \left( |M_i^{-1}|_{m_i} M_i \right) x_i \right|_M$ , где  $M_i = \frac{M}{m_i}$ , а

выражение  $|M_i^{-1}|_{m_i}$  означает обратный элемент для  $M_i$  в мультиPLICативной группе кольца вычетов по модулю  $m_i$ .



# Обработка данных в системе остаточных классов с немодульными операциями

Указанную схему можно усовершенствовать, добавив элементы обеспечения отказоустойчивости. Отказоустойчивые свойства СОК проявляются при добавлении к модулям  $\{m_1, m_2, \dots, m_n\}$  множества избыточных модулей  $\{m_{n+1}, m_{n+2}, \dots, m_{n+r}\}$ . СОК, множество модулей которой  $\{m_1, \dots, m_n, m_{n+1}, \dots, m_{n+r}\}$  разделено на информационные ( $m_i$ ,  $1 \leq i \leq n$ ) и избыточные ( $m_i$ ,  $n+1 \leq i \leq r$ ) называется избыточной системой остаточных классов (ИСОК). В ИСОК диапазон, вычисляемый по формуле  $M_F = \prod_{i=1}^{n+r} m_i$ , является

полным диапазоном ИСОК. Прямое преобразование ПСС $\rightarrow$ ИСОК отличается от прямого преобразования ПСС $\rightarrow$ СОК необходимостью вычисления остатков как по информационным, так и по избыточным модулям системы по формуле  $x_i \equiv |X|_{m_i}$  для  $i = 1, 2, \dots, n + r$ . Арифметические каналы разделены на обычные, соответствующие информационным модулям ИСОК, и избыточные, соответствующие избыточным модулям ИСОК. Обратный преобразователь ИСОК $\rightarrow$ ПСС отличается от обратного преобразователя СОК $\rightarrow$ ПСС вычислениями по полному диапазону

$$\text{системы } M_F \text{ по формуле } X = \left| \sum_{i=1}^{n+r} \left( |M_i^{-1}|_{m_i} M_i \right) x_i \right|_{M_F}.$$



## Противоречие в науке

Несмотря на высокий потенциал в повышении производительности систем ЦОС, организация обработки данных в СОК накладывает множество ограничений, в том числе на вычислительный диапазон, и снижает эффективность реализации немодульных операций, что значительно усложняет возможность ее широкого практического применения для решения ряда прикладных задач ЦОС.

Требуется развитие методологии применения СОК для эффективной по скорости вычислений реализации арифметических операций с организацией модульных вычислений при обработке многомерных сигналов. Помимо этого, необходимо разработать подходы к ЦОС, основанные на комбинированном применении методов организации арифметической обработки данных в СОК и иных решений, сочетающихся с СОК и позволяющих значимо усилить ее преимущества и в значительной степени нивелировать ее недостатки.

Таким образом, имеет место следующее **противоречие в науке**: несмотря на наличие развитой теории вычислений в СОК, отсутствует методологический аппарат для создания технологии высокопроизводительной ЦОС с вычислениями в СОК. Для разрешения данного противоречия обозначена **научная проблема**: необходимость разработки методов параллельной обработки данных в СОК для создания технологии высокопроизводительной ЦОС.

## **Частные задачи диссертационного исследования**

1. Аналитический обзор современных проблем и подходов к улучшению эксплуатационных характеристик систем цифровой обработки сигналов.
2. Разработка обобщенной модели усовершенствованной цифровой обработки сигналов в системе остаточных классов.
3. Разработка архитектуры цифрового фильтра для параллельной обработки сигналов в системе остаточных классов.
4. Разработка метода высокоскоростной фильтрации цифровых изображений на основе блочной обработки данных.
5. Разработка методов и архитектур для обработки данных, представленных в системе остаточных классов, при выполнении немодульных операций.
6. Разработка метода и алгоритма вейвлет-обработки сигналов с вычислениями в системе остаточных классов.
7. Разработка технологии создания систем высокопроизводительной цифровой обработки сигналов на основе вычислений в системе остаточных классов.

# Графическая иллюстрация разработанной обобщенной модели



**Положение 1. Обобщенная модель усовершенствованной цифровой обработки сигналов в системе остаточных классов, обеспечивающая повышение производительности за счет системного объединения параллельной модульной арифметики, блочной обработки данных, методов выполнения немодульных операций на основе дробных величин и масштабирования коэффициентов фильтров**

## **Описание иллюстрации разработанной обобщенной модели**

Графическая иллюстрация обобщенной модели представлена демонстрирует расширение методологии ЦОС посредством использования различных инструментов и принципов их взаимодействия друг с другом. Важно отметить, что помимо значимых разработок, а именно архитектуры цифрового фильтра для параллельной обработки сигналов в СОК (раздел 2.3), метода высокоскоростной вейвлет-фильтрации сигналов на основе блочной обработки данных с уменьшением количества используемых умножений (раздел 3.4), методов и архитектур для реализации немодульных операций в СОК и преобразования данных, в частности метода и архитектуры для обратного преобразования чисел из модулярного кода в позиционный (подраздел 4.1.2), метода определения знака числа в СОК (раздел 4.2), метода и архитектуры для сравнения чисел в СОК (раздел 4.3) и метода и архитектуры для обнаружения, локализации и исправления ошибок в СОК (подраздел 4.4.2), алгоритма масштабирования коэффициентов вейвлет-фильтров (подраздел 5.2.1) и метода вейвлет-обработки цифровых сигналов с использованием масштабированных коэффициентов и модулярных вычислений (5.2.2), также важное место занимают различные программные инструменты для выбора эффективных по ресурсозатратам наборов модулей СОК (разделы 2.1 и 2.2) на основе предварительной теоретической оценки вычислительных структур в ПСС и СОК на основе UGM (разделы 2.2-2.4, 3.2 и 3.3), составления вспомогательных матриц преобразования (раздел 3.1), оценки погрешности вычислений на разных этапах обработки данных (разделы 5.1 и 5.2), преобразования коэффициентов используемых ЦФ (разделы 5.1 и 5.2). Отдельно следует выделить важность САПР, способных осуществить эффективную по ресурсозатратам аппаратную реализацию различных методов ЦОС в СОК на современных платформах, в частности FPGA и ASIC.

**Положение 1. Обобщенная модель усовершенствованной цифровой обработки сигналов в системе остаточных классов, обеспечивающая повышение производительности за счет системного объединения параллельной модулярной арифметики, блочной обработки данных, методов выполнения немодульных операций на основе дробных величин и масштабирования коэффициентов фильтров**

## Логические схемы сумматоров на примере сложения 8-битных чисел



Логическая схема полного сумматора  
(full adder, FA)



Логическая схема 8-битного сумматора с последовательным переносом (carry propagate adder, CPA)



Логическая схема 8-битного сумматора с сохранением переноса (carry save adder, CSA)



Логическая схема сумматора по модулю  $2^8-1$  с сохранением переноса (carry save modulo adder, CSMA)

Положение 2. Архитектура цифрового фильтра в системе остаточных классов с модулями специального вида, реализующая ключевой вычислительный элемент обобщенной модели и обеспечивающая параллельную обработку сигналов

# Логические схемы параллельно-префиксных сумматоров

Логические схемы базовых блоков параллельно-префиксного сумматора



Логическая схема 8-битного параллельно-префиксного сумматора Когге-Стоуна (Kogge-Stone adder, KSA)



Логическая схема сумматора Когге-Стоуна для сложения чисел по модулю  $2^8 - 1$  (Kogge-Stone modulo adder, KSMA)

Положение 2. Архитектура цифрового фильтра в системе остаточных классов с модулями специального вида, реализующая ключевой вычислительный элемент обобщенной модели и обеспечивающая параллельную обработку сигналов

# Логические схемы многовходовых сумматоров и умножителя



Логическая схема устройства для быстрого суммирования 7 слагаемых



Логическая схема умножителя двух чисел  
(general multiplier, GM)



Логическая схема устройства для быстрого суммирования 7 слагаемых по модулю  $2^k - 1$

## Теоретическая оценка ресурсозатрат с использованием unit-gate model (UGM)

В данной модели задержка и площадь двухходовых логических вентилей AND или OR считаются единицей измерения задержки и площади средства вычислительной техники, соответственно. Логический вентиль NOT считается как ноль при подсчете задержки и площади устройства. Логические вентили XOR и XNOR считаются за две единицы как при подсчете задержки, так и при подсчете площади. Если обозначить рассчитанную по указанной модели задержку, как  $U_{delay}$ , а площадь, как  $U_{area}$ , то для перечисленных логических вентилей будем иметь следующее описание:

$$U_{delay}(NOT) = 0, U_{area}(NOT) = 0, U_{delay}(AND) = 1, U_{area}(AND) = 1, U_{delay}(OR) = 1, U_{area}(OR) = 1,$$
$$U_{delay}(XOR) = 2, U_{area}(XOR) = 2, U_{delay}(XNOR) = 2, U_{area}(XNOR) = 2.$$

Площадь более сложных средств вычислительной техники рассчитывается как сумма площадей всех логических элементов, входящих в них. Задержка более сложных средств вычислительной техники рассчитывается как сумма задержек логических элементов самого длинного пути от входа до выхода системы. Недостатком данной модели является игнорирование эффектов нагрузочной способности выходов, как отдельных логических элементов, так и микросхемы в целом, что требует верификации теоретических результатов при помощи аппаратной реализации на современных платформах. Однако, в качестве приближенной теоретической оценки ожидаемых ресурсозатрат на реализацию вычислительных алгоритмов данная модель показывает хорошие практические результаты.

# Теоретическая оценка ресурсозатрат на реализацию параллельной обработки данных в позиционной системе счисления и в СОК

Ресурсозатраты на реализацию вычислений в позиционной системе счисления

| Устройство | Задержка                      |               | Площадь                        |                 |
|------------|-------------------------------|---------------|--------------------------------|-----------------|
|            | $U_{delay}$                   | Сложность     | $U_{area}$                     | Сложность       |
| CPA        | $4k$                          | $O(k)$        | $7k$                           | $O(k)$          |
| CSA        | 4                             | $O(1)$        | $7k$                           | $O(k)$          |
| KSA        | $2\log_2 k + 4$               | $O(\log_2 k)$ | $3k \log_2 k + 3k + 1$         | $O(k \log_2 k)$ |
| МОА        | $6,8\log_2 N + 2\log_2 k + 4$ | $O(\log_2 k)$ | $3k \log_2 k + 7kN - 11k + 1$  | $O(k^2)$        |
| CM         | $8,8\log_2 k + 4$             | $O(\log_2 k)$ | $3k \log_2 k + 7k^2 - 11k + 1$ | $O(k^2)$        |
| GM         | $8,8\log_2 k + 5$             | $O(\log_2 k)$ | $3k \log_2 k + 8k^2 - 11k + 1$ | $O(k^2)$        |

Ресурсозатраты на реализацию вычислений в СОК по модулю  $2^k - 1$

| Устройство | Задержка                      |               | Площадь                   |                 |
|------------|-------------------------------|---------------|---------------------------|-----------------|
|            | $U_{delay}$                   | Сложность     | $U_{area}$                | Сложность       |
| EAC-CPA    | $8k$                          | $O(k)$        | $14k$                     | $O(k)$          |
| EAC-CSA    | 4                             | $O(1)$        | $7k$                      | $O(k)$          |
| EAC-KSA    | $2\log_2 k + 4$               | $O(\log_2 k)$ | $3k \log_2 k + 6k$        | $O(k \log_2 k)$ |
| MOMA       | $6,8\log_2 N + 2\log_2 k + 4$ | $O(\log_2 k)$ | $3k \log_2 k + 7kN - 8k$  | $O(k^2)$        |
| CMM        | $8,8\log_2 k + 4$             | $O(\log_2 k)$ | $3k \log_2 k + 7k^2 - 8k$ | $O(k^2)$        |
| GMM        | $8,8\log_2 k + 5$             | $O(\log_2 k)$ | $3k \log_2 k + 8k^2 - 8k$ | $O(k^2)$        |

Сопоставление результатов из представленных таблиц позволяет сделать важный вывод о том, что задержка однотипных систем (кроме CPA) для сложения и умножения чисел в позиционной системе счисления (ПСС) и в СОК по модулю  $2^k - 1$  совпадает, а аппаратные затраты для соответствующих систем в остаются на одном уровне сложности. Данный факт делает весьма выгодным использование модулей вида  $2^k - 1$  в СОК, так как такие модули принципиально не усложняют арифметические системы, в то время как разрядность модулей СОК обычно существенно меньше (не менее чем в три раза) разрядности соответствующего диапазона в ПСС.

# Схемы цифровых фильтров с конечной импульсной характеристикой

Схема блока умножения с накоплением (multiply-accumulate unit, MAC unit)



A  
B  
KSA  
Y<sub>i</sub>

Схема усеченного блока умножения с накоплением (truncated multiply-accumulate unit, TMAC unit)



A<sub>i</sub>  
B<sub>i</sub>



Схема КИХ-ЦФ порядка K



Схема КИХ-ЦФ порядка K на основе MAC-блоков



Схема КИХ-ЦФ порядка K на основе TMAC-блоков

Положение 2. Архитектура цифрового фильтра в системе остаточных классов с модулями специального вида, реализующая ключевой вычислительный элемент обобщенной модели и обеспечивающая параллельную обработку сигналов

# Схемы цифровых фильтров с конечной импульсной характеристикой в СОК

Схема блока ЕАС-МАС  
по модулю  $2^{k-1}$



Схема КИХ-ЦФ  
порядка  $K$  по  
модулю  $m$



Схема КИХ-ЦФ  
порядка  $K$  на основе  
MAC-блоков по  
модулю  $m$

Схема блока ЕАС-ТМАС  
по модулю  $2^{k-1}$



Схема КИХ-ЦФ  
порядка  $K$  на основе  
ЕАС-ТМАС-блоков  
по модулю  $2^{k-1}$

**Положение 2. Архитектура цифрового фильтра в системе остаточных классов с модулями специального вида, реализующая ключевой вычислительный элемент обобщенной модели и обеспечивающая параллельную обработку сигналов**

# Теоретическая оценка ресурсозатрат на цифровую фильтрацию в соответствии с разработанными моделью и архитектурой в системе остаточных классов

Разработанная модель представима в виде

$$\left\{ \begin{array}{l} \{m_1, m_2, \dots, m_n\} = \{2^{k_1}, 2^{k_2} - 1, 2^{k_3} - 1, \dots, 2^{k_n} - 1\}, \\ GCD(m_i, m_j) = 1, 2 \leq i < j \leq n, \\ \prod_{i=1}^n m_i \geq \max(X) \cdot \max(|b|) \cdot (K+1) \cdot 2, \\ |A_0 \cdot 2 + B_0|_{m_i} = |X(N) \cdot b_0|_{m_i}, \\ |A_j \cdot 2 + B_j|_{m_i} = |X(N-j) \cdot b_j + A_{j-1} + B_{j-1}|_{m_i}, 1 \leq j \leq K, \\ |Y(N)|_{m_i} = |A_K \cdot 2 + B_K|_{m_i}, \end{array} \right.$$

где:  $m_i$  ( $i = \overline{1, n}$ ) – модули СОК;  $GCD$  – наибольший общий делитель чисел;  $X(N)$  – отсчеты исходного сигнала;  $b_i$  – коэффициенты фильтра порядка  $K$ ;  $A_i$  и  $B_i$  – выходы дерева сумматоров с соответствующего блока;  $Y(N)$  – отсчеты обработанного сигнала.

Теоретический анализ ресурсозатрат на реализацию цифровой фильтрации сигналов в ПСС и СОК согласно разработанной модели показал превосходство модульных вычислений как по задержке, сократив ее от 1,3 до 2,6 раз, так и по аппаратным ресурсозатратам системы ЦОС, уменьшив их в 1,7-4,8 раза.

## Теоретическая оценка задержки

| Разрядность данных,<br>$k$ | ПСС | СОК      |          |           |
|----------------------------|-----|----------|----------|-----------|
|                            |     | 3 модуля | 4 модуля | 5 модулей |
| 8                          | 352 | 196      | 196      | 131       |
| 16                         | 463 | 306      | 277      | 242       |
| 32                         | 574 | 403      | 371      | 331       |
| 64                         | 685 | 514      | 473      | 430       |

## Теоретическая оценка площади

| Разрядность данных,<br>$k$ | ПСС    | СОК      |          |           |
|----------------------------|--------|----------|----------|-----------|
|                            |        | 3 модуля | 4 модуля | 5 модулей |
| 8                          | 8289   | 3553     | 4737     | 2650      |
| 16                         | 33009  | 14072    | 13059    | 10480     |
| 32                         | 131649 | 47004    | 42030    | 31865     |
| 64                         | 525633 | 187135   | 149210   | 109272    |

## **Основные результаты по положениям 1 и 2**

1. Выявлено, что наиболее экономными по совокупности ресурсозатрат на реализацию модулярных вычислений являются модули СОК специального вида:  $2^k$  и  $2^k - 1$ . Задержка сумматоров и умножителей при реализации вычислений по данным модулям аналогична задержке соответствующих блоков при реализации вычислений в ПСС с  $k$ -битным диапазоном. Аппаратные затраты на операции сложения и умножения по модулям вида  $2^k - 1$  незначительно превышают аппаратные затраты на выполнение этих операций в ПСС с  $k$ -битным диапазоном. Использование других модулей СОК повышает порядок сложности затрат на реализацию арифметических действий при ЦОС.

2. Установлено, что ЦОС с использованием ТМАС-блоков, передающих на следующее звено фильтра два числа вместо одного, позволяет использовать лишь один параллельно-префиксный сумматор в ЦФ за счет небольшого увеличения деревьев сумматоров с сохранением переноса и сократить время выполнения фильтрации одномерных сигналов на 22%-29% по сравнению с известной реализацией цифровой фильтрации на MAC-блоках.

3. Разработаны обобщенная модель усовершенствованной ЦОС в СОК и архитектура цифрового фильтра для параллельной обработки сигналов в СОК с модулями специального вида  $\{2^{k_1}, 2^{k_2} - 1, 2^{k_3} - 1, \dots, 2^{k_n} - 1\}$ , учитывающие все налагаемые на вычислительный диапазон ограничения и реализующие многоканальную обработку данных через КИХ-МЦФ по каждому модулю системы. Теоретический анализ ресурсозатрат на реализацию цифровой фильтрации сигналов в ПСС и СОК показал превосходство модулярных вычислений как по задержке, сократив ее от 1,3 до 2,6 раз, так и по аппаратным ресурсозатратам системы ЦОС, уменьшив их в 1,7-4,8 раза. Большее количество модулей СОК обеспечивает большее преимущество по эксплуатационным характеристикам системы ЦОС. Рост порядка ЦФ несколько увеличивает преимущества в скорости фильтрации и в экономии аппаратных ресурсов при использовании модулярных вычислений.

4. Теоретический анализ на основе UGM технических характеристик КИХ-МЦФ, построенного на основе СОК со сбалансированным набором модулей  $\{2^k - 1, 2^k, 2^k + 1\}$  и использующего специализированные вычислительные блоки, адаптированные под модули вида  $2^k + 1$ , продемонстрировал снижение аппаратных затрат от 2% до 10,3%, но вместе с тем показал повышение задержки вычислений от 8,3% до 53,3% в зависимости от порядка фильтра и разновидности блоков суммирования.

**Положение 1. Обобщенная модель усовершенствованной цифровой обработки сигналов в системе остаточных классов, обеспечивающая повышение производительности за счет системного объединения параллельной модулярной арифметики, блочной обработки данных, методов выполнения немодульных операций на основе дробных величин и масштабирования коэффициентов фильтров**

**Положение 2. Архитектура цифрового фильтра в системе остаточных классов с модулями специального вида, реализующая ключевой вычислительный элемент обобщенной модели и обеспечивающая параллельную обработку сигналов**

# Основные принципы одноуровневой вейвлет-обработки изображений

Свертка двумерных и трехмерных изображений с вейвлет-фильтрами  $F$  по их коэффициентам  $f_{F,i}$  ( $i = 1, \dots, l$ ) осуществляется по формулам

$$I'(x, y, z) = \sum_{i=1}^l I(x-i, y, z) \cdot f_{F,i},$$

$$I''(x, y, z) = \sum_{i=1}^l I'(x, y-i, z) \cdot f_{F,i},$$

$$I'''(x, y, z) = \sum_{i=1}^l I''(x, y, z-i) \cdot f_{F,i},$$

где:  $0 \leq x \leq X-1$ ,  $0 \leq y \leq Y-1$  и  $0 \leq z \leq Z-1$  – пространственные координаты цифрового изображения  $I(x, y, z)$ ,  $I'(x, y, z)$ ,  $I''(x, y, z)$  и  $I'''(x, y, z)$  – результаты свертки по строкам  $X$ , столбцам  $Y$  и кадрам  $Z$ , соответственно. При этом коэффициенты  $f_{F,i}$  различных видов вейвлет-фильтров  $F$  связаны соотношениями

$$f_{BA,i} = (-1)^i f_{HA,l-i+1}, f_{HC,i} = f_{HA,l-i+1},$$

$$f_{BC,i} = (-1)^{i+1} f_{HA,i}.$$



**Положение 3. Метод вейвлет-фильтрации сигналов с понижающей дискретизацией на основе блочной обработки данных, являющийся развитием обобщенной модели для ресурсоэффективной реализации многоуровневых преобразований**

# Подход к высокоскоростной вейвлет-фильтрации сигналов на основе блочной обработки данных с уменьшением количества используемых умножений

Вейвлет-фильтрация двумерных сигналов, осуществляется по формуле (1), реализована в виде матричных вычислений, представленных в формуле (2).

$$I(x, y) = \sum_{i=1}^r I(x-i, y) \cdot r_i, \quad I'(x, y) = \sum_{i=1}^r I(x, y-i) \cdot r_i, \quad (1)$$

где  $I(x, y)$  – пиксели исходного двумерного изображения;

$R = (r_1, r_2, r_3, \dots, r_{r-1}, r_r)$  – одномерный вейвлет-фильтр порядка  $r$ .

$$M = A^T ((GR) \odot (B^T N)), \quad (2)$$

где:  $M$  – фрагмент обработанного изображения размером  $m \times 1$ ;  $R$  – ВФ размера  $r \times 1$ ;  $N$  – исходный фрагмент изображения размером  $n \times 1$  ( $n = m + r - 1$ );  $A^T$ ,  $G$ ,  $B^T$  – матрицы преобразования размеров  $m \times n$ ,  $n \times r$ ,  $n \times n$ , соответственно;  $\odot$  – оператор поэлементного матричного умножения. В случае одномерной фильтрации методом Винограда обозначается как  $F(m, r)$  и содержит размер  $m$  фрагментов обработанного изображения и порядок  $r$  используемого вейвлета. Вейвлет-обработка реализована параллельно по 2 вычислительных каналам с применением составленных вспомогательных матриц преобразования. Количество используемых операций умножений значительно снижено благодаря возможности априорной организации через масштабирование и сложение, обладающие значительно меньшей вычислительной сложностью.



Вейвлет-фильтрация прямым методом



Вейвлет-фильтрация на основе матричных вычислений методом Винограда

# Составление вспомогательных матриц преобразования для организации цифровой вейвлет-фильтрации с использованием блочной обработки данных

**Алгоритм 1** Составление вспомогательной матрицы преобразования  $A^T$

**Входные данные:** матрица Вандермонда  $V$

**Выходные данные:** матрица преобразования  $A^T$

- 1: **рассчитать**  $V^T$
- 2:  $A^T(i,j) = V^T(i,j)$ , где  $i = \overline{1,m}$  и  $j = \overline{1,n}$
- 3:  $A^T(m,n) = 1$

**Алгоритм 2** Составление вспомогательной матрицы преобразования  $G$

**Входные данные:** матрица Вандермонда  $V$

**Выходные данные:** матрица преобразования  $G$

- 1: **рассчитать**  $V^{-T}$
- 2: **для**  $i$  от 1 до  $n$
- 3:     **для**  $j$  от 1 до  $n$
- 4:          $y_j = den(V^{-T}(i,j))$
- 5:     **конец**
- 6:      $z_i = LCM\{y_j\}$
- 7:     **конец**
- 8:      $G(i,j) = \frac{V(i,j)}{z_i}$ , где  $i = \overline{1,n}$  и  $j = \overline{1,r}$
- 9:      $G(n,r) = 1$

**Алгоритм 3.1.3** Составление вспомогательной матрицы преобразования  $B^T$

**Входные данные:** матрица Вандермонда  $V$

**Выходные данные:** матрица преобразования  $B^T$

- 1: **рассчитать**  $V^{-T}$
- 2: **для**  $i$  от 1 до  $n$
- 3:     **для**  $j$  от 1 до  $n$
- 4:          $y_j = den(V^{-T}(i,j))$
- 5:     **конец**
- 6:      $z_i = LCM\{y_j\}$
- 7:     **конец**
- 8:      $B^T(i,j) = V^{-T}(i,j)z_i$ , где  $i = \overline{1,n}$  и  $j = \overline{1,n}$

# Расчет необходимого количества операций сложения и умножения для вейвлет-фильтрации двумерных сигналов различными методами

Количество сложений и умножений при цифровой фильтрации двумерных сигналов (изображений) рассчитывается по следующим правилам:

1. Количество умножений при использовании прямого метода равно  $2r$ , где  $r$  – порядок вейвлета.
2. Количество сложений при использовании прямого метода равно  $2(r - 1)$ .
3. Количество умножений при использовании матричных вычислений методом Винограда равно  $2n$ , где  $n$  – размер обрабатываемого фрагмента исходного изображения.
4. Количество сложений при использовании матричных вычислений методом Винограда равно уменьшенной на 1 сумме единиц в двоичной записи элементов каждой строки матриц  $A^r$  и  $B^r$ .
5. Удельный вес пикселя при использовании матричных вычислений методом Винограда вычисляется делением количества операций (умножений и сложений), необходимых для получения фрагмента обработанного изображения, на число  $m$  пикселей данного фрагмента.

| Порядок вейвлета | Метод    | Количество слагаемых в каждой строке матрицы |                                               |
|------------------|----------|----------------------------------------------|-----------------------------------------------|
|                  |          | $A^r$                                        | $B^r$                                         |
| 4                | $F(2,4)$ | <b>4,4</b>                                   | <b>4,3,4,2,4</b>                              |
|                  | $F(3,4)$ | <b>5,4,5</b>                                 | <b>4,4,4,4,4,4</b>                            |
|                  | $F(4,4)$ | <b>6,5,5,6</b>                               | <b>8,7,6,6,9,4,8</b>                          |
|                  | $F(5,4)$ | <b>7,6,6,6,7</b>                             | <b>8,8,8,8,8,8,8,8</b>                        |
| 6                | $F(2,6)$ | <b>6,6</b>                                   | <b>8,7,6,6,9,4,8</b>                          |
|                  | $F(3,6)$ | <b>7,6,7</b>                                 | <b>8,8,8,8,8,8,8,8</b>                        |
|                  | $F(4,6)$ | <b>8,7,7,8</b>                               | <b>16,17,14,14,12,12,18,8,16</b>              |
|                  | $F(5,6)$ | <b>9,8,8,8,9</b>                             | <b>15,16,16,16,16,16,16,16,15</b>             |
|                  | $F(6,6)$ | <b>10,9,9,9,9,10</b>                         | <b>30,31,20,34,29,28,30,24,33,15,30</b>       |
|                  | $F(7,6)$ | <b>11,10,10,10,10,10,11</b>                  | <b>26,30,30,32,32,30,30,32,32,30,30,26</b>    |
| 8                | $F(2,8)$ | <b>8,8</b>                                   | <b>16,17,14,14,12,12,18,8,16</b>              |
|                  | $F(3,8)$ | <b>9,8,9</b>                                 | <b>15,16,16,16,16,16,16,16,15</b>             |
|                  | $F(4,8)$ | <b>10,9,9,10</b>                             | <b>30,31,20,34,29,28,30,24,33,15,30</b>       |
|                  | $F(5,8)$ | <b>11,10,10,10,11</b>                        | <b>26,30,30,32,32,30,30,32,32,30,30,26</b>    |
|                  | $F(6,8)$ | <b>12,11,11,11,11,12</b>                     | <b>52,53,48,58,36,56,54,56,55,45,54,26,52</b> |

Положение 3. Метод вейвлет-фильтрации сигналов с понижающей дискретизацией на основе блочной обработки данных, являющийся развитием обобщенной модели для ресурсоэффективной реализации многоуровневых преобразований

# Теоретическая оценка ресурсозатрат на реализацию вейвлет-фильтрации двумерных сигналов с использованием различных подходов (начало)

Для оценки временных и аппаратных ресурсозатрат на реализацию методов вейвлет-фильтрации двумерных сигналов (изображений) использована методика unit-gate model (UGM). В соответствии с данной методикой обозначим характеристики используемых умножителей и многовходовых сумматоров.

1. Задержка умножителя двух чисел разрядности  $k$  вычисляется по формуле  $U_{delay}(mul(k)) = 8,8\log_2 k + 5$ .

2. Площадь умножителя двух чисел разрядности  $k$  вычисляется по формуле  $U_{area}(mul(k)) = 3k \log_2 k + 8k^2 - 11k + 1$ .

3. Задержка сумматора  $p$  чисел разрядности  $k$  вычисляется по формуле  $U_{delay}(add(k, p)) = 6,8\log_2 p + 2\log_2 k + 4$ .

4. Площадь сумматора  $p$  чисел разрядности  $k$  вычисляется по формуле  $U_{area}(add(k, p)) = 3k \log_2 k + 7kp - 11k + 1$ .

| Порядок вейвлета | Метод    | Размер фрагмента | Для каждого фрагмента |          | Удельный вес пикселя |          |
|------------------|----------|------------------|-----------------------|----------|----------------------|----------|
|                  |          |                  | Умножения             | Сложение | Умножения            | Сложение |
| 4                | Прямой   | 1                | 8                     | 6        | 8,00                 | 6,00     |
|                  | $F(2,4)$ | 2                | 10                    | 24       | 5,00                 | 12,00    |
|                  | $F(3,4)$ | 3                | 12                    | 40       | 4,00                 | 13,33    |
|                  | $F(4,4)$ | 4                | 14                    | 77       | 3,50                 | 19,25    |
|                  | $F(5,4)$ | 5                | 16                    | 110      | 3,20                 | 22,00    |
| 6                | Прямой   | 1                | 12                    | 10       | 12,00                | 10,00    |
|                  | $F(2,6)$ | 2                | 14                    | 61       | 7,00                 | 30,50    |
|                  | $F(3,6)$ | 3                | 16                    | 90       | 5,33                 | 30,00    |
|                  | $F(4,6)$ | 4                | 18                    | 169      | 4,50                 | 42,25    |
|                  | $F(5,6)$ | 5                | 20                    | 222      | 4,00                 | 44,40    |
|                  | $F(6,6)$ | 6                | 22                    | 382      | 3,67                 | 63,67    |
|                  | $F(7,6)$ | 7                | 24                    | 478      | 3,43                 | 68,29    |
| 8                | Прямой   | 1                | 16                    | 14       | 16,00                | 14,00    |
|                  | $F(2,8)$ | 2                | 18                    | 140      | 9,00                 | 70,00    |
|                  | $F(3,8)$ | 3                | 20                    | 194      | 6,67                 | 64,67    |
|                  | $F(4,8)$ | 4                | 22                    | 350      | 5,50                 | 87,50    |
|                  | $F(5,8)$ | 5                | 24                    | 442      | 4,80                 | 88,40    |

Положение 3. Метод вейвлет-фильтрации сигналов с понижающей дискретизацией на основе блочной обработки данных, являющийся развитием обобщенной модели для ресурсоэффективной реализации многоуровневых преобразований

# Теоретическая оценка ресурсозатрат на реализацию вейвлет-фильтрации двумерных сигналов с использованием различных подходов (начало)



Результаты оценки ресурсозатрат на реализацию вейвлет-фильтрации с использованием различных подходов показали, что организация матричных вычислений повышает скорость обработки сигналов до 73,62% и уменьшает аппаратные затраты до 34,03% за счет понижения количества используемых операций умножения.

# Метод организации блочной обработки данных при вейвлет-обработке цифровых сигналов с понижающей дискретизацией

В общем случае одномерная цифровая фильтрация на основе блочной обработки данных методом Винограда  $F(m, r, d)$  с фрагментами изображения размера  $F(m, r, d)$ , порядком используемого фильтра  $F(m, r, d)$  и уменьшением частоты дискретизации в  $d$  раз реализуется по формуле

$$F(m, r, d) = s_2 \cdot F(m, s_1 + 1) + (d - s_2) \cdot F(m, s_1),$$

где  $s_1$  и  $s_2$  – неполное частное и остаток от деления  $r$  на  $d$ , соответственно. В частном случае, когда  $d$  делит  $r$ , формула примет вид

$$F(m, r, d) = d \cdot F(m, s_1).$$

Вычисления организуются согласно представленной схеме, в которой  $Z_L$  и  $Z_H$  – фрагменты изображения, обработанные методом Винограда  $F(m, r, 2)$  с использованием вейвлет-фильтров  $R_L$  и  $R_H$ , соответственно. Выбранный фрагмент обрабатываемого изображений подразделяется на две составляющие, одна из которых включает в себя четные отсчеты исходного сигнала, а другая – нечетные. Таким образом осуществляется распараллеливание вычислений по нескольким каналам. Поэлементное умножение выполняется однократно для двух матриц-столбцов порядка. Все остальные вычисления реализуются с использованием сложений с априори рассчитанными константными величинами.



## **Основные результаты по положению 3**

1. На основе анализа подходов к организации блочной обработки данных МВ для повышения скорости работы методов цифровой фильтрации одномерных и многомерных сигналов при их реализации на современных средствах вычислительной техники предложен способ выбора наиболее эффективных с точки вычислительной сложности наборов точек, используемых для оценки эксплуатационных характеристик систем ЦОС.

2. Предложена методика для оценки эксплуатационных характеристик системы ЦОС, реализующей цифровую фильтрацию на основе блочной обработки данных с использованием МВ. Рассмотрены различные параметры МВ и рассчитано количество используемых операций сложения и умножения на основе численных значений коэффициентов вспомогательных матриц преобразования, составление которых выполняется априори и не требует затрат в процессе эксплуатации устройства, реализующего методы обработки сигналов на основе МВ. Результаты оценки на основе предложенной методики с использованием UGM показали, что организация блочной обработки данных МВ снижает вычислительную сложность цифровой фильтрации изображений до 84% при неизменном качестве обработки данных.

3. Разработан подход к реализации вейвлет-фильтрации двумерных сигналов на основе блочной обработки данных. Вейвлет-обработка реализована параллельно по 2 вычислительных каналам с применением составленных вспомогательных матриц преобразования. Количество используемых операций умножений значительно снижено благодаря возможности априорной организации через масштабирование и сложение, обладающие значительно меньшей вычислительной сложностью. Предложенный подход сократил вычислительную сложность цифровой фильтрации двумерного сигнала до 72,9%. Оценка эксплуатационных характеристик системы на основе предложенной методики показала, что разработанный подход повышает скорость вычислений до 73,62% и уменьшает аппаратные затраты до 34,03% за счет понижения количества используемых операций умножения.

4. Разработан метод организации блочной обработки данных при одномерной цифровой фильтрации двумерных сигналов с понижающей дискретизацией. Выведены формулы для реализации сверточных вычислений при любых значениях шага свертки одномерного фильтра с двумерным сигналом в виде комбинации МВ с различными параметрами.

# Метод обратного преобразования чисел из СОК в ПСС на основе дробных величин и архитектура для его реализации (начало)

Разработана модифицированная версия Китайской теоремы об остатках (КТО) с дробными величинами (КТОд) для выполнения преобразования остатков в двоичный код. В системе остаточных классов (СОК) с модулями  $\{m_1, m_2, \dots, m_n\}$  число  $X$  представляется в виде  $\{x_1, x_2, \dots, x_n\}$ , где  $x_i \equiv |X|_{m_i}$ . При этом обратное преобразование выполняется по формуле

$$X = \left| \sum_{i=1}^n \left( |M_i^{-1}|_{m_i} M_i \right) x_i \right|_M , \quad (1)$$

где  $M_i = M/m_i$ , а выражение  $|M_i^{-1}|_{m_i}$  означает обратный элемент для  $M_i$  в мультиплексивной группе кольца вычетов по модулю  $m_i$ . Реализация операции по формуле (1) на современных средствах вычислительной техники является ресурсозатратной, в связи с чем основной целью большинства исследований обратного преобразования является максимальное упрощение данной операции. Одним из самых эффективных подходов является модификация традиционной КТО, заключающаяся в аппроксимации относительного положения чисел на числовой прямой. Этот подход получил название КТОд. В основе КТОд лежит идея упрощения вычислений за счет изменения выражения (1) для выявления положения этого числа.

# Метод обратного преобразования чисел из СОК в ПСС на основе дробных величин и архитектура для его реализации (окончание)

Для этого поделим обозначенное выражение на диапазон  $M$ :

$$\frac{X}{M} = \left| \sum_{i=1}^n x_i \frac{\left| M_i^{-1} \right|_{m_i} M_i}{M} \right|_1 = \left| \sum_{i=1}^n \alpha_i x_i \right|_1 \quad (2),$$

где  $\left| \cdot \right|_1$  представляет собой операцию нахождения дробной части числа, и  $\alpha_i = \frac{\left| M_i^{-1} \right|_{m_i} M_i}{M}$ .

В этом случае формула (2) преобразуется к виду  $\frac{X}{M} = \left| \sum_{i=1}^n x_i \alpha_i \right|_1$ . Данное выражение можно

записать в виде  $X = \frac{XM}{2^K}$ , где  $X' = \left\lfloor 2^K \frac{X}{M} \right\rfloor = \left| \sum_{i=1}^n x_i \alpha'_i \right|_{2^N}$ .

Данный подход позволяет избежать операции вычисления остатка от деления на модуль  $M$ , тем самым уменьшив ресурсозатраты при аппаратной реализации модульных вычислений. Предложенный метод вычисления существенно проясняет требуемое количество двоичных значений аналогичным избыточные оценкам, что позволяет вычислить с минимальным требуемым количеством обрабатываемых бит.



## Метод определения знака числа, представленного в СОК, на основе дробных величин

1. Для СОК с модулями  $\{m_1, m_2, \dots, m_n\}$  предварительно вычисляются константы  $M = m_1 m_2 \dots m_n$ ,  $\mu = -n + \sum_{i=1}^n m_i$ ,  $N = \lceil \log_2(M\mu) \rceil$  и  $\alpha_i = \left( \left| M_i^{-1} \right|_{m_i} M_i \right) / M$ .
2. Для констант  $k_i$ , определенных в пункте 1, определяются дробные величины  $[F(\alpha_i)]_{2^{-N}}$  и  $[F(\alpha_i)]_{2^{-\tilde{N}}}$ , где  $F(\alpha_i)$  – бесконечная дробь в двоичной системе счисления, равная  $\alpha_i$ , и  $\tilde{N} < N$ .
3. С целью выявления знака исходного числа рассчитывается значение величины  $[F(X/M)]_{2^{-\tilde{N}}} = \left| \sum_{i=1}^n x_i [F(\alpha_i)]_{2^{-\tilde{N}}} \right|_1$ .
4. Из условия  $0 < \left[ F\left(\frac{X}{M}\right) \right]_{2^{-\tilde{N}}} < \frac{1}{2} - 2^{-\tilde{N}}\mu$  следует, что исходное число больше нуля. Из условия  $\frac{1}{2} < \left[ F\left(\frac{X}{M}\right) \right]_{2^{-\tilde{N}}} < 1 - 2^{-\tilde{N}}\mu$  следует, что оно меньше нуля.
5. Если ни одно из условий пункта 4 не выполнено, то число  $X$  попало в одну из зон неопределенности, поэтому требуется уточняющая итерация. Вычисляется  $[F(X/M)]_{2^{-N}} = \left| \sum_{i=1}^n x_i [F(\alpha_i)]_{2^{-N}} \right|_1$ .
6. Если  $0 < [F(X/M)]_{2^{-N}} < 0,5$ , то число  $X$  положительное. Если  $0,5 < [F(X/M)]_{2^{-N}} < 1$ , то число  $X$  отрицательное.

## **Метод сравнения чисел в СОК на основе дробных величин и архитектура для его реализации (начало)**

Для решения задачи сравнения двух чисел  $X$  и  $Y$  в модулярном коде представлен оригинальный подход на основе дробных величин, в соответствии с которым необходимо выполнить следующую последовательность действий.

1. Установить, какие знаки имеют исходные числа.
2. В случае, когда оба числа являются беззнаковыми, если их разность больше нуля, то уменьшаемое число превосходит вычитаемое.
3. В случае, когда оба числа имеют одинаковый знак, выполняется вычисление  $|X/M - Y/M|_1$ .
4. В случае, когда числа имеют противоположные знаки, первое число больше, если выполняется условие  $0 \leq |X/M - Y/M|_1 < 0,5$ , и второе число больше, если выполняется условие  $0,5 \leq |X/M - Y/M|_1 < 1$ .

Выигрыш по ресурсозатратам на реализацию данной операции на современных средствах вычислительной техники должен обеспечиваться значительно уменьшенным количеством выполняемых операций при реализации арифметической обработки данных в модулярном коде.

# Метод и архитектура сравнения чисел в СОК на дробных величин и архитектура для его реализации (окончание)

На слайде представлена схема реализации метода сравнения чисел в СОК с использованием Китайской теоремы об остатках с дробными величинами (КТОд). На вход устройства поступают два числа  $X = (x_1, x_2, \dots, x_n)$  и  $Y = (y_1, y_2, \dots, y_n)$ , представленные в СОК с основаниями  $\{m_1, m_2, \dots, m_n\}$ , которым соответствуют разрядности  $\{a_1, a_2, \dots, a_n\}$ . Умножение на константы реализовано с помощью компрессора и сумматора KSA по модулю  $2^k$ . Далее значение позиционных характеристик передается на компаратор, который реализует операцию сравнения.



# Метод и архитектура блока обнаружения, локализации и исправления ошибок в СОК на основе дробных величин (начало)

Пусть СОК содержит  $n$  рабочих каналов и  $r$  контрольных каналов  $n+1, \dots, n+r$ , функционирующих одновременно и параллельно. Тогда обнаружения, локализации и исправления ошибок в СОК на основе КТОд описывается следующей последовательностью действий:

1. Вычисление констант СОК  $\alpha_i = \frac{\left| M_i^{-1} \right|_{m_i}}{m_i}$  с требуемой точностью, где  $i = 1, 2, \dots, n+r$ .
2. Вычисление приближенных значений  $\alpha_i x_i$  и запись их в LUT-таблицы, где  $\alpha_i$  – константы, найденные в пункте 1,  $1 \leq \alpha_i \leq m_i - 1$ . Адресами выборки значений  $\alpha_i x_i$  являются  $x_i$ , где  $i = 1, \dots, n+r$ .
3. Вычисление позиционной характеристики величины  $\bar{X}$ .
4. Конструирование некоторых правил  $\Psi_j$ , где  $j = 1, 2, 3$ , согласно которым выполняется  $j$ -я немодульная операция (обнаружение ошибки, переполнение и локализация ошибочного разряда), а также исправление ошибочного числа на основе восстановления позиционного числа  $X$  по остаткам.

# Метод и архитектура блока обнаружения, локализации и исправления ошибок в СОК на основе дробных величин (окончание)



Характеристики устройства коррекции ошибок в СОК с различными диапазонами

| Метод | Разрядность диапазона, бит | Тактовая частота, МГц | Слайсы |
|-------|----------------------------|-----------------------|--------|
| КТОд  | 18                         | 89                    | 100    |
|       | 33                         | 81                    | 220    |
|       | 49                         | 70                    | 440    |
|       | 65                         | 62                    | 689    |
|       | 81                         | 56                    | 1130   |
|       | 97                         | 52                    | 1593   |
| ОПСС  | 18                         | 28                    | 130    |
|       | 33                         | 14                    | 350    |
|       | 49                         | 9                     | 690    |
|       | 65                         | 6                     | 865    |
|       | 81                         | 5                     | 1440   |
|       | 97                         | 4                     | 2330   |

Для анализа характеристик устройства реализации предложенного подхода на программируемых пользователем вентильных матрицах (field-programmable gate array, FPGA) выполнено проектирование на плате Kintex-7 KC705 XC7K70T-2FBG676 без блоков DSP48E1 в среде ISE Design Suite 14.7.

## Основные результаты по положению 3

1. Разработана модифицированная версия КТО для выполнения преобразования остатков в двоичный код. Эффективность представленного подхода достигается за счет упрощения вычислений с дробями. Предложенный метод обратного преобразования чисел из СОК в ПСС на основе дробных величин и архитектура для его реализации существенно проясняют требуемое количество двоичных значений аналогичным избыточные оценкам, что позволяет производить вычисления с использованием минимального требуемого количества обрабатываемых бит. Результаты предварительного моделирования указывают на сокращение ресурсозатрат при реализации рассматриваемой операции для ЦОС.

2. Разработаны метод определения знака числа в СОК, основанный на применении дробных величин. Предложенный выбор точности при вычислении грубой оценки знака позволяет снизить количество обрабатываемых разрядов до величины примерно пропорциональной логарифму диапазона СОК, в то время как лучшие из известных методов имеют время выполнения, линейно зависящее от диапазона. Расчеты показали превосходство по скорости вычислений предложенного метода на основе дробных величин над известными аналогами на основе КТО и ОПСС. Данное обстоятельство имеет место для СОК с произвольным заданным набором модулей. В случае задания СОК со специальным подбором модулей вида  $2^k \pm 1$  возможно создание более быстрых узкоспециализированных решений для определения знака числа. Разработанный метод является универсальным и не привязан к какому-либо набору модулей.

3. Для решения задачи сравнения чисел в СОК разработаны метод и архитектура на основе дробных величин, позволяющие сократить количество используемых операций при реализации параллельной обработки данных в модулярном коде, что указывает на возможность значимого снижения ресурсозатрат при реализации рассматриваемой немодульной операции с использованием различных наборов модулей СОК на базе платформ ППВМ и ИССН для решения различных задач ЦОС.

4. Для решения задач обнаружения, локализации и исправления ошибочного разряда предложены метод и архитектура, последовательность действий при реализации которых способна оптимизировать обработку данных в модулярном коде при локализации ошибочного разряда с помощью дробных величин. Благодаря использованию дробных значений удается заменить сложные операторы преобразования чисел из СОК в ОПСС более простыми операциями сложения, что приводит к значительному снижению ресурсозатрат на обработку цифровых данных, а также к перспективному повышению производительности вычислений при реализации предложенных структур на базе платформ ППВМ и ИССН.

# Двумерная цифровая фильтрация в позиционной системе счисления и в системе остаточных классов с масштабированными коэффициентами



Коэффициенты  $f_{i,j}$  фильтра  $F$  предварительно масштабируются на  $k$  бит и округляются к большему по формуле  $f_{i,j}^* = \lceil 2^k f_{i,j} \rceil$ . Данные коэффициенты хранятся в памяти устройства в виде констант и используются для свертки с исходным изображением по формуле

$$I_2^*(x, y) = \sum_{i=-1}^l \sum_{j=-1}^l I_1(x - i, y - j) \cdot f_{i,j}^*. \text{ После чего выполняется обратное масштабирование результатов свертки по формуле } I_2(x, y) = \lfloor I_2^*(x, y) / 2^k \rfloor.$$

При организации вычислений в СОК все данные необходимо предварительно перевести из ПСС в СОК с набором модулей  $\{m_1, \dots, m_n\}$ . После выполнения свертки по каждому модулю результаты переводятся из СОК в ПСС.

**Положение 5. Метод и алгоритм дискретного вейвлет-преобразования многомерных сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, представляющие собой комплексную реализацию обобщенной модели для задач обработки изображений**

## Анализ вычислительной погрешности двумерной цифровой фильтрации с использованием масштабированных коэффициентов (начало)

Погрешность цифровой фильтрации зависит от точности представления его коэффициентов в памяти устройства, то есть от параметра масштабирования  $k$ . Абсолютная погрешность (АП)  $E_1$  масштабирования и округления коэффициентов  $f_{i,j}$  двумерного пространственного фильтра  $F$  размера  $(2l+1) \times (2l+1)$  вычисляется

по формуле  $E_1 = \sum_{i=-l}^l \sum_{j=-1}^l (2^k f_{i,j} - 2^k \bar{f}_{i,j})$ . В случае, когда конкретные значения коэффициентов не известны, либо

подлежат изменению, используется предельная абсолютная погрешность (ПАП)  $E_2$  ( $E_2 \geq E_1$ ) преобразования коэффициентов  $E_2 = (2l+1)^2 - \varepsilon$ , где  $\varepsilon$  – машинный ноль. ПАП  $E_3$  свертки вычисляется из выражения  $E_3 = E_2 \cdot M_{max} = M_{max} (2l+1)^2 - \varepsilon$ . ПАП  $E_4$  масштабированных результатов свертки рассчитывается по формуле

$E_4 = \frac{E_3}{2^k} = 2^{-k} M_{max} (2l+1)^2 - \varepsilon$ . ПАП  $E_5$  округления масштабированных результатов свертки вычисляется из уравнения  $E_5 = E_4 + \beta - \lfloor E_4 + \beta \rfloor$ , где  $\beta$  – дробная часть точного результата свертки. ПАП  $E_6$  округленных

масштабированных результатов свертки рассчитывается по формуле  $E_6 = |E_4 - E_5|$ . Подставив в данную формулу значение  $E_5$ , получим  $E_6 = |E_4 - (E_4 + \beta - \lfloor E_4 + \beta \rfloor)| = |\lfloor E_4 + \beta \rfloor - \beta|$ . Если  $|\lfloor E_4 + \beta \rfloor - \beta| > 0$ , то  $|\lfloor E_4 + \beta \rfloor| \geq 1$ , тогда чем больше значение  $|\lfloor E_4 + \beta \rfloor|$ , тем больше погрешность  $E_6$ . В этом случае  $|\lfloor E_4 + \beta \rfloor| = |\lfloor E_4 \rfloor| + 1$ ,  $\beta = |\lfloor E_4 \rfloor| + 1 - E_4$  и  $E_6 = |\lfloor E_4 + |\lfloor E_4 \rfloor| + 1 - E_4 \rfloor - (|\lfloor E_4 \rfloor| + 1 - E_4)| = E_4$ . Если же  $|\lfloor E_4 + \beta \rfloor| - \beta \leq 0$ , то  $|\lfloor E_4 + \beta \rfloor| \leq \beta$ . Откуда  $E_4 + \beta = 0$  и  $E_6 = |0 - \beta| = \beta$ .

**Положение 5.** Метод и алгоритм дискретного вейвлет-преобразования многомерных сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, представляющие собой комплексную реализацию обобщенной модели для задач обработки изображений

## Анализ вычислительной погрешности двумерной цифровой фильтрации с использованием масштабированных коэффициентов (окончание)

Тогда чем больше значение  $\beta$ , тем больше погрешность  $E_6$ . В этом случае  $\lfloor E_4 + \beta \rfloor = 0$ , откуда  $E_4 + \beta = 1 - \varepsilon$  и  $\beta = 1 - E_4 - \varepsilon \leq 1 - \varepsilon$ . Тогда  $E_6 = |0 + 1 - \varepsilon - (1 - \varepsilon)| = |0 - (1 - \varepsilon)| = 1 - \varepsilon$ . Таким образом  $E_6$

вычисляется из выражения  $E_6 = \begin{cases} E_4, & E_4 \geq 1, \\ 1 - \varepsilon, & E_4 < 1. \end{cases}$

Подставив значение  $E_4$ , получим

$$E_6 = \begin{cases} 2^{-k} M_{max} (2l+1)^2 - \varepsilon, & 2^{-k} M_{max} (2l+1)^2 - \varepsilon \geq 1, \\ 1 - \varepsilon, & 2^{-k} M_{max} (2l+1)^2 - \varepsilon < 1; \end{cases} \Rightarrow E_6 = \begin{cases} 2^{-k} M_{max} (2l+1)^2, & 2^k < M_{max} (2l+1)^2, \\ 1, & 2^k \geq M_{max} (2l+1)^2. \end{cases}$$

Результирующая погрешность цифровой фильтрации  $MSE \leq E_6^2$ , где  $MSE$  – среднеквадратическое отклонение, и минимальное качество обработки изображения рассчитывается по формуле  $PSNR = 20 \log_{10} (M_{max} / E_6)$ , где  $PSNR$  – пиковое отношение сигнал-шум между исходным и обработанным изображениями, а  $M_{max}$  – максимальное значение яркости пикселей. Подставив полученное выражение  $E_6$ , получим

$$PSNR > \begin{cases} 20 \log_{10} \left( \frac{2^k}{(2l+1)^2} \right), & 2^k < M_{max} (2l+1)^2, \\ 20 \log_{10} M_{max}, & 2^k \geq M_{max} (2l+1)^2. \end{cases}$$

**Положение 5.** Метод и алгоритм дискретного вейвлет-преобразования многомерных сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, представляющие собой комплексную реализацию обобщенной модели для задач обработки изображений

# Анализ вычислительной погрешности вейвлетной обработки изображений с масштабированными коэффициентами (начало)

Коэффициенты  $f_{F,i}$  вейвлет-фильтра  $F$  масштабируются на  $k$  двоичных разрядов и округляются к большему по формуле

$$f_{F,i}^* = \lceil 2^k f_{F,i} \rceil.$$

Далее выполняется вейвлет-обработка изображения  $I$  с использованием масштабированных коэффициентов. Полученный результат  $I^*$  преобразуется по формуле

$$\tilde{I} = \left\lfloor 2^{-4k} I^* \right\rfloor \text{ или } \tilde{I} = \left\lfloor 2^{-6k} I^* \right\rfloor$$

в случае двумерного или трехмерного изображения, соответственно.



**Положение 5.** Метод и алгоритм дискретного вейвлет-преобразования многомерных сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, представляющие собой комплексную реализацию обобщенной модели для задач обработки изображений

# Анализ вычислительной погрешности вейвлетной обработки изображений с масштабированными коэффициентами (продолжение)

Этап 1. Масштабирование коэффициентов вейвлет-фильтров.

$$T_1^{[L]} = \sum_{i=1}^l 2^k f_{L,i} = 2^k \sum_{i=1}^l f_{L,i} = 2^k \cdot \sqrt{2} = 2^{k+1/2} = 2^k \sum_{i=1}^l f_{L,i} = 2^k \cdot \sqrt{2} = 2^{k+1/2},$$

где  $T_1^{[L]}$  – точное значение суммы коэффициентов вейвлет-фильтров  $L$ .

$$\begin{aligned} T_1^{[H]} &= \sum_{i=1}^l 2^k f_{L,i} = 2^k \sum_{i=1}^l f_{H,i} = 2^k \cdot 0 = 0, \\ T_{1,1}^{[L]} &= \sum_{i=1}^{\frac{l}{2}} 2^k f_{L,2i-1}, T_{1,1}^{[H]} = \sum_{i=1}^{\frac{l}{2}} 2^k f_{H,2i-1}, \\ T_{1,2}^{[H]} &= \sum_{i=1}^{\frac{l}{2}} 2^k f_{H,2i}, E_1^{[L]} = \sum_{i=1}^l (\lceil 2^k f_{L,i} \rceil - 2^k f_{L,i}). \end{aligned}$$

где  $E_1^{[L]}$  – сумма АП округления коэффициентов фильтра  $L$ .

$$\begin{aligned} E_1^{[H]} &= \sum_{i=1}^l (\lceil 2^k f_{H,i} \rceil - 2^k f_{H,i}), E_{1,1}^{[L]} = \sum_{i=1}^{\frac{l}{2}} (\lceil 2^k f_{L,2i-1} \rceil - 2^k f_{L,2i-1}), E_{1,2}^{[L]} = \sum_{i=1}^{\frac{l}{2}} (\lceil 2^k f_{L,2i} \rceil - 2^k f_{L,2i}), \\ E_{1,1}^{[H]} &= \sum_{i=1}^{\frac{l}{2}} (\lceil 2^k f_{H,2i-1} \rceil - 2^k f_{H,2i-1}), E_{1,2}^{[H]} = \sum_{i=1}^{\frac{l}{2}} (\lceil 2^k f_{H,2i} \rceil - 2^k f_{H,2i}). \end{aligned}$$

Этап 2. Свертка по строкам (анализ).

$$T_2^{[L]} = T_1^{[L]} \cdot M_{max},$$

где:  $T_2^{[L]}$  – точное значение вычислений на этапе 2, полученное после обработки изображения фильтром  $L$ ;  $M_{max}$  – максимальное значение яркости пикселей обрабатываемого изображения.

**Положение 5. Метод и алгоритм дискретного вейвлет-преобразования многомерных сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, представляющие собой комплексную реализацию обобщенной модели для задач обработки изображений**

# Анализ вычислительной погрешности вейвлетной обработки изображений с масштабированными коэффициентами (продолжение)

$$E_2^{[L]} = E_1^{[L]} \cdot M_{max},$$

где  $E_2^{[L]}$  – ПАП вычислений на этапе 2, полученная после обработки изображения фильтром  $L$ .

$$E_2^{[H]} = E_1^{[H]} \cdot M_{max}.$$

Здесь и далее все  $T_j^{[F]} = 0$  ( $j > 1$ ), где  $F$  – последовательность фильтров обработки изображения, содержащая  $H$ , так как  $T_1^{[H]} = 0$ .

Этап 3. Свертка по столбцам (анализ).

$$T_3^{[LL]} = T_2^{[LL]} \cdot T_1^{[L]},$$

где  $T_3^{[LL]}$  – точное значение вычислений на этапе 3, полученное после двукратной последовательной обработки изображения фильтром  $L$ .

$$E_3^{[LL]} = (T_2^{[L]} + E_2^{[L]})(T_1^{[L]} + E_1^{[L]}) - T_3^{[LL]},$$

где  $E_3^{[LL]}$  – ПАП вычислений на этапе 3, полученная после двукратной последовательной обработки изображения фильтром  $L$ .

$$E_3^{[LH]} = (T_2^{[L]} + E_2^{[L]})E_1^{[H]}, E_3^{[HL]} = E_2^{[H]}(T_1^{[L]} + E_1^{[L]}), E_3^{[HH]} = E_2^{[H]} \cdot E_1^{[H]}.$$

Этап 4. Свертка по столбцам (синтез).

$$T_{4,\lambda}^{[LLL]} = T_3^{[LL]} \cdot T_{1,\lambda}^{[L]}, E_{4,\lambda}^{[LLL]} = (T_3^{[LL]} + E_3^{[LL]})(T_{1,\lambda}^{[L]} + E_{1,\lambda}^{[L]}) - T_{4,\lambda}^{[LLL]}, E_{4,\lambda}^{[LHH]} = E_3^{[LH]}(T_{1,\lambda}^{[H]} + E_{1,\lambda}^{[H]}), E_{4,\lambda}^{[HLL]} = E_3^{[HL]}(T_{1,\lambda}^{[L]} + E_{1,\lambda}^{[L]}), E_{4,\lambda}^{[HHH]} = E_3^{[HH]}(T_{1,\lambda}^{[H]} + E_{1,\lambda}^{[H]}).$$

Этап 5. Суммирование по столбцам.

$$E_{5,\lambda}^{[L]} = E_{4,\lambda}^{[LLL]} + E_{4,\lambda}^{[LHH]}, E_{5,\lambda}^{[H]} = E_{4,\lambda}^{[HLL]} + E_{4,\lambda}^{[HHH]}.$$

**Положение 5. Метод и алгоритм дискретного вейвлет-преобразования многомерных сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, представляющие собой комплексную реализацию обобщенной модели для задач обработки изображений**

# Анализ вычислительной погрешности вейвлетной обработки изображений с масштабированными коэффициентами (окончание)

## Этап 6. Свертка по строкам (синтез).

$$\begin{aligned} T_{6,1}^{[L]} &= T_{4,1}^{[LLL]} \cdot T_1^{[L]}, T_{6,2}^{[L]} = T_{4,2}^{[LLL]} \cdot T_1^{[L]}, T_{6,3}^{[L]} = T_{4,1}^{[LLL]} \cdot T_2^{[L]}, T_{6,4}^{[L]} = T_{4,2}^{[LLL]} \cdot T_2^{[L]}, E_{6,1}^{[L]} = (T_{4,1}^{[LLL]} + E_{5,1}^{[L]}) (T_{1,1}^{[L]} + E_{1,1}^{[L]}) - T_{6,1}^{[L]}, E_{6,2}^{[L]} = (T_{4,2}^{[LLL]} + E_{5,2}^{[L]}) (T_{1,1}^{[L]} + E_{1,1}^{[L]}) - T_{6,2}^{[L]}, \\ E_{6,3}^{[L]} &= (T_{4,1}^{[LLL]} + E_{5,1}^{[L]}) (T_{1,2}^{[L]} + E_{1,2}^{[L]}) - T_{6,3}^{[L]}, E_{6,4}^{[L]} = (T_{4,2}^{[LLL]} + E_{5,2}^{[L]}) (T_{1,2}^{[L]} + E_{1,2}^{[L]}) - T_{6,4}^{[L]}, E_{6,1}^{[H]} = E_{5,1}^{[H]} (T_{1,1}^{[H]} + E_{1,1}^{[H]}), E_{6,2}^{[H]} = E_{5,2}^{[H]} (T_{1,1}^{[H]} + E_{1,1}^{[H]}), \\ E_{6,3}^{[H]} &= E_{5,1}^{[H]} (T_{1,2}^{[H]} + E_{1,2}^{[H]}), E_{6,4}^{[H]} = E_{5,2}^{[H]} (T_{1,2}^{[H]} + E_{1,2}^{[H]}). \end{aligned}$$

## Этап 7. Суммирование по строкам.

$$E_{7,\lambda} = E_{6,\lambda}^{[L]} + E_{6,\lambda}^{[H]}.$$

## Этап 8. Масштабирование результатов вычислений.

$$E_{8,\lambda} = \left\lfloor 2^{-4k} E_{7,\lambda} \right\rfloor.$$

Значения  $E_{8,\lambda}$  ( $\lambda = \overline{1,4}$ ) – это максимальная результирующая погрешность ВО двумерных изображений с использованием масштабированных коэффициентов ВФ, позволяющая вычислить среднеквадратическое отклонение  $MSE$  по формуле

$$MSE = 2^{-2} \sum_{\lambda=1}^4 E_{8,\lambda}^2$$

и минимально возможное качество вейвлет-обработки изображения

$$PSNR = 20 \log_{10} \left( 2^2 M_{max} / \sum_{\lambda=1}^4 E_{8,\lambda}^2 \right).$$

Разрядность  $r_{f_{F,i}^*}$  масштабированных коэффициентов  $f_{F,i}^*$  вейвлет-фильтров вычисляется по формуле

$$r_{f_{F,i}^*} = \left\lceil \log_2 (|f_{F,i}^*| + 1) \right\rceil + 1.$$

**Положение 5. Метод и алгоритм дискретного вейвлет-преобразования многомерных сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, представляющие собой комплексную реализацию обобщенной модели для задач обработки изображений**

# Теоретическая оценка наихудшего возможного качества вейвлет-обработки трехмерных полутоновых изображений с масштабированными коэффициентами



**Положение 5.** Метод и алгоритм дискретного вейвлет-преобразования многомерных сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, представляющие собой комплексную реализацию обобщенной модели для задач обработки изображений

# Пример программной вейвлет-обработки трехмерной компьютерной томограммы околоносовых пазух (120-ый кадр) вейвлетом Добеши 14 порядка (MATLAB)

Исходный кадр  
томограммы



Результат выполнения  
прямого и обратного  
дискретного вейвлет-  
преобразования с  
использованием 9-битных  
коэффициентов,  
ПОСШ=35,7 дБ



Результат выполнения  
прямого и обратного  
дискретного вейвлет-  
преобразования с  
использованием 5-битных  
коэффициентов,  
ПОСШ=18,2 дБ



Результат выполнения  
прямого и обратного  
дискретного вейвлет-  
преобразования с  
использованием 13-битных  
коэффициентов,  
ПОСШ=62,1 дБ



Положение 5. Метод и алгоритм дискретного вейвлет-преобразования многомерных сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, представляющие собой комплексную реализацию обобщенной модели для задач обработки изображений

## **Основные результаты по положению 4**

1. В результате рассмотрения подходов к цифровой фильтрации двумерных сигналов с параллельной организацией вычислений в СОК и использованием масштабированных коэффициентов ЦФ для уменьшения вычислительной сложности и снижения задержки методов ЦОС установлено, что реализация цифровой фильтрации сигналов в формате с фиксированной точкой открывает возможность проектирования высокопроизводительных аппаратных структур на базе современных платформ ППВМ и ИССН. Параметр масштабирования множитель позволяет значительно упростить и ускорить операции с его использованием при сохранении высокого качества обработки сигналов в терминах ПОСШ.

2. Предложен алгоритм масштабирования коэффициентов ВФ для обработки сигналов в СОК, учитывающий накопительную погрешность многократной последовательной свертки с анализирующими и синтезирующими ВФ при прямом и обратном ДВП данных и гарантирующий достижение высокого качества восстанавливаемого сигнала в терминах ПОСШ. Данный алгоритм позволяет выполнить предварительное преобразование коэффициентов ВФ, используемых для ВО многомерных сигналов.

3. Разработан метод вейвлет-фильтрации цифровых сигналов с параллельной организацией вычислений в СОК, использующий масштабированные коэффициенты ВФ для снижения вычислительной сложности блоков цифровой фильтрации и улучшения эксплуатационных показателей систем ЦОС. Распараллеливание вычислений в СОК на арифметико-логическом уровне при проектировании устройств ВО многомерных сигналов позволяет распределить вычислительную нагрузку по нескольким каналам, снижая задержку блоков цифровой вейвлет-фильтрации.

4. На основе проведенного программного моделирования разработанных метода и алгоритма вейвлет-фильтрации многомерных сигналов с использованием трехмерных медицинских томограмм выявлено, что чрезмерное масштабирование приводит к возникновению равномерно распределенных видимых искажений при ВО визуальных данных.

**Положение 5. Метод и алгоритм дискретного вейвлет-преобразования многомерных сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, представляющие собой комплексную реализацию обобщенной модели для задач обработки изображений**

# Схема разработанной технологии



**Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели**

# Результаты аппаратной реализации ЦФ с ТМАС в ПСС и СОК (FPGA, Artix 7)

Результаты по КИХ-ЦФ с  $k=16$

|                           | $k$ | Система счисления |          |           |       |
|---------------------------|-----|-------------------|----------|-----------|-------|
|                           |     | СОК               |          |           | ПСС   |
|                           |     | 3 модуля          | 4 модуля | 5 модулей |       |
| Максимальная частота, МГц | 16  | 278               | 285      | 283       | 139   |
|                           | 32  | 145               | 200      | 212       | 71    |
|                           | 64  | 71                | 90       | 123       | 29    |
| Количество LUT            | 16  | 638               | 588      | 740       | 801   |
|                           | 32  | 1644              | 1603     | 1388      | 2637  |
|                           | 64  | 4162              | 3348     | 3767      | 9645  |
| Энергопотребление, Вт     | 16  | 0,335             | 0,353    | 0,413     | 0,315 |
|                           | 32  | 0,390             | 0,441    | 0,425     | 0,396 |
|                           | 64  | 0,464             | 0,445    | 0,560     | 0,376 |

Применение СОК с тремя модулями позволяет увеличить частоту КИХ-ЦФ с  $k=16$  в 1,9-2,2 раз и сократить аппаратные затраты на его реализацию на 10%-44%, при увеличении энергопотребления на 6%-17%. СОК с четырьмя модулями позволяет увеличить частоту КИХ-ЦФ с  $k=16$  в 2-2,4 раз и сократить аппаратные затраты на его реализацию на 15%-55% раз, при увеличении энергопотребления на 3%-23%. СОК с пятью модулями позволяет увеличить частоту КИХ-ЦФ с  $k=16$  примерно в 2 раза и сократить аппаратные затраты на его реализацию на 1%-40%, при увеличении энергопотребления на 0,3%-31%.

Результаты по КИХ-ЦФ 15-го порядка

| К  | Максимальная частота, МГц | Система счисления |          |           | ПСС   |  |
|----|---------------------------|-------------------|----------|-----------|-------|--|
|    |                           | СОК               |          |           |       |  |
|    |                           | 3 модуля          | 4 модуля | 5 модулей |       |  |
| 15 | 295                       | 315               | 310      | 149       | 149   |  |
|    | 292                       | 315               | 305      | 132       | 132   |  |
|    | 278                       | 285               | 283      | 139       | 139   |  |
| 31 | 258                       | 279               | 266      | 135       | 135   |  |
|    | 241                       | 193               | 261      | 433       | 433   |  |
|    | 371                       | 332               | 422      | 426       | 426   |  |
| 31 | 638                       | 588               | 740      | 801       | 801   |  |
|    | 1157                      | 1097              | 1382     | 1283      | 1283  |  |
|    | 0,372                     | 0,323             | 0,338    | 0,337     | 0,337 |  |
| 7  | 371                       | 332               | 422      | 426       | 426   |  |
|    | 638                       | 588               | 740      | 801       | 801   |  |
|    | 0,386                     | 0,340             | 0,377    | 0,331     | 0,331 |  |
| 15 | 0,335                     | 0,353             | 0,413    | 0,413     | 0,315 |  |
|    | 0,433                     | 0,456             | 0,469    | 0,372     | 0,372 |  |
|    | 0,335                     | 0,353             | 0,413    | 0,413     | 0,315 |  |

Применение СОК с тремя модулями позволяет увеличить частоту КИХ-ЦФ 15-го порядка в 2,0-2,5 раз и аппаратные затраты на его реализацию в 1,3-2,3 раз, при увеличении энергопотребления на 6%-19%. СОК с четырьмя модулями позволяет увеличить частоту КИХ-ЦФ 15-го порядка в 2,1-3,1 раз и аппаратные затраты на его реализацию в 1,4-2,9 раза, при увеличении энергопотребления на 11%-16%. СОК с пятью модулями позволяет увеличить частоту КИХ-ЦФ 15-го порядка в 2,0-4,2 раз и аппаратные затраты на его реализацию в 1,1-2,6 раз, при увеличении энергопотребления на 7%-33%.

**Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели**

# Результаты реализации МЦФ со сбалансированным набором модулей (ASIC)

Результаты по 32-разрядным диапазонам СОК показали, что предложенный МЦФ эффективнее по аппаратным затратам, чем KSA-фильтр на 21,5%-23% и CPA-фильтр на 20,6%-22,2%. По задержке предложенный метод уступает KSA-фильтру на 48,6%-131,7% и CPA-фильтру на 25,2%-96,9%. По энергопотреблению предложенный МЦФ показал результаты ниже, чем у KSA-фильтра и CPA-фильтра на 21,4%-22,3%. Результаты для 48-разрядных диапазонов СОК показали, что по аппаратным затратам предложенный МЦФ уступил только CPA-фильтру 3 порядка на 1,1%, а в остальных случаях выиграл до 14,3%. По задержке предложенный МЦФ уступает известным до 167,6%.

## Результаты по 32-разрядным диапазонам СОК

| Набор модулей |                           | 7, 15, 16, 31, 127, 2047 на основе сумматоров KSA | 7, 15, 16, 31, 127, 2047 на основе сумматоров CPA | 7, 9, 17, 31, 32, 65, 127 (предложенный) |
|---------------|---------------------------|---------------------------------------------------|---------------------------------------------------|------------------------------------------|
| 3-й порядок   | Площадь, мкм <sup>2</sup> | 20724,69                                          | 20346,38                                          | <b>16139,30</b>                          |
|               | Задержка, нс              | <b>2,37</b>                                       | 3,49                                              | 4,37                                     |
|               | Мощность, мВт             | 9,90                                              | 9,88                                              | <b>7,78</b>                              |
|               | Площадь×задержка          | <b>49117,51</b>                                   | 71008,86                                          | 70528,74                                 |
| 7-ой порядок  | Площадь, мкм <sup>2</sup> | 40456,07                                          | 40074,16                                          | <b>31152,99</b>                          |
|               | Задержка, нс              | <b>3,62</b>                                       | 4,71                                              | 7,79                                     |
|               | Мощность, мВт             | 19,28                                             | 19,25                                             | <b>15,03</b>                             |
|               | Площадь×задержка          | <b>146450,98</b>                                  | 188749,30                                         | 242681,82                                |
| 15-ый порядок | Площадь, мкм <sup>2</sup> | 79856,12                                          | 79465,79                                          | <b>62507,06</b>                          |
|               | Задержка, нс              | <b>6,27</b>                                       | 7,38                                              | 14,53                                    |
|               | Мощность, мВт             | 38,00                                             | 37,98                                             | <b>29,52</b>                             |
|               | Площадь×задержка          | <b>500697,86</b>                                  | 586457,51                                         | 908227,53                                |
| 31-ый порядок | Площадь, мкм <sup>2</sup> | 161175,75                                         | 160775,37                                         | <b>126564,46</b>                         |
|               | Задержка, нс              | <b>18,77</b>                                      | 22,23                                             | 27,89                                    |
|               | Мощность, мВт             | 75,38                                             | 75,36                                             | <b>58,57</b>                             |
|               | Площадь×задержка          | <b>3025268,89</b>                                 | 3574036,40                                        | 3529882,82                               |

## Результаты по 48-разрядным диапазонам СОК

| Набор модулей |                           | 31, 127, 255, 511, 512, 2047 на основе сумматоров KSA | 64, 59, 53, 47, 43, 41, 37, 35, 33 | 31, 127, 255, 511, 512, 2047 на основе сумматоров CPA | 17, 31, 32, 33, 65, 127, 257, 511 (предложенный) |
|---------------|---------------------------|-------------------------------------------------------|------------------------------------|-------------------------------------------------------|--------------------------------------------------|
| 3-ий порядок  | Площадь, мкм <sup>2</sup> | 31666,72                                              | 36751,78                           | <b>31144,03</b>                                       | 31490,98                                         |
|               | Задержка, нс              | <b>2,38</b>                                           | 3,75                               | 3,49                                                  | 4,32                                             |
|               | Мощность, мВт             | <b>14,59</b>                                          | 17,13                              | <b>14,59</b>                                          | 14,99                                            |
|               | Площадь×задержка          | <b>75336,79</b>                                       | 137819,18                          | 108692,65                                             | 136041,01                                        |
| 7-ой порядок  | Площадь, мкм <sup>2</sup> | 62127,76                                              | 68714,95                           | 61594,35                                              | <b>61075,75</b>                                  |
|               | Задержка, нс              | <b>4,45</b>                                           | 5,08                               | 5,54                                                  | 6,28                                             |
|               | Мощность, мВт             | <b>28,52</b>                                          | 32,12                              | <b>28,52</b>                                          | 29,00                                            |
|               | Площадь×задержка          | <b>276468,55</b>                                      | 349071,94                          | 341232,68                                             | 383555,68                                        |
| 15-ый порядок | Площадь, мкм <sup>2</sup> | 125086,50                                             | 135060,56                          | 124534,72                                             | <b>122237,34</b>                                 |
|               | Задержка, нс              | <b>6,31</b>                                           | 7,65                               | 7,39                                                  | 9,78                                             |
|               | Мощность, мВт             | <b>56,43</b>                                          | 62,02                              | <b>56,43</b>                                          | 57,23                                            |
|               | Площадь×задержка          | <b>789295,81</b>                                      | 1033213,29                         | 920311,55                                             | 1195481,19                                       |
| 31-ый порядок | Площадь, мкм <sup>2</sup> | 252268,54                                             | 273103,34                          | 251700,26                                             | <b>247278,22</b>                                 |
|               | Задержка, нс              | 18,79                                                 | <b>11,56</b>                       | 22,25                                                 | 30,94                                            |
|               | Мощность, мВт             | <b>111,90</b>                                         | 121,84                             | 111,91                                                | 113,48                                           |
|               | Площадь×задержка          | 4740125,90                                            | <b>3157074,67</b>                  | 5600330,84                                            | 7650788,19                                       |

**Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели**

# Результаты аппаратной реализации метода вейвлет-фильтрации с децимацией на основе блочной обработки данных (FPGA, Virtex 7)



Согласно полученным результатам, разработанный метод на основе блочной обработки данных при вейвлет-обработке двумерных сигналов с прореживанием в 2 раза повышает аппаратные затраты от 12% до 95% и от 1,5% до 30%, снижает вычислительную задержку от 34% до 63% и от 39% до 66%, повышает потребляемую мощность устройства от 35% до 344% и от 2% до 125% с использованием вейвлетов 4-го и 6-го порядков, соответственно.

Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели

# Результаты аппаратной реализации метода и архитектуры для обратного преобразования чисел из СОК в ПСС (FPGA, Kintex 7, Virtex 6, Spartan 6)

Временные затраты на перевод чисел из СОК с 4 основаниями в ПСС: а) плата семейства Kintex 7; б) плата семейства Virtex 6; в) плата семейства Spartan 6



Временные затраты на перевод чисел из СОК с 6-битными основаниями в ПСС: а) плата семейства Kintex 7; б) плата семейства Virtex 6; в) плата



Согласно полученным результатам, предложенный подход имеет в 1,4-2,4 и 2,1-4,7 раза большую производительность, чем методы, основанные на применении КГО и ОПСС, соответственно.

Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели

# Результаты аппаратной реализации метода определения знака числа в СОК (FPGA, Kintex 7)



Вычислительный диапазон IgM, бит (в скобках указано число оснований)

— КТОд — КТО — ОПСС



Вычислительный диапазон IgM, бит (в скобках указано число оснований)

— КТОд — КТО — ОПСС

Согласно полученным результатам, предложенный метод определения знака числа в СОК на основе КТОд повышает производительность до 27,14 раз и уменьшает аппаратные затраты до 2,45 раз по сравнению с реализацией в КТО и ОПСС.

Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели

# Результаты аппаратной реализации метода и архитектуры для сравнения чисел в СОК (FPGA, Kintex 7)

Аппаратные затраты на реализацию сравнения чисел в СОК с 4 основаниями на основе КТОд, КТО и ОПСС

|                       |                  |                          |                             |                                      |
|-----------------------|------------------|--------------------------|-----------------------------|--------------------------------------|
| Набор модулей         | {19, 23, 29, 31} | {1009, 1013, 1019, 1021} | {32713, 3271, 32719, 32749} | {1048549, 1048559, 1048571, 1048573} |
| Разрядность диапазона | 19               | 40                       | 60                          | 80                                   |
| Разрядность модулей   | 5                | 10                       | 15                          | 20                                   |
| Параметр Метод        | Slice            | DSP48E1                  | Slice                       | DSP48E1                              |
| КТОд                  | 13               | 7                        | 77                          | 29                                   |
| КТО                   | 92               | 4                        | 352                         | 16                                   |
| ОПСС                  | 54               | 9                        | 224                         | 13                                   |
|                       |                  |                          |                             | Slice                                |
|                       |                  |                          |                             | DSP48E1                              |

Аппаратные затраты на реализацию сравнения чисел в СОК с 6-битными основаниями на основе КТОд, КТО и ОПСС

|                       |                  |                          |                                  |
|-----------------------|------------------|--------------------------|----------------------------------|
| Набор модулей         | {47, 53, 59, 61} | {41, 43, 47, 53, 59, 61} | {31, 37, 41, 43, 47, 53, 59, 61} |
| Разрядность диапазона | 24               | 34                       | 45                               |
| Количество модулей    | 4                | 6                        | 8                                |
| Параметр Метод        | Slices           | DSP48E1                  | Slices                           |
| КТОд                  | 17               | 10                       | 46                               |
| КТО                   | 117              | 4                        | 213                              |
| ОПСС                  | 75               | 11                       | 164                              |
|                       |                  | DSP48E1                  | 16                               |
|                       |                  |                          | 191                              |
|                       |                  |                          | 45                               |

Согласно полученным результатам, предложенный подход к сравнению чисел в СОК на основе КТОд снижает аппаратные затраты до 7,07 раз по сравнению с реализацией в КТО и ОПСС.

Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели

# Результаты аппаратной реализации метода и архитектуры блока обнаружения, локализации и исправления ошибок в СОК на основе КТОд (FPGA, Kintex 7)



Согласно полученным результатам, предложенные метод и архитектура блока обнаружения, локализации и исправления ошибок в СОК на основе дробных величин снижают аппаратные затраты до 31,63% и повышают производительность до 13 раз по сравнению с реализацией в обобщенной позиционной системе счисления.

# Характеристики средств вычислительной техники, реализующих коррекцию ошибок в СОК

| Метод | Разрядность диапазона, бит | Тактовая частота, МГц | Слайсы |
|-------|----------------------------|-----------------------|--------|
| КТОд  | 18                         | 89                    | 100    |
|       | 33                         | 81                    | 220    |
|       | 49                         | 70                    | 440    |
|       | 65                         | 62                    | 689    |
|       | 81                         | 56                    | 1130   |
|       | 97                         | 52                    | 1593   |
| ОПСС  | 18                         | 28                    | 130    |
|       | 33                         | 14                    | 350    |
|       | 49                         | 9                     | 690    |
|       | 65                         | 6                     | 865    |
|       | 81                         | 5                     | 1440   |
|       | 97                         | 4                     | 2330   |

## **Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели**

# Результаты аппаратной реализации ДВП многомерных сигналов в СОК с использованием масштабированных коэффициентов ВФ (FPGA, Kintex UltraScale)

Результаты вейвлет-обработки трехмерных томограмм с использованием масштабированных коэффициентов

| Метод                     |                            | Битность изображения | Разрядность коэффициентов | Производительность, Мвокс/с | Площадь, LUTs |
|---------------------------|----------------------------|----------------------|---------------------------|-----------------------------|---------------|
| Известные<br>Предлагаемые | Стандарт IEEE 1076-2019*** | 8                    | 32                        | 58,13                       | 4094          |
|                           |                            | 12                   | 32                        | 46,21                       | 11989         |
|                           |                            | 16                   | 32                        | 33,46                       | 24325         |
| Alzaq, 2018**             | 8                          | 12                   | 72,42                     | 1465                        |               |
| Chehaitly, 2017*          | 8                          | 16                   | 66,63                     | 1760                        |               |
| Для вейвлетов Добеши      | 8                          | 11                   | 82,49                     | 1250                        |               |
| Для симлетов              | 12                         | 16                   | 46,70                     | 4527                        |               |
| Для койфлетов             | 16                         | 20                   | 42,08                     | 11749                       |               |

Результаты вейвлет-обработки двумерных 8-битных изображений в ПСС и СОК с использованием масштабированных коэффициентов

| Метод                     | Разрядность коэффициентов  | Производительность устройства, Мвокс/с |       | Площадь устройства, LUTs |            |
|---------------------------|----------------------------|----------------------------------------|-------|--------------------------|------------|
|                           |                            | СОК                                    | ПСС   | СОК                      | ПСС        |
| Известные<br>Предлагаемый | Alzaq, 2018**              | 12                                     | 182,3 | 72,4                     | 5715 1465  |
|                           | Chehaitly, 2017*           | 16                                     | 155,1 | 66,6                     | 6654 1760  |
|                           | Стандарт IEEE 1076-2019*** | 32                                     | 103,4 | 58,1                     | 12731 4094 |
| Для вейвлетов Добеши      | 11                         | 209,0                                  | 82,5  | 4820                     | 1250       |

Согласно полученным результатам, предложенные алгоритм масштабирования коэффициентов ВФ и метод ВО сигналов с арифметической обработкой в СОК повышают производительность в 2,89-3,59 раз при увеличении аппаратных затрат в 1,18-3,29 раз по сравнению с реализацией в ПСС.

\* Chehaitly, M. A ultra high speed and configurable Inverse Discrete Wavelet Packet Transform architecture / M. Chehaitly, M. Tabaa, F. Monteiro, A. Dandache // 2017 29th International Conference on Microelectronics (ICM). – IEEE, 2017. – C. 1-4.

\*\* Alzaq, H. Y. An optimized two-level discrete wavelet implementation using residue number system / H. Y. Alzaq, B. B. Ustundag // EURASIP Journal on Advances in Signal Processing. – 2018. – Т. 2018. – №. 1. – С. 1-16.

\*\*\* IEEE Standard for VHDL Language Reference Manual, in IEEE Std 1076-2019, – С. 1-673.

**Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели**

# Схема сверточной нейронной сети с реализацией сверточных вычислений в СОК

На схеме представлена сверточная нейронная сеть с вычислениями в СОК. Данные с цифрового устройства поступают по шине в буфер передачи данных FIFO (first in, first out), который генерирует последовательность пикселей, поступающих на вход нейросети. Свертка в СОК чередуется со слоями выборки элементов. Затем данные подаются на полно связный классификатор (персепtron), на выходе которого формируется ответ нейронной сети в виде вероятностей принадлежности изображения к каждому классу. Полученный результат передается на устройство.



Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели

## Примеры изображений базы Университета Иллинойса, выбранной для реализации нейронной сети (161 изображение размера $256 \times 192$ , 8 классов)



Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели

# Схема сверточной нейронной сети с вычислениями в СОК для распознавания изображений базы Университета Иллинойса

На вход поступает RGB-изображение размера  $256 \times 192$ . Два первых слоя отвечают за извлечение признаков из изображения. Первый слой производит операцию свертки с использованием 8 фильтров размера  $3 \times 3 \times 3$ , с шагом 3. Результатом вычислений первого слоя являются 8 карт признаков размером  $85 \times 64$ . Второй слой выполняет операцию выборки максимальных элементов с помощью маски размера  $2 \times 2$  и с шагом 2. На выход второго слоя поступают 8 карт признаков размера  $42 \times 32$ , соединенные со входами двух последних слоев, отвечающих за классификацию изображений. Третий слой состоит из 10 нейронов, а четвертый слой состоит из 8 нейронов, каждый из которых соответствует определенному классу.



Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели

# Результаты аппаратно-программной реализации сверточной нейронной сети для распознавания изображений с вычислениями в СОК (FPGA, Kintex 7, MATLAB)

Для увеличения скорости работы архитектура сверточной нейронной сети (СНС) разделена на аппаратную и программную части. Сверточный слой реализован аппаратно на программируемой пользователем вентильной матрице (ППВМ) с использованием вычислений в СОК. Поскольку в СОК трудно реализовать операцию сравнения и нелинейную функцию активации то слой выборки максимальных элементов и полносвязная сеть (классификатор) реализованы в программной части.

Аппаратное моделирование проведено на ППВМ Kintex7 xc7k70tfbg484-2 в среде Xilinx Vivado 16.3 с использованием параметров моделирования “High Performance Optimized”. Программная часть СНС реализована в среде MATLAB. Интерфейс передачи данных между ППВМ модулем и «рабочей станцией» – USB 2.0. Основываясь на представленных данных о скорости работы системы, можно сделать вывод, что использование предлагаемой аппаратно-программной реализации позволяет сократить среднее время распознавания изображения на 37,06% и повысить производительность СНС на 58,89%.

| Архитектура                                  | Компоненты системы                        | Время, с | Производительность, изобр./с |
|----------------------------------------------|-------------------------------------------|----------|------------------------------|
| Программная реализация                       | Слой свертки                              | 0,0380   |                              |
|                                              | Остальные слои СНС                        | 0,0540   |                              |
|                                              | Общее время программной реализации        | 0,0920   | 10,8696                      |
| Аппаратно-программная реализация             | Передача изображения на ППВМ              | 0,0025   |                              |
|                                              | Слой свертки                              | 0,0001   |                              |
|                                              | Передача результатов на «рабочую станцию» | 0,0013   |                              |
|                                              | Остальные слои СНС                        | 0,0540   |                              |
| Общее время аппаратно-программной реализации |                                           | 0,0579   | 17,2712                      |

# Схема отказоустойчивой сети Хопфилда с организацией арифметической обработки данных в СОК

Представленная схема включает в себя следующие компоненты:

1. Мульти-нейрокомпьютер с  $n$  нейронами по модулям  $m_i$  ( $i = 1, 2, \dots, n + 2$ ), реализующий вычисления модульных и немодульных операций.
2. Преобразователь ПСС  $\rightarrow$  СОК, который производит перевод из ПСС в СОК.
3. Элементарные нейропроцессоры (ENP).
4. Преобразователь СОК  $\rightarrow$  ПСС, который производит перевод из СОК в ПСС.
5. Просмотровые таблицы  $LUT_{m_i}$  для  $i = 1, 2, \dots, n + 2$ , которые предназначены для табличных вычислений произведений  $x_i \alpha_i$ .
6. Блок обнаружения и коррекции единичной ошибки, основанный на Китайской теореме об остатках с дробными величинами и нейронной сети Хопфилда.



**Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели**

# Параметры моделирования отказоустойчивых нейросетевых вычислений в СОК

| № | Набор модулей                  | Количество модулей $n$ | Вычислительный диапазон $P$ | Характеристическое значение $N$ |
|---|--------------------------------|------------------------|-----------------------------|---------------------------------|
| 1 | 2, 3, 5, 7                     | 4                      | 210                         | 10                              |
| 2 | 2, 3, 5, 7, 11                 | 5                      | 2310                        | 14                              |
| 3 | 2, 3, 5, 7, 11, 13             | 6                      | 30030                       | 18                              |
| 4 | 2, 3, 5, 7, 11, 13, 17         | 7                      | 510510                      | 22                              |
| 5 | 2, 3, 5, 7, 11, 13, 17, 19     | 8                      | 9699690                     | 27                              |
| 6 | 2, 3, 5, 7, 11, 13, 17, 19, 23 | 9                      | 223092870                   | 31                              |

Для оценки эффективности различных методов обнаружения ошибок проведено экспериментальное моделирование позиционных характеристик, выдаваемых этими методами. Моделирование реализовано в Xilinx Vivado 2016.3 для платы Kintex-7. Проанализированы три основные позиционные характеристики, а именно, Китайская теорема об остатках (КТО), смешанные системы счисления (ССС) и КТО с дробными величинами (КТОд). Модели устройств для расчета каждой характеристики реализованы на VHDL. Во всех трех случаях применялись оптимизированные подходы к расчету модульных операций. В трех сравниваемых методах умножение на константу реализовано на программируемых пользователем вентильных матрицах (ППВМ) в табличной форме. Далее рассчитывалась позиционная характеристика с помощью КТОд на основе дерева сумматоров; с помощью КТО по дереву модульных сумматоров; с помощью смешанной системы счисления по дереву сумматоров (дважды) с переносом. Во всех случаях применялись оптимизированные подходы к расчету модульных операций.

**Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели**

# Результаты аппаратной реализации отказоустойчивых нейросетевых вычислений в СОК (FPGA, Kintex 7)

Реализация на основе китайской теоремы об остатках (КТО) базируется на модульном умножении остатков в представлении СОК на константы с последующим сложением. Значения модулей влияют на производительность устройства из-за вычислительной сложности реализации модульных операций. В свою очередь, метод на основе смешанной СОК требует большего количества операций умножения и сложения с небольшими модулями, представляющими основания СОК. Подход на основе КТО с дробными величинами (КТОд) лишен этого недостатка, что иллюстрируют представленные графики.

В соответствии с экспериментальными данными можно сделать следующие выводы: КТО с дробными величинами вызывает задержку в 1,3-2 раза меньшую, чем стандартная КТО, и в 1,2-3,8 раза, чем смешанная система счисления (ССС); КТО с дробями использует в 1,8-3,3 раза меньше аппаратных ресурсов, чем стандартная КТО, и в 1,5-3 раза меньше, чем ССС. Кроме того, подход на основе КТОд потребляет меньше энергии, чем другие, при увеличении числа модулей.



Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели

## **Основные результаты по положению 5 (начало)**

1. Разработана технология создания высокопроизводительных и отказоустойчивых программно-аппаратных систем цифровой обработки одномерных и многомерных сигналов, основанная на расширении методологии ЦОС в СОК разработанными моделями, методами, алгоритмами и архитектурами, а также вспомогательными оригинальными и модифицированными программными инструментами для эффективного по ресурсозатратам решения задач ЦОС и реализации на современных средствах вычислительной техники посредством использования различных САПР.

2. В результате проведения аппаратной реализации КИХ-ЦФ с использованием ТМАС-блоков на основе разработанных модели и архитектуры цифрового фильтра в СОК с модулями специального вида установлено, что организация параллельной обработки данных в СОК вида  $\{2^{k_1}, 2^{k_2} - 1, 2^{k_3} - 1, \dots, 2^{k_n} - 1\}$  снижает вычислительную задержку и аппаратные затраты при ЦОС до 1,8 и 4,8 раз, соответственно, по сравнению с реализацией в ПСС. Увеличение количества модулей СОК позволяет получить лучший результат по совокупности эксплуатационных показателей устройства ЦОС в сравнении с СОК с меньшим числом модулей. Моделирование произведено в САПР Xilinx Vivado 18.3 с использованием языка описания аппаратуры VHDL на ППВМ Artix xc7a200tffg1156-3.

3. Результаты аппаратной реализации КИХ-ЦФ в СОК со сбалансированным набором модулей вида  $\{2^k - 1, 2^k, 2^k + 1\}$  продемонстрировали снижение аппаратных затрат с сопутствующим понижением быстродействия по сравнению с реализациями КИХ-ЦФ в СОК, не использующими модуль вида  $2^k + 1$ . Для 32-разрядного диапазона СОК предложенный ЦФ позволил снизить аппаратные расходы до 23% и снизить энергопотребление до 22,3% при уменьшении скорости вычислений до 2 раз. Для 48-разрядного диапазона СОК ЦФ позволил снизить аппаратные расходы до 14%, но увеличил задержку также в 2 раза. Моделирование произведено в САПР Synopsys Design Compiler с использованием standard cell library.

**Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели**

## **Основные результаты по положению 5 (продолжение)**

4. Аппаратная реализация вейвлет-обработки цифровых данных с децимацией на основе предложенного метода высокоскоростной вейвлет-фильтрации сигналов с организацией блочной обработки данных и уменьшением количества используемых умножений показала повышение производительности до 66% при возрастании аппаратных и энергетических затрат до 95% и 344%, соответственно, по сравнению с прямой реализацией ЦФ. Моделирование проведено в САПР Xilinx Vivado 2018.2 с использованием языка описания аппаратуры Verilog на плате xc7vx485tffg1157-1 семейства ППВМ Family Virtex 7 с заданными по умолчанию параметрами синтеза и реализации.

5. Результаты аппаратной реализации метода и архитектуры для обратного преобразования чисел из СОК в ПСС на основе дробных величин показали, что предложенный подход показывает в 1,4-2,4 и 2,1-4,7 раза большую производительность, чем подходы на основе КТО и ОПСС, соответственно. В качестве платформы для реализации выбраны плата KC705 XC7K70T семейства ППВМ Xilinx Kintex 7, плата ML605 XC6VLX75T семейства ППВМ Virtex 6 и плата SP605 XC6LX45T семейства ППВМ Spartan 6. Использован высокоскоростной язык описания аппаратного обеспечения интегральных схем VHDL. Синтез выполнен в САПР ISE Design Suit 4.7 WebPack.

6. Аппаратная реализация метода определения знака числа, представленного в коде СОК, на основе дробных величин показала повышение производительности до 27,14 раз и уменьшение аппаратных затрат до 2,45 раз по сравнению с реализацией в КТО и ОПСС. Моделирование произведено на ППВМ в САПР Xilinx ISE 14.7 с использованием языка описания аппаратуры VHDL на целевой плате xc7k70t-2fbg676 семейства Kintex-7.

7. Результаты аппаратной реализации метода и архитектуры для сравнения чисел в СОК на основе дробных величин показали снижение аппаратных затрат до 7,07 раз по сравнению с реализацией в КТО и ОПСС. Моделирование осуществлено в САПР ISE Design Suite версии 14.7 с использованием языка описания аппаратуры VHDL на целевой плате XC7K70T семейства ППВМ Kintex 7.

## **Основные результаты по положению 5 (окончание)**

8. Результаты аппаратной реализации метода и архитектуры блока обнаружения, локализации и исправления ошибок в СОК на основе дробных величин показали снижение аппаратных затрат до 31,63% и повышение производительности до 13 раз по сравнению с реализацией в ОПСС. Моделирование произведено в САПР ISE Design Suite 14.7 с использованием языка описания аппаратуры VHDL на плате KC705 XC7K70T-2FBG676 семейства ППВМ Kintex-7.

9. По результатам аппаратной реализации ДВП трехмерных сигналов на основе предложенных алгоритма масштабирования коэффициентов ВФ и метода ВО сигналов с параллельной обработкой в СОК выявлено, что использование наборов модулей СОК специального вида позволяет задействовать эффективные техники суммирования в блоках CSA и KSA с техникой ЕАС, что приводит к существенному повышению скорости вычислений по всем каналам. Результаты показали повышение производительности в 2,89-3,59 раз при увеличении аппаратных затрат в 1,18-3,29 раз по сравнению с реализацией в ПСС по стандарту IEEE 1076-2019. Моделирование произведено в САПР Xilinx Vivado версии 2020.2 с использованием языка описания аппаратуры VHDL на плате xc7k115-flvf-1924-3 семейства ППВМ Kintex UltraScale с параметрами «Flow\_PerfOptimized\_high».

10. Аппаратно-программная реализация нейросетевых вычислений с организацией параллельной обработки визуальных данных в СОК показала повышение производительности на 58,89% по сравнению с программной реализацией в ПСС. Сверточные вычисления реализованы на аппаратном уровне в САПР Xilinx Vivado версии 16.6 на плате xc7k70tfbg484-2 семейства ППВМ Kintex-7 с использованием языка описания аппаратуры VHDL. Остальные уровни обработки цифровых данных реализованы на программном уровне в среде MATLAB.

11. На основе аппаратной реализации отказоустойчивой сети Хопфилда с организацией арифметической обработки данных в СОК с использованием подходов на основе КТО, КТОд и ССС установлено, что КТОд вызывает задержку в 1,3-2 раза меньшую, чем стандартная КТО, и в 1,2-3,8 раза, чем ССС. КТОд использует в 1,8-3,3 раза меньше аппаратных ресурсов, чем стандартная КТО, и в 1,5-3 раза меньше, чем ССС. Энергопотребление при использовании КТОд значительно уменьшается по сравнению с другими подходами с возрастанием количества оснований. Моделирование произведено с САПР Xilinx Vivado версии 2016.6 на плате семейства ППВМ Kintex-7 с использованием языка описания аппаратуры VHDL

**Положение 6. Технология создания программно-аппаратных систем для высокопроизводительной цифровой обработки сигналов с вычислениями в системе остаточных классов с модулями специального вида на основе дробных величин, представляющая собой практическое воплощение обобщенной модели**

## **Основные полученные результаты (начало)**

1. Разработаны обобщенная модель усовершенствованной цифровой обработки сигналов в системе остаточных классов и архитектура цифрового фильтра для параллельной обработки сигналов в системе остаточных классов с модулями специального вида, повышающие производительность до 1,8 раз и снижающая аппаратные затраты до 4,8 раз по сравнению с подходом на основе позиционной системы счисления.
2. Предложен метод высокоскоростной вейвлет-фильтрации сигналов на основе блочной обработки данных с уменьшением количества используемых умножений, повышающий производительность до 66% по сравнению с подходом на основе прямой реализации вейвлет-фильтра.
3. Разработаны метод обратного преобразования чисел из системы остаточных классов в позиционную систему счисления на основе дробных величин и архитектура, повышающая производительность до 4,7 раз по сравнению с подходами на основе Китайской теоремы об остатках и обобщенной позиционной системы счисления.
4. Разработан метод определения знака числа, представленного в системе остаточных классов, на основе дробных величин, повышающий производительность до 27,14 раз и уменьшающий аппаратные затраты до 2,45 раз по сравнению с подходами на основе Китайской теоремы об остатках и обобщенной позиционной системы счисления.
5. Разработаны метод сравнения чисел в системе остаточных классов на основе дробных величин и архитектура, понижающая аппаратные затраты до 7,07 раз по сравнению с подходами на основе Китайской теоремы об остатках и обобщенной позиционной системы счисления.

## **Основные полученные результаты (окончание)**

6. Разработаны метод и архитектура блока обнаружения, локализации и исправления ошибок в системе остаточных классов на основе дробных величин, повышающие производительность до 13 раз и снижающие аппаратные затраты до 31,63% по сравнению с подходом на основе обобщенной позиционной системы счисления.
7. Предложен алгоритм масштабирования коэффициентов вейвлет-фильтров для обработки сигналов в системе остаточных классов, повышающий производительность до 40,9% и понижающий аппаратные затраты до 62,24% по сравнению с подходом на основе стандарта IEEE 1076-2019.
8. Разработан метод вейвлет-обработки сигналов с использованием масштабированных коэффициентов и параллельной обработкой в системе остаточных классов, повышающий производительность до 3,59 раз и снижающий аппаратные затраты до 3,29 раз по сравнению с подходом на основе позиционной системы счисления в соответствии со стандартом IEEE 1076-2019.
9. Разработана технология создания высокопроизводительных и отказоустойчивых программно-аппаратных систем цифровой обработки одномерных и многомерных сигналов в системе остаточных классов с модулями специального вида на основе дробных величин, повышающая производительность нейросетевой обработки визуальных данных до 58,89% по сравнению с подходом на основе позиционной системы счисления, а также повышающая производительность отказоустойчивой сети Хопфилда до 3,8 раз и понижающая аппаратные затраты на ее реализацию до 3,3 раз по сравнению с подходами на основе Китайской теоремы об остатках и смешанной системы счисления.

## **Участие в научно-технических проектах (начало)**

*Министерство науки и высшего образования Российской Федерации*

1. «Северо-Кавказский центр математических исследований» (Договоры № 075-02-2021-1749, № 075-02-2022-892, № 075-02-2023-938), 2021-2023.

2. «Разработка математических моделей и методов снижения энергопотребления в системах мобильной связи на основе системы остаточных классов» (Проект № 2.6035.2017/БЧ), 2017-2019.

3. «Проблемы интеграции параллельной компьютерной алгебры и искусственных нейронных сетей в области инфокоммуникационных технологий» (Проект № 2563) 2014-2016.

*Российский научный фонд*

1. «Перспективные методы интеллектуальной обработки сигналов на основе глубоких нейронных сетей и модульярных вычислений» (Проект № 23-71-10013), 2023-2026.

2. «Аппаратные ускорители для цифровой обработки трехмерных медицинских изображений с использованием масштабированных фильтров и параллельных модульярных вычислений» (Проект № 21-71-00017), 2021-2023.

*Совет по грантам Президента Российской Федерации*

1. «Высокопроизводительные устройства цифровой обработки медицинских изображений на основе параллельной математики» (Проект № МК-3918.2021.1.6), 2021-2022.

2. «Разработка методов интеллектуального анализа изображений с вычислениями в конечных алгебраических структурах» (Проект № СП-2245.2018.5), 2018-2020.

3. «Разработка устройств цифровой обработки изображений с низким энергопотреблением на основе системы остаточных классов» (Проект № МК-5980.2016.9), 2016-2017.

## **Участие в научно-технических проектах (окончание)**

### *Российский фонд фундаментальных исследований*

1. «Экономичные средства интеллектуального анализа визуальной информации на основе сверточных нейронных сетей» (Проект № 19-07-00130 А), 2019-2021.
2. «Разработка перспективной архитектуры на базе ядра векторного процессора для задач обработки и визуализации сигналов» (Проект № 18-37-20059 мол\_а\_вед), 2019-2020.
3. «Разработка новых отказоустойчивых мобильных систем связи с низким энергопотреблением на основе интеграции параллельной математики и искусственных нейронных сетей» (Проект № 18-07-00109 А), 2018-2019.
4. «Разработка методов и алгоритмов цифровой фильтрации сигналов в системе остаточных классов с использованием вейвлетов конечного поля» (Проект № 14-07-31004-мол-а), 2014-2015.
5. «Проект организации I-ой международной конференции «Параллельная компьютерная алгебра и её приложения в новых инфокоммуникационных системах» (Проект № 14-07-20389-г), 2014.
6. «Разработка методов и алгоритмов реализации вычислительно сложных процедур цифровой обработки сигналов в системе остаточных классов» (Проект № 13-07-00478-а), 2013-2014.

## **Участие в международных конференциях**

1. International Conference Quality Management, Transport and Information Security, Information Technologies (IT&QM&IS), Petrozavodsk, Russia, 2022.
2. International Conference on Mathematics and its Applications in new Computer Systems, Stavropol, Russia, 2021.
3. International Conference on Actual Problems of Applied Mathematics and Computer Science, Stavropol, Russia, 2022.
4. 23rd Conference of Open Innovations Association (FRUCT), Bologna, Italy, 2018.
5. XV International Symposium Problems of Redundancy in Information and Control Systems (REDUNDANCY), Saint Petersburg, Russia, 2016.
6. International Siberian Conference on Control and Communications (SIBCON), Omsk, Russia, 2015.
7. International Conference on Engineering and Telecommunication (EnT), Dolgoprudny, Russia, 2014.
8. Mediterranean Conference on Embedded Computing (MECO), Budva, Montenegro 2019, 2020, 2021, 2022.
9. Third International Conference on Digital Information Processing, Data Mining, and Wireless Communications (DIPDMWC), Moscow, Russia, 2016.
10. International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), Novosibirsk, Russia, 2017.
11. 42nd International Conference on Telecommunications and Signal Processing (TSP), Budapest, Hungary, 2019.
12. IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (EICoRus), Saint Petersburg, Russia, 2019, 2020.
13. IEEE International Symposium on Circuits and Systems (ISCAS), Baltimore, USA, 2017.

# Основные публикации (начало)

## Монографии автора (3)

1. Червяков, Н. И. Компьютерные вычисления на основе модулярной алгебры: коллективная монография / Н. И. Червяков, П. А. Ляхов, М. Г. Бабенко, И. Н. Лавриненко, А. В. Лавриненко – Ставрополь: Фабула. – 2015. – 210 с.
2. Червяков, Н. И. Модулярная арифметика и ее приложения в инфокоммуникационных технологиях: коллективная монография / Н. И. Червяков, А. А. Коляда, П. А. Ляхов, М. Г. Бабенко, И. Н. Лавриненко, А. В. Лавриненко – М.: ФИЗМАТЛИТ. – 2017. – 400 с.
3. Chervyakov, N. RNS-Based Image Processing / N. Chervyakov, P. Lyakhov // In: Molahosseini, A., de Sousa, L., Chang, CH. (eds) Embedded Systems Design with Special Arithmetic and Number Systems. Springer, Cham – 2017. – P. 217-245. [https://doi.org/10.1007/978-3-319-49742-6\\_9](https://doi.org/10.1007/978-3-319-49742-6_9).

## Статьи автора в журналах, индексируемых в базах данных Web of Science и Scopus (30)

4. Boyvalenkov, P. Classification of Moduli Sets for Residue Number System with Special Diagonal Functions / P. Boyvalenkov, N. I. Chervyakov, P. Lyakhov [et al.] // IEEE Access. – 2020. – Vol. 8. – P. 156104-156116. – DOI 10.1109/ACCESS.2020.3019452. **Scopus, Web of Science (Q1)**.
5. Boyvalenkov, P. Residue number systems with six modules and efficient circuits based on power-of-two diagonal modulus / P. Boyvalenkov, P. Lyakhov, N. Semyonova, M. Valueva, G. Boyvalenkov, D. Minenkov, D. Kaplun // Computers and Electrical Engineering. – 2023. – Vol. 110. – P. 108854. **Scopus, Web of Science (Q1)**.
6. Chervyakov, N. A high-speed division algorithm for modular numbers based on the Chinese remainder theorem with fractions and its hardware implementation / N. Chervyakov, P. Lyakhov, M. Babenko [et al.] // Electronics. – 2019. – Vol. 8, No. 3. – P. 261. – DOI 10.3390/electronics8030261 **Scopus, Web of Science (Q2)**.
7. Chervyakov, N. Analysis of the quantization noise in discrete wavelet transform filters for 3D medical imaging / N. Chervyakov, P. Lyakhov, N. Nagornov // Applied Sciences (Switzerland). – 2020. – Vol. 10, No. 4. – P. 1223. – DOI 10.3390/app10041223. **Scopus, Web of Science (Q2)**.
8. Chervyakov, N. Analysis of the quantization noise in discrete wavelet transform filters for image processing / N. Chervyakov, P. Lyakhov, N. Nagornov [et al.] // Electronics. – 2018. – Vol. 7, No. 8. – P. 135. – DOI 10.3390/electronics7080135. **Scopus, Web of Science (Q2)**.
9. Chervyakov, N. I. Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network / N. I. Chervyakov, P. A. Lyakhov, M. A. Deryabin [et al.] // Neurocomputing. – 2020. – Vol. 407. – P. 439-453. – DOI 10.1016/j.neucom.2020.04.018. **Scopus, Web of Science (Q1)**.

## **Основные публикации (продолжение)**

10. Chervyakov, N. I. A division algorithm in a redundant residue number system using fractions / N. Chervyakov, P. Lyakhov, M. Babenko [et al.] // Applied Sciences (Switzerland). – 2020. – Vol. 10, No. 2. – P. 695. – DOI 10.3390/app10020695. **Scopus, Web of Science (Q2).**
11. Chervyakov, N. I. A new model to optimize the architecture of a fault-tolerant modular neurocomputer / N. I. Chervyakov, P. A. Lyakhov, M. G. Babenko [et al.] // Neurocomputing. – 2018. – Vol. 303. – P. 37-46. – DOI 10.1016/j.neucom.2018.04.028. **Scopus, Web of Science (Q1).**
12. Chervyakov, N. I. An Approximate Method for Comparing Modular Numbers and its Application to the Division of Numbers in Residue Number Systems / N. I. Chervyakov, M. G. Babenko, P. A. Lyakhov, I. N. Lavrinenco // Cybernetics and Systems Analysis. – 2014. – Vol. 50, No. 6. – P. 977-984. – DOI 10.1007/s10559-014-9689-2. **Scopus, Web of Science (Q3).**
13. Chervyakov, N. I. An efficient method of error correction in fault-tolerant modular neurocomputers / N. I. Chervyakov, P. A. Lyakhov, M. G. Babenko [et al.] // Neurocomputing. – 2016. – Vol. 205. – P. 32-44. – DOI 10.1016/j.neucom.2016.03.041. **Scopus, Web of Science (Q1).**
14. Chervyakov, N. I. Comparison of modular numbers based on the chinese remainder theorem with fractional values / N. I. Chervyakov, P. A. Lyakhov, M. G. Babenko [et al.] // Automatic Control and Computer Sciences. – 2015. – Vol. 49, No. 6. – P. 354-365. – DOI 10.3103/S0146411615060048. **Scopus, Web of Science (Q4).**
15. Chervyakov, N. I. Digital filtering of images in a residue number system using finite-field wavelets / N. I. Chervyakov, P. A. Lyakhov, M. G. Babenko // Automatic Control and Computer Sciences. – 2014. – Vol. 48, No. 3. – P. 180-189. – DOI 10.3103/S0146411614030031. **Scopus, Web of Science (Q4).**
16. Chervyakov, N. I. Hardware implementation of a convolutional neural network using calculations in the residue number system / N. I. Chervyakov, P. A. Lyakhov, N. N. Nagornov, M. V. Valueva, G. V. Valuev //Computer Optics. – 2019. – T. 43. – №. 5. – C. 857-868. **Scopus, Web of Science (Q3).**
17. Chervyakov, N. I. Quantization noise of multilevel discrete wavelet transform filters in image processing / N. I. Chervyakov, P. A. Lyakhov, N. N. Nagornov // Optoelectronics, Instrumentation and Data Processing. – 2018. – T. 54. – P. 608-616. <https://doi.org/10.3103/S8756699018060092>. **Scopus, Web of Science (Q3).**
18. Chervyakov, N. I. Residue-to-binary conversion for general moduli sets based on approximate Chinese remainder theorem / N. I. Chervyakov, P. A. Lyakhov, M. G. Babenko [et al.] // International Journal of Computer Mathematics. – 2017. – Vol. 94, No. 9. – P. 1833-1849. – DOI 10.1080/00207160.2016.1247439. **Scopus, Web of Science (Q2).**

## **Основные публикации (продолжение)**

19. Chervyakov, N. I. The architecture of a fault-tolerant modular neurocomputer based on modular number projections / N. I. Chervyakov, P. A. Lyakhov, M. G. Babenko [et al.] // Neurocomputing. – 2018. – Vol. 272. – P. 96-107. – DOI 10.1016/j.neucom.2017.06.063. **Scopus, Web of Science (Q1).**
20. Kaplun, D. Improving calculation accuracy of digital filters based on finite field algebra / D. Kaplun, P. Lyakhov, D. Butusov [et al.] // Applied Sciences (Switzerland). – 2020. – Vol. 10, No. 1. – P. 45. – DOI 10.3390/app10010045. **Scopus, Web of Science (Q2).**
21. Lyakhov, P. A novel sign detection method in residue number system based on Chinese remainder theorem with fractional values / P. Lyakhov, M. Bergerman, R. Minenkov, Abdulkadirov, A. Abdulsalyamova, N. Nagornov, A. Voznesensky, D. Minenkov, D. Kaplun // Microprocessors and Microsystems. – 2023. – Vol. 102. – P. 104940. <https://doi.org/10.1016/j.micpro.2023.104940>. **Scopus, Web of Science (Q2).**
22. Lyakhov, P. A. High-Performance Digital Filtering on Truncated Multiply-Accumulate Units in the Residue Number System / P. Lyakhov, M. Valueva, G. Valuev, N. Nagornov // IEEE Access. – 2020. – Vol. 8. – P. 209181-209190. – DOI 10.1109/ACCESS.2020.3038496. **Scopus, Web of Science (Q1).**
23. Lyakhov, P. A. A method of increasing digital filter performance based on truncated multiply-accumulate units / P. Lyakhov, M. Valueva, G. Valuev, N. Nagornov // Applied Sciences (Switzerland). – 2020. – Vol. 10, No. 24. – P. 1-11. – DOI 10.3390/app10249052. **Scopus, Web of Science (Q2).**
24. Lyakhov, P. A. Designing of High-Performance Digital Filters using the Balanced Residue Number System Moduli Set / P.A. Lyakhov, N.N. Nagornov, M. V. Bergerman, A.S., Abdulsalyamova, R.I. Abdulkadirov // Programming and Computer Software. – 2025. – T. 51. – №. 5. – P. 327-339. **Scopus, Web of Science (Q4).**
25. Lyakhov, P. A. Area-Efficient digital filtering based on truncated multiply-accumulate units in residue number system  $2n-1$ ,  $2n$ ,  $2n+1$  // Journal of King Saud University-Computer and Information Sciences. – 2023. – Vol. 35. – №. 6. – P. 101574. **Scopus, Web of Science (Q1).**
26. Lyakhov, P. A. Development of digital image processing algorithms based on the Winograd method in general form and analysis of their computational complexity / P.A. Lyakhov, N.N. Nagornov, N. F. Semyonova, A.S Abdulsalyamova // Computer Optics. – 2023. – T. 47. – №. 1. – P. 66-78. **Scopus, Web of Science (Q3).**
27. Lyakhov, P. A. Reducing the Computational Complexity of Image Processing Using Wavelet Transform Based on the Winograd Method / P. A. Lyakhov, N. N. Nagornov, N. F. Semyonova, A. S. Abdulsalyamova // Pattern Recognition and Image Analysis. Advances in Mathematical Theory and Applications. – 2023. – Vol. 33, No. 2. – P. 184-191. – DOI 10.1134/S1054661823020074. **Scopus, Web of Science (Q3).**

## Основные публикации (продолжение)

28. Lyakhov, P. High-Speed Wavelet Image Processing Using the Winograd Method with Downsampling / P. Lyakhov, N. Semyonova, N. Nagornov, M. Bergerman, A. Abdulsalyamova // Mathematics. – 2023. – Vol. 11. – №. 22. – P. 4644. <https://doi.org/10.3390/math11224644>. **Scopus, Web of Science (Q1)**.
29. Nagornov, N. N. RNS-Based FPGA Accelerators for High-Quality 3D Medical Image Wavelet Processing Using Scaled Filter Coefficients / N. N. Nagornov, P. A. Lyakhov, M. V. Valueva, M. V. Bergerman // IEEE Access. – 2022. – Vol. 10. – P. 19215-19231. – DOI 10.1109/ACCESS.2022.3151361. **Scopus, Web of Science (Q1)**.
30. Pettenghi, H. Efficient RNS Reverse Converters for Moduli Sets with Dynamic Ranges Up to  $(10 n+ 1)$ -bit / H. Pettenghi, R. Paludo, R. Matos, P. A. Lyakhov // Circuits, Systems, and Signal Processing. – 2018. – Vol. 37, No. 11. – P. 5178-5196. – DOI 10.1007/s00034-018-0815-7. **Scopus, Web of Science (Q3)**.
31. Valueva, M. Construction of residue number system using hardware efficient diagonal function / M. Valueva, G. Valuev, P. Lyakhov [et al.] // Electronics. – 2019. – Vol. 8, No. 6. – P. 694. – DOI 10.3390/electronics8060694. **Scopus, Web of Science (Q2)**.
32. Valueva, M. Digital Filter Architecture with Calculations in the Residue Number System by Winograd Method  $F(2 \times 2, 2 \times 2)$  / M. Valueva, P. Lyakhov, G. Valuev, N. Nagornov // IEEE Access. – 2021. – Vol. 9. – P. 143331-143340. – DOI 10.1109/ACCESS.2021.3121520. **Scopus, Web of Science (Q1)**.
33. Valueva, M. V. Application of the residue number system to reduce hardware costs of the convolutional neural network implementation / M. V. Valueva, P. A. Lyakhov, G. V. Valuev [et al.] // Mathematics and Computers in Simulation. – 2020. – Vol. 177. – P. 232-243. – DOI 10.1016/j.matcom.2020.04.031 **Scopus, Web of Science (Q1)**.
34. Valueva, M. V. High-performance digital image filtering architectures in the residue number system based on the Winograd method / M.V. Valueva, P.A. Lyakhov, N.N. Nagornov, G.V. Valuev // Computer Optics. – 2022. – T. 46. – №. 5. – C. 752-762. **Scopus, Web of Science (Q3)**.

### Статьи автора в журналах, рекомендованных ВАК РФ (26)

35. Аникуева, О. В. Реализация дискретного вейвлет-преобразования в системе остаточных классов специального вида / О. В. Аникуева, П. А. Ляхов, Н. И. Червяков // Инфокоммуникационные технологии. – 2014. – Т. 12, № 4. – С. 4-9. **ВАК (К2)**.
36. Бабенко, М. Г. Эффективный алгоритм точного определения универсальной позиционной характеристики модулярных чисел и его применение для вычисления основных операций в системе остаточных классов / М. Г. Бабенко, И. Н. Лавриненко, П. А. Ляхов, Н. И. Червяков // Инфокоммуникационные технологии. – 2014. – Т. 12, № 1. – С. 4-18. **ВАК (К2)**.

## Основные публикации (продолжение)

37. Ляхов, П. А. Вейвлетные фильтры третьего порядка в простых полях Галуа / П. А. Ляхов, Н. И. Червяков, Н. Ф. Семенова, К. С. Шульженко // Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. – 2015. – № 13(210). – С. 78-84. **ВАК (К2).**
38. Ляхов, П. А. Высокопроизводительная цифровая фильтрация на модифицированных умножителях с накоплением в системе остаточных классов с модулями специального вида / П. А. Ляхов, А. С. Ионисян, М. В. Валуева, А. С. Ларикова // Информационные технологии. – 2021. – Т. 27, № 4. – С. 171-179. – DOI 10.17587/it.27.171-179. **ВАК (К1).**
39. Ляхов, П. А. Метод быстрого определения знака числа в системе остаточных классов / П. А. Ляхов // Современные научноемкие технологии. – 2025. – № 7. – С. 34-42. – DOI 10.17513/snt.40438. **ВАК (К1).**
40. Ляхов, П. А. Модифицированные умножители с накоплением для повышения производительности цифровых фильтров / П. А. Ляхов, А. С. Ионисян, М. В. Валуева, А. С. Ларикова // Инфокоммуникационные технологии. – 2020. – Т. 18, № 4. – С. 403-410. – DOI 10.18469/ikt.2020.18.4.03. **ВАК (К1).**
41. Ляхов, П.А. Повышение скорости вейвлет обработки изображений на основе метода Винограда с учетом децимации / П. А Ляхов // Известия Юго-Западного государственного университета – 2025. – Т. 29, № 2. – С. 130-145. – DOI 10.21869/2223-1560-2025-29-2-130-145. **ВАК (К2).**
42. Ляхов, П.А. Проектирование цифровых фильтров с масштабированием в системе остаточных классов / П. А Ляхов // Системы анализа и обработки данных – 2025. (принято в печать) **ВАК (К2).**
43. Ляхов, П.А. Уменьшение аппаратных затрат цифровой фильтрации в системе остаточных классов, на основе усеченных блоков умножения с накоплением / П. А Ляхов // Известия Юго-Западного государственного университета – 2025. (принято в печать) **ВАК (К2).**
44. Нагорнов, Н. Н. Исследование шума квантования фильтров дискретного вейвлет-преобразования для обработки трехмерных изображений в медицине / Н. Н. Нагорнов, П. А. Ляхов, Н. И. Червяков // Информационные технологии. – 2019. – Т. 25, № 7. – С. 415-425. – DOI 10.17587/it.25.415-425. **ВАК (К1).**
45. Червяков, Н. И. Анализ шума квантования фильтров дискретного вейвлет-преобразования изображений / Н. И. Червяков, П. А. Ляхов, Н. Н. Нагорнов // Инфокоммуникационные технологии. – 2018. – Т. 16, № 3. – С. 257-264. – DOI 10.18469/ikt.2018.16.3.01. **ВАК (К1).**
46. Червяков, Н. И. Аналитический обзор методов определения позиционных характеристик в системе остаточных классов / Н. И. Червяков, М. Г. Бабенко, П. А. Ляхов // Нейрокомпьютеры: разработка, применение. – 2012. – № 12. – С. 027-030. **ВАК (К2).**

## Основные публикации (продолжение)

47. Червяков, Н. И. Архитектура сверточной нейронной сети с вычислениями в системе остаточных классов с модулями специального вида / Н. И. Червяков, П. А. Ляхов, Д. И. Калита, М. В. Валуева // Нейрокомпьютеры: разработка, применение. – 2017. – № 1. – С. 3-15. **ВАК (К2).**
48. Червяков, Н. И. Выбор оптимального набора модулей системы остаточных классов для повышения производительности фильтров с конечной импульсной характеристикой / Н. И. Червяков, П. А. Ляхов, Д. И. Калита // Информационные технологии. – 2015. – Т. 21, № 12. – С. 923-929. **ВАК (К1).**
49. Червяков, Н. И. Метод определения знака числа в системе остаточных классов на основе приближенных вычислений / Н. И. Червяков, П. А. Ляхов // Нейрокомпьютеры: разработка, применение. – 2012. – № 12. – С. 56-64. **ВАК (К2).**
50. Червяков, Н. И. О выборе диапазона системы остаточных классов для цифровой обработки изображений / Н. И. Червяков, П. А. Ляхов, Д. И. Калита // Инфокоммуникационные технологии. – 2016. – Т. 14, № 2. – С. 111-122. – DOI 10.18469/ikt.2016.14.2.01. **ВАК (К1).**
51. Червяков, Н. И. Оптимизация процесса коррекции ошибок в системе остаточных классов за счет применения китайской теоремы об остатках с дробными числами / Н. И. Червяков, П. А. Ляхов, М. Г. Бабенко, И. Н. Лавриненко [и др.] // Инфокоммуникационные технологии. – 2018. – Т. 16, № 2. – С. 157-168. – DOI 10.18469/ikt.2018.16.2.01. **ВАК (К1).**
52. Червяков, Н. И. Построение в конечных полях вейвлетных фильтров третьего порядка с использованием двучленов специального вида / Н. И. Червяков, П. А. Ляхов, Н. Ф. Семенова // Инфокоммуникационные технологии. – 2015. – Т. 13, № 2. – С. 111-117. – DOI 10.18469/ikt.2015.13.2.01. **ВАК (К1).**
53. Червяков, Н. И. Приближенный метод выполнения немодульных операций в системе остаточных классов / Н. И. Червяков, В. М. Авербух, М. Г. Бабенко, П. А. Ляхов [и др.] // Фундаментальные исследования. – 2012. – № 6-1. – С. 189-193. **ВАК (К1).**
54. Червяков, Н. И. Приближенный метод определения знака числа в системе остаточных классов и его техническая реализация / Н. И. Червяков, М. Г. Бабенко, П. А. Ляхов, И. Н. Лавриненко // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика. Телекоммуникации. Управление. – 2013. – № 4(176). – С. 131-141. **ВАК (К2).**
55. Червяков, Н. И. Приближенный метод определения позиционной характеристики модулярного числа и его применение для выполнения немодульных процедур нейропроцессоров в системе остаточных классов / Н. И. Червяков, М. Г. Бабенко, П. А. Ляхов [и др.] // Нейрокомпьютеры: разработка, применение. – 2012. – № 12. – С. 040-046. **ВАК (К2).**

## **Основные публикации (продолжение)**

56. Червяков, Н. И. Применение сумматоров с параллельно-префиксной архитектурой для перевода чисел из двоичной системы счисления в систему остаточных классов / Н. И. Червяков, П. А. Ляхов, Н. Ф. Семенова, М. В. Валуева // Нейрокомпьютеры: разработка, применение. – 2016. – № 10. – С. 31-40. **ВАК (К2).**
57. Червяков, Н. И. Проектирование КИХ-фильтров в системе остаточных классов с модулями специального вида / Н. И. Червяков, П. А. Ляхов // Нейрокомпьютеры: разработка, применение. – 2014. – № 9. – С. 52-60. **ВАК (К2).**
58. Червяков, Н. И. Реализация КИХ-фильтров в системе остаточных классов / Н. И. Червяков, П. А. Ляхов // Нейрокомпьютеры: разработка, применение. – 2012. – № 5. – С. 16-25. **ВАК (К2).**
59. Червяков, Н. И. Умножение и деление в системе остаточных классов с использованием полей Галуа GF(p) / Н. И. Червяков, М. Г. Бабенко, П. А. Ляхов [и др.] // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика. Телекоммуникации. Управление. – 2014. – № 3(198). – С. 65-76. **ВАК (К2).**
60. Червяков, Н. И. Целочисленная сглаживающая фильтрация в системе остаточных классов / Н. И. Червяков, П. А. Ляхов, Н. Н. Нагорнов // Инфокоммуникационные технологии. – 2018. – Т. 16, № 1. – С. 7-19. – DOI 10.18469/ikt.2018.16.1.01. **ВАК (К1).**
61. Червяков, Н. И. Эффективный метод приближенного вычисления позиционной характеристики модулярного представления числа / Н. И. Червяков, В. М. Авербух, М. Г. Бабенко, И. Н. Лавриненко, П. А. Ляхов // Информационные технологии. – 2012. – № 11. – С. 21-29. **ВАК (К1).**
62. Червяков, Н. И. Ускорение тензорных вычислений с использованием системы остаточных классов / Н. И. Червяков, П. А. Ляхов, А. С. Ионисян, А. Р. Оразаев // Инфокоммуникационные технологии. – 2019. – Т. 17, № 4. – С. 361-366. – DOI 10.18469/ikt.2019.17.4.01. **ВАК (К1).**

### **Патенты на изобретения (5)**

63. Патент № 2559771 С2 Российская Федерация, МПК G06F 7/72. устройство для основного деления модулярных чисел: № 2013148505/08: заявл. 30.10.2013: опубл. 10.08.2015 / Н. И. Червяков, М. Г. Бабенко, П. А. Ляхов, И. Н. Лавриненко; заявитель ФГАОУ ВО СКФУ.
64. Патент № 2503995 С2 Российская Федерация, МПК G06F 7/72. Устройство для определения знака модулярного числа: № 2011139278/08: заявл. 26.09.2011: опубл. 10.01.2014 / Н. И. Червяков, М. Г. Бабенко, П. А. Ляхов [и др.]; заявитель ФГАОУ ВО СКФУ.
65. Патент № 2559772 С2 Российская Федерация, МПК G06F 7/72. устройство для основного деления модулярных чисел в формате системы остаточных классов: № 2013149446/08: заявл. 06.11.2013: опубл. 10.08.2015 / Н. И. Червяков, М. Г. Бабенко, П. А. Ляхов [и др.]; заявитель ФГАОУ ВО СКФУ.

## **Основные публикации (продолжение)**

66. Патент № 2503992 С2 Российская Федерация, МПК G06F 7/02, G06F 7/72. Устройство для сравнения чисел, представленных в системе остаточных классов: № 2011139397/08: заявл. 27.09.2011: опубл. 10.01.2014 / Н. И. Червяков, М. Г. Бабенко, П. А. Ляхов [и др.]; заявитель ФГАОУ ВО СКФУ.

67. Патент № 2483346 С1 Российская Федерация, МПК G06F 11/08, G06F 7/72. Устройство для обнаружения переполнения динамического диапазона, определения ошибки и локализации неисправности вычислительного канала в ЭВМ, функционирующих в системе остаточных классов: № 2011145755/08: заявл. 10.11.2011: опубл. 27.05.2013 / Н. И. Червяков, М. Г. Бабенко, П. А. Ляхов [и др.]; заявитель ФГАОУ ВО СКФУ.

### **Свидетельства о государственной регистрации программ для ЭВМ (12)**

68. Свидетельство о государственной регистрации программы для ЭВМ № 2023616462 Российской Федерации. Среда моделирования цифровой обработки сигналов в системе остаточных классов на основе фильтра с конечной импульсной характеристикой: № 2023615241: заявл. 22.03.2023: опубл. 28.03.2023 / П. А. Ляхов, Н. Н. Нагорнов, М. В. Бергерман, А. Ш. Абдулсалямова; заявитель ФГАОУ ВО СКФУ.

69. Свидетельство о государственной регистрации программы для ЭВМ № 2021619007 Российской Федерации. Среда аппаратного моделирования фильтрации изображений по методу Винограда: № 2021618215: заявл. 31.05.2021: опубл. 03.06.2021 / М. В. Валуева, П. А. Ляхов, Н. Н. Нагорнов, Г. В. Валуев; заявитель ФГАОУ ВО СКФУ.

70. Свидетельство о государственной регистрации программы для ЭВМ № 2021619598 Российской Федерации. Среда прогнозирования аппаратной и временной сложности микроэлектронных вычислительных устройств: № 2021618478: заявл. 31.05.2021: опубл. 15.06.2021 / П. А. Ляхов, М. В. Бергерман; заявитель ФГАОУ ВО СКФУ.

71. Свидетельство о государственной регистрации программы для ЭВМ № 2020612962 Российской Федерации. Среда аппаратного моделирования дискретного вейвлет-преобразования в системе остаточных классов для медицинской визуализации: № 2020611770: заявл. 25.02.2020: опубл. 06.03.2020 / Н. И. Червяков, П. А. Ляхов, М. В. Валуева, Н. Н. Нагорнов; заявитель ФГАОУ ВО СКФУ.

72. Свидетельство о государственной регистрации программы для ЭВМ № 2020612961 Российской Федерации. Среда аппаратного моделирования дискретного вейвлет-преобразования с квантованными коэффициентами для обработки медицинских изображений: № 2020611741: заявл. 25.02.2020: опубл. 06.03.2020 / Н. И. Червяков, П. А. Ляхов, М. В. Валуева [и др.]; заявитель ФГАОУ ВО СКФУ.

## **Основные публикации (окончание)**

73. Свидетельство о государственной регистрации программы для ЭВМ № 2019612363 Российской Федерации. Программа вычисления максимальной погрешности дискретного вейвлет-преобразования трехмерных медицинских изображений: № 2019611156: заявл. 18.01.2019: опубл. 18.02.2019 / Н. И. Червяков, П. А. Ляхов, Н. Н. Нагорнов; заявитель ФГАОУ ВО СКФУ.
74. Свидетельство о государственной регистрации программы для ЭВМ № 2018613585 Российской Федерации. Программа реализации метода сглаживающей фильтрации изображений в СОК: № 2018610959: заявл. 02.02.2018: опубл. 19.03.2018 / Н. И. Червяков, П. А. Ляхов, Н. Н. Нагорнов, М. В. Валуева; заявитель ФГАОУ ВО СКФУ.
75. Свидетельство о государственной регистрации программы для ЭВМ № 2017617504 Российской Федерации. Среда моделирования распознавания изображений с использованием сверточных нейронных сетей: № 2017614396: заявл. 12.05.2017: опубл. 05.07.2017 / Н. И. Червяков, П. А. Ляхов, М. В. Валуева, Д. И. Калита; заявитель ФГАОУ ВО СКФУ.
76. Свидетельство о государственной регистрации программы для ЭВМ № 2017613716 Российской Федерации. Среда моделирования пространственной фильтрации изображений: № 2017610863: заявл. 02.02.2017: опубл. 27.03.2017 / Н. И. Червяков, П. А. Ляхов, К. С. Шульженко [и др.]; заявитель ФГАОУ ВО СКФУ.
77. Свидетельство о государственной регистрации программы для ЭВМ № 2017613768 Российской Федерации. Среда моделирования выделения контуров изображений с использованием вычислений в системе остаточных классов: № 2017610875: заявл. 02.02.2017: опубл. 29.03.2017 / Н. И. Червяков, П. А. Ляхов, А. В. Гладков, К. С. Шульженко; заявитель ФГАОУ ВО СКФУ.
78. Свидетельство о государственной регистрации программы для ЭВМ № 2016617258 Российской Федерации. Среда моделирования цифровой фильтрации изображений в системе остаточных классов с модулями специального вида: № 2016614485: заявл. 04.05.2016: опубл. 29.06.2016 / Н. И. Червяков, П. А. Ляхов, К. С. Шульженко [и др.]; заявитель ФГАОУ ВО СКФУ.
79. Свидетельство о государственной регистрации программы для ЭВМ № 2016610061 Российской Федерации. Среда моделирования цифровой фильтрации в системе остаточных классов с модулями специального вида: № 2015660741: заявл. 09.11.2015: опубл. 11.01.2016 / К. С. Шульженко, П. А. Ляхов, Н. И. Червяков, Д. И. Калита; заявитель ФГАОУ ВО СКФУ.

**Благодарю за внимание!**