Обновленное Руководство по товарным знакам 2024 от наших экспертов.
Получить бесплатно →
Патент
Может прекратить действие
Изобретение № 2691214

РАСПОЗНАВАНИЕ ТЕКСТА С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Правообладатель: АБИ Девелопмент, Инк. (US) Авторы: Орлов Никита Константинович (RU), Рыбкин Владимир Юрьевич (RU), Анисимович Константин Владимирович (RU), Давлетшин Азат Айдарович (RU)
Формула изобретения

1. Способ распознавания текста, включающий:

получение изображения текста, где текст на изображении содержит одно или более слов в одном или более предложениях;

передачу изображения текста в качестве первых исходных данных набору обученных моделей машинного обучения, хранящему информацию о сочетаемости слов и частотности их совместного употребления в реальных предложениях;

получение одного или более конечных выходных данных от набора обученных моделей машинного обучения; и

извлечение из одного или более конечных выходных данных одного или более предполагаемых предложений из текста на изображении, где каждое из одного или более предполагаемых предложений содержит вероятные последовательности слов.

2. Способ по п. 1, отличающийся тем, что набор обученных моделей машинного обучения включает:

первые модели машинного обучения, обученные получать изображение текста в качестве начальных исходных данных и генерировать первый промежуточный результат для начальных исходных данных;

вторую модель машинного обучения, обученную получать декодированный первый промежуточный результат в качестве вторых исходных данных и генерировать второй промежуточный результат для вторых исходных данных; и

третью модель машинного обучения, обученную получать второй промежуточный результат в качестве третьих исходных данных и генерировать один или более итоговых результатов для третьих исходных данных.

3. Способ по п. 2, отличающийся тем, что:

первый промежуточный результат содержит последовательность признаков текста на изображении, признаки содержат информацию, относящуюся к графическим элементам, представляющим один или более символов одного или более слов в одном или более предложениях, и точки деления, если графические элементы соединены; и

второй промежуточный результат, содержащий одну или более вероятных последовательностей символов для каждого слова, выбранного из одной или более последовательностей символов для каждого слова, входящего в декодированный первый промежуточный результат.

4. Способ по п. 2, отличающийся тем, что первые модели машинного обучения генерируют первый промежуточный результат путем:

извлечения информации, относящейся к графическим элементам, путем умножения значений одного или более фильтров на значения каждого пикселя в каждой позиции изображения, сложения произведений значений для получения единственного числа для каждого из одного или более фильтров и применения функции активации к единственному числу каждого из одного или более фильтров, где информация, относящаяся к графическим элементам, указывает, можно ли связать определенную позицию в изображении с графическим элементом и кодом Unicode, соответствующим символу, представленному графическим элементом; и

извлечения информации, относящейся к точкам деления, путем умножения значений одного или более дополнительных фильтров на значения каждого пикселя в каждой позиции изображения, сложения произведений значений для получения единственного числа для каждого из одного или более фильтров и применения функции активации к единственному числу каждого из одного или более фильтров, где информация, относящаяся к точкам деления, указывает, содержит ли соответствующая позиция точку деления, код Unicode символа справа от точки деления или код Unicode символа слева от точки деления.

5. Способ по п. 2, отличающийся тем, что декодированный первый промежуточный результат создается декодером на основе первого промежуточного результата, причем получение декодированного первого промежуточного результата включает:

определение координат первой позиции и последней позиции изображения, которые содержат как минимум один пиксель, отличающийся по цвету;

получение последовательности точек деления исходя как минимум из координат первой позиции и последней позиции;

определение пары соседних точек деления исходя из последовательности точек деления;

определение кода Unicode каждого символа, расположенного между парами соседних точек деления; и

определение одной или более последовательностей символов для каждого слова исходя из кода Unicode каждого символа, расположенного между парами соседних точек деления.

6. Способ по п. 2, отличающийся тем, что первая модель машинного обучения содержит первую комбинацию из первой сверточной нейронной сети, первой рекуррентной нейронной сети и первой полносвязной нейронной сети, обученные извлекать информацию, относящуюся к графическим элементам, и вторую комбинацию из второй сверточной нейронной сети, второй рекуррентной нейронной сети и второй полносвязной нейронной сети, обученные извлекать информацию, относящуюся к точкам деления.

7. Способ по п. 2, где первая модель машинного обучения включает комбинацию из одной или более сверточных нейросетей, одной или более рекуррентных нейросетей и одной или более полносвязных нейросетей, обученных извлекать информацию, связанную с графическими элементами, или информацию, связанную с точками деления.

8. Способ по п. 3, отличающийся тем, что вторая модель машинного обучения содержит модель машинного обучения для символов, обученную выбирать вероятный символ для каждой позиции каждого слова в одной или более последовательностях символов для генерации второго промежуточного результата, содержащего одну или более последовательностей символов для каждого слова.

9. Способ по п. 8, отличающийся тем, что выбор вероятного символа для каждой позиции каждого слова основан на показателе уверенности каждого вероятного символа в каждой позиции каждого слова или на вероятном символе, совместимом с другим вероятным символом в позиции, соседней с вероятным символом в каждой позиции каждого слова.

10. Способ по п. 8, отличающийся тем, что третья модель машинного обучения включает модель машинного обучения для слов, обученную выбирать вероятное слово для каждой позиции каждого из одного или более предложений из одной или более последовательностей символов для каждого слова для создания одного или более итоговых результатов, содержащих для третьих исходных данных один или более итоговых результатов, содержащих одну или более вероятных последовательностей слов для каждого из одного или более предложений.

11. Способ по п. 10, отличающийся тем, что выбор вероятного слова для каждой позиции каждого из одного или более предложений основан на показателе уверенности каждого вероятного слова в каждой позиции каждого из одного или более предложений или основан на вероятном слове, совместимом с другим вероятным словом в другой позиции каждого из одного или более предложений.

12. Способ по п. 1, отличающийся тем, что как минимум одно слово содержит как минимум два соединенных символа.

13. Способ по п. 1, отличающийся тем, что набор моделей машинного обучения обучен на обучающей выборке, содержащей позитивные примеры, которые включают первые тексты и негативные примеры, которые включают вторые тексты и распространение ошибок, вторые тексты включают варианты, которые имитируют ошибки распознавания как минимум одного символа, последовательности символов или последовательности слов, основанные на распространении ошибок.

14. Способ по п. 1, в котором набор моделей машинного обучения хранит информацию о сочетаемости символов и частотности их совместного употребления в реальных словах.

15. Способ создания обучающих данных для обучения набора моделей машинного обучения, позволяющий обеспечить выявление вероятной последовательности слов для каждого из одного или более предложений на изображении текста, включающий:

создание обучающих данных для набора моделей машинного обучения, где создание обучающих данных включает:

создание позитивных примеров, содержащих первые тексты;

создание негативных примеров, содержащих вторые тексты и распространение ошибок, где вторые тексты включают варианты, которые имитируют как минимум одну ошибку распознавания одного или более символов, одной или более последовательностей символов или одной или более последовательностей слов, основанную на распространении ошибок;

создание исходной обучающей выборки, содержащей позитивные примеры и негативные примеры; и

создание целевых выходных данных для исходной обучающей выборки, где целевые выходные данные выявляют одно или более предполагаемых предложений, где каждое из одного или более предполагаемых предложений содержит вероятные последовательности слов; и

предоставление обучающих данных для обучения набора моделей машинного, хранящего информацию о сочетаемости слов и частотности их совместного употребления в реальных предложениях, на (i) исходной обучающей выборке и (ii) целевых результатах.

16. Способ по п. 15, отличающийся тем, что создание негативных примеров включает в себя также:

разделение позитивных примеров на первое подмножество и второе подмножество; распознавание текста из первого подмножества;

определение распределения ошибок распознавания в распознанном тексте из первого подмножества, причем распределение ошибок включает один или более неправильно распознанных символов, последовательностей символов или последовательностей слов; и

получение негативных примеров путем изменения второго подмножества с учетом распределения ошибок.

17. Способ по п. 15, отличающийся тем, что набор моделей машинного обучения настроен на обработку нового изображения текста и создание одного или более результатов, указывающих на вероятную последовательность слов для каждого из одного или более предполагаемых предложений, где каждое слово в каждой позиции вероятной последовательности слов выбирается исходя из контекста слова в другой позиции.

18. Постоянный машиночитаемый носитель информации, содержащий инструкции, которые при исполнении приводят к выполнению обрабатывающим устройством операций, включающих:

получение изображения текста, где текст на изображении содержит одно или более слов в одном или более предложениях;

передачу изображения текста в качестве первых исходных данных набору обученных моделей машинного обучения, где набор моделей машинного обучения хранит информацию о сочетаемости слов и частотности их совместного употребления в реальных предложениях;

получение одних или более конечных выходных данных от набора обученных моделей машинного обучения; и

извлечение из одних или более конечных выходных данных одного или более предполагаемых предложений из текста на изображении, где каждое из одного или более предполагаемых предложений содержит вероятные последовательности слов.

19. Машиночитаемый носитель информации по п. 18, отличающийся тем, что набор обученных моделей машинного обучения содержит:

первые модели машинного обучения, обученные получать изображение текста в качестве начальных исходных данных и генерировать первый промежуточный результат для начальных исходных данных;

вторую модель машинного обучения, обученную получать декодированный первый промежуточный результат в качестве вторых исходных данных и генерировать второй промежуточный результат для вторых исходных данных; и

третью модель машинного обучения, обученную получать второй промежуточный результат в качестве третьих исходных данных и генерировать один или более итоговых результатов для третьих исходных данных.

20. Машиночитаемый носитель информации по п. 19, отличающийся тем, что первая модель машинного обучения содержит комбинацию из одной или более сверточных нейронных сетей, одной или более рекуррентных нейронных сетей и одной или более полносвязных нейронных сетей, обученную извлекать информацию, относящуюся к графическим элементам, и информацию, относящуюся к точкам деления.

21. Система для распознавания текста, выполненная с возможностью использования набора моделей машинного обучения, хранящего информацию о сочетаемости слов и частотности их совместного употребления в реальных предложениях, включающая:

устройство памяти, в котором хранятся инструкции;

устройство обработки, подключенное к устройству памяти, причем устройство обработки предназначено для выполнения инструкций для:

получения изображения текста, где текст на изображении содержит одно или более слов в одном или более предложениях;

передачи изображения текста в качестве первых исходных данных набору обученных моделей машинного обучения;

получения одного или более конечных выходных данных от набора обученных моделей машинного обучения; и

извлечения из одного или более конечных выходных данных одного или более предполагаемых предложений из текста на изображении, где каждое из одного или более предполагаемых предложений содержит вероятные последовательности слов.

показать больше
Спасибо! Мы перезвоним вам в ближайшее время!