СИСТЕМА И МЕТОДИКА АВТОМАТИЧЕСКОГО ОБУЧЕНИЯ ЯЗЫКАМ НА ОСНОВЕ ЧАСТОТНОСТИ СИНТАКСИЧЕСКИХ МОДЕЛЕЙ

Правообладатель: ЛИНГУАЛЕО САЙПРУС ЛИМИТЕД (CY) Авторы: Думчев Артур Александрович (RU), Абдулнасыров Айнур Равилевич (RU), Глушко Григорий Андреевич (RU)

Формула изобретения

1. Способ компьютеризированного автоматического обучения языкам, включающий:

получение сервером текстовых материалов на естественном языке;

разделение с помощью модуля синтаксического анализа полученных текстовых материалов на одно или несколько предложений;

определение с помощью модуля синтаксического анализа синтаксической модели каждого предложения;

определение с помощью модуля синтаксического анализа частотности выделенных синтаксических моделей в зависимости от числа предложений, соответствующих той или иной синтаксической модели;

сортировку с помощью модуля синтаксического анализа синтаксических моделей на основе их относительной частотности; и

создание с помощью модуля генерации упражнений одного или более упражнений для изучения языка, где упражнение включает одно или более предложений, отобранных на основе частотности соотносящихся с ними синтаксических моделей.

2. Способ по п.1, в котором разделение полученных текстовых материалов на одно или несколько предложений включает:

разделение полученных текстовых материалов на один или более токенов;

удаление расширяемого языка разметки (xml), связанного с токенами полученных текстовых материалов;

разделение одного или нескольких токенов на одно или несколько предложений;

определение тега части речи для соотнесения его с каждым токеном каждого предложения;

определение леммы для соотнесения ее с каждым токеном каждого предложения; и

сохранение связи каждого отдельного предложения с соотносящейся с ним синтаксической моделью.

3. Способ по п.2, в котором каждый токен содержит метаданные, определяющие тег части речи, лемму и позицию каждого токена в предложении.

4. Способ по п.2, в котором лемма предназначена для определения набора запутывающих слов для каждого токена.

5. Способ по п.1, включающий также фильтрацию и удаление неподходящих синтаксических моделей, связанных с профанацией и грамматическими ошибками, а также нестандартных синтаксических моделей.

6. Способ по п.1, включающий также:

отображение информации для объяснения одной или нескольких синтаксических моделей; и

формирование отображаемой информации для представления обучающих упражнений по одной или нескольким синтаксическим моделям.

7. Способ по п.1, включающий также:

хранение статистики изучения языка пользователем после автоматической генерации упражнений для изучения языка; и

определение и хранение уровня освоения каждой синтаксической модели на основе статистики изучения.

8. Способ по п.1, включающий также:

получение текстовых материалов; и

повторение синтаксического анализа текстовых материалов, чтобы соотнести результаты с одной или несколькими синтаксическими моделями и обновить частотность синтаксических моделей.

9. Способ по п.1, включающий также сортировку синтаксических моделей на основе древовидной кластеризации в соответствии со сложностью каждой синтаксической модели.

10. Система автоматического обучения языкам при помощи компьютера для выполнения способа по п. 1, отличающаяся тем, что включает:

модуль синтаксического анализа, настроенный для того, чтобы:

получать текстовые материалы на естественном языке;

разделять полученные текстовые материалы на одно или несколько предложений;

определять синтаксическую модель каждого предложения;

определять частотность выделенных синтаксических моделей в зависимости от числа предложений, соответствующих той или иной синтаксической модели;

сортировать синтаксические модели на основе их относительной частотности; и

модуль генерации упражнений, настроенный для того, чтобы создавать одно или более упражнений для изучения языка, где упражнение включает одно или более предложений, отобранных на основе частотности соотносящихся с ними синтаксических моделей.

11. Система по п.10, в которой модуль синтаксического анализа настроен на разделение полученных текстовых материалов на одно или несколько предложений через:

разделение полученных текстовых материалов на один или более токенов;

удаление токенов расширяемого языка разметки (xml);

разделение одного или нескольких токенов на одно или несколько предложений;

определение тега части речи для соотнесения его с каждым токеном каждого предложения;

определение леммы для соотнесения ее с каждым токеном каждого предложения; и

сохранение связи каждого отдельного предложения с соотносящейся с ним синтаксической моделью.

12. Система по п.10, где каждый токен содержит метаданные, определяющие тег части речи, лемму и позицию каждого токена в предложении.

13. Система по п.11, где лемма предназначена для определения набора запутывающих слов для каждого токена.

14. Система по п.10, где модуль синтаксического анализа также настроен для того, чтобы:

проводить фильтрацию и удаление неподходящих синтаксических моделей, связанных с профанацией и грамматическими ошибками, а также нестандартных синтаксических моделей; и

проводить сортировку синтаксических моделей на основе древовидной кластеризации в соответствии со сложностью каждой синтаксической модели.

15. Система по п.10, включающая также модуль визуализации, отображающий информацию для объяснения одной или нескольких синтаксических моделей, где модуль генерации упражнений также настроен для того, чтобы проводить формирование отображаемой информации для представления обучающих упражнений по одной или нескольким синтаксическим моделям.

16. Система по п.10, в которой память также настроена для того, чтобы сохранять статистику изучения языка пользователем после автоматической генерации упражнений для изучения иностранного языка; и модуль генерации упражнений также настроен для определения уровня освоения каждой синтаксической модели на основе статистики изучения.

17. Система по п.11, в которой модуль синтаксического анализа также настроен для того, чтобы:

получать текстовые материалы; и

проводить повторный синтаксический анализ текстовых материалов, чтобы соотнести результаты с одной или несколькими синтаксическими моделями и обновить частотность синтаксических моделей.