Патент

Действует

Изобретение № 2694001

Способ и система создания параметра качества прогноза для прогностической модели, выполняемой в алгоритме машинного обучения

Правообладатель: ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ЯНДЕКС" (RU) Авторы: Гулин Андрей Владимирович (RU)

Формула изобретения

1. Способ определения параметра качества прогноза для дерева решений в прогностической модели дерева решений,

данный уровень дерева решений обладает по меньшей мере одним узлом,

параметр качества прогноза используется для оценки качества прогноза прогностической модели дерева решений на данной итерации обучения дерева решений,

способ выполняется системой машинного обучения, которая выполняет прогностическую модель дерева решений,

способ включает в себя:

получение доступа, с постоянного машиночитаемого носителя системы машинного обучения, к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя указание на документ и цель, связанную с документом;

организацию набора обучающих объектов в упорядоченный список обучающих объектов, причем упорядоченный список обучающих объектов организован таким образом, что для каждого обучающего объекта в упорядоченном списке обучающих объектов существует по меньшей мере один из:

(i) предыдущий обучающий объект, который находится до данного обучающего объекта, и

(ii) последующий обучающий объект, который находится после данного обучающего объекта;

спуск набора обучающих объектов по дереву решений таким образом, что каждый из набора обучающих объектов подвергается классификации моделью дерева решений на данной итерации обучения в данный дочерний узел из по меньшей мере одного узла данного уровня дерева решений;

создание параметра качества прогноза для дерева решений путем:

создания для данного обучающего объекта, который был классифицирован в данный дочерний узел, параметра качества прогноза, создание выполняется на основе целей только тех обучающих объектов, которые находятся раньше обучающего объекта в упорядоченном списке обучающих объектов.

2. Способ по п. 1, дополнительно включающий в себя:

для данного узла, обладающего по меньшей мере одним обучающим объектом, классифицированным в дочерний узел данного узла:

объединение в один прогностический параметр качества прогноза уровня узла параметров качества прогноза по меньшей мере одного обучающего объекта.

3. Способ по п. 2, в котором объединение в один прогностический параметр качества прогноза уровня узла параметров качества прогноза по меньшей мере одного обучающего объекта включает в себя одно из:

добавление всех параметров качества прогноза по меньшей мере одного обучающего объекта, создание среднего из параметров качества прогноза по меньшей мере одного обучающего объекта и применение формулы к параметрам качества прогноза по меньшей мере одного обучающего объекта.

4. Способ по п. 1, дополнительно включающий в себя:

для данного уровня дерева решений, данный уровень обладает по меньшей мере одним узлом, объединение в общеуровневый параметр качества прогноза, параметр качества прогноза уровня узла, параметры качества прогноза по меньшей мере одного узла.

5. Способ по п. 1, в котором спуск включает в себя:

спуск набора обучающих объектов по дереву решений в порядке обучающего объекта в упорядоченном списке обучающих объектов.

6. Способ по п. 5, в котором создание параметра качества прогноза для данного обучающего объекта, обладающего данной позицией в упорядоченном списке обучающих объектов, включает в себя:

создание параметра качества прогноза на основе целей только тех обучающих объектов, которые (i) находятся до данной позиции данного обучающего объекта в упорядоченном списке обучающих объектов и (ii) категоризованы в один и тот же лист.

7. Способ по п. 1, в котором организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя:

создание множества упорядоченных списков обучающих объектов, каждый из множества упорядоченных списков обучающих объектов, причем упорядоченный список обучающих объектов организован таким образом, что для каждого обучающего объекта в упорядоченном списке обучающих объектов существует по меньшей мере один из:

(i) предыдущий обучающий объект, который находится до данного обучающего объекта, и

(ii) последующий обучающий объект, который находится после данного обучающего объекта;

данный один из множества упорядоченных списков обучающих объектов, которые по меньшей мере частично отличаются от других из множества упорядоченных списков обучающих объектов.

8. Способ по п. 7, который далее включает в себя выбор одного из множества упорядоченных списков обучающих объектов.

9. Способ по п. 8, в котором выбор осуществляется для каждой итерации создания параметра качества прогноза.

10. Способ по п. 8, в котором выбор осуществляется в процессе проверки качества прогноза для данного дерева решений.

11. Способ по п. 1, в котором набор обучающих объектов связан с присущими им временными отношениями обучающих объектов, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию набора обучающих объектов в соответствии с их временными отношениями.

12. Способ по п. 1, в котором набор обучающих объектов не связан с присущими им временными отношениями обучающих объектов, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию набора обучающих объектов в соответствии с правилом.

13. Способ по п. 1, в котором набор обучающих объектов не связан с присущими им временными отношениями обучающих объектов, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию набора обучающих объектов в случайно созданном порядке.

14. Способ определения параметра качества прогноза в прогностической модели дерева решений,

данный уровень дерева решений обладает по меньшей мере одним узлом,

параметр качества прогноза предназначен для оценки качества прогноза прогностической модели дерева решений на данной итерации обучения дерева решений, причем данная итерация обучения дерева решений обладает по меньшей мере одной предыдущей итерацией обучения предыдущего дерева решений, дерево решений и предыдущее дерево решений образуют ансамбль деревьев, созданный с помощью техники бустинга деревьев решений,

способ выполняется системой машинного обучения, которая выполняет прогностическую модель дерева решений,

способ включает в себя:

(i) предыдущий обучающий объект, который находится до данного обучающего объекта, и

(ii) последующий обучающий объект, который находится после данного обучающего объекта;

создание параметра качества прогноза для данного уровня дерева решений путем:

создания для данного обучающего объекта, который был классифицирован в данный дочерний узел, параметра аппроксимации качества прогноза, создание выполняется на основе:

целевых значений только тех обучающих объектов, которые находятся до данного обучающего объекта в упорядоченном списке обучающих объектов тренировки; и

по меньшей мере одного параметра аппроксимации качества прогноза данного обучающего объекта, созданного во время предыдущей итерации обучения предыдущего дерева решений.

15. Способ по п. 14, в котором способ дополнительно включает в себя вычисление указания на по меньшей мере один параметр аппроксимации качества данного обучающего объекта, созданного во время предыдущей итерации обучения предыдущего дерева решений.

16. Способ по п. 15, в котором вычисление включает в себя:

разделение упорядоченного списка обучающих объектов на множество блоков, причем множество блоков организовано по меньшей мере в два уровня блоков.

17. Способ по п. 16, в котором блок данного уровня блоков содержит первое заранее определенное число обучающих объектов, и причем блок более низкого уровня блоков содержит другое заранее определенное число обучающих объектов, другое заранее определенное число обучающих объектов превышает первое заранее определенное число обучающих объектов.

18. Способ по п. 16, в котором блок данного уровня блоков содержит первое заранее определенное число обучающих объектов, и причем блок более низкого уровня блоков содержит первое заранее определенное число обучающих объектов и второй набор обучающих объектов, расположенный сразу после первого заранее определенного числа обучающих объектов в упорядоченном списке, причем число обучающих объектов во втором наборе обучающих объектов такое же , что и первое заранее определенное число обучающих объектов.

19. Способ по п. 16, в котором вычисление указания на по меньшей мере один параметр аппроксимации качества данного обучающего объекта, созданного во время предыдущей итерации обучения предыдущего дерева решений, включает в себя:

для данного обучающего объекта вычисление по меньшей мере одного параметра аппроксимации качества на основе обучающих объектов, расположенных в том же блоке, что и данный обучающий объект.

20. Способ по п. 19, в котором создание параметра качества прогноза для данного уровня дерева решений включает в себя:

использование параметров аппроксимации качества предыдущих обучающих объектов, расположенных в наибольшем блоке, не содержащем данный обучающий объект.

21. Способ по п. 14, в котором организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя:

(i) предыдущий обучающий объект, который находится до данного обучающего объекта, и

(ii) последующий обучающий объект, который находится после данного обучающего объекта;

22. Способ по п. 21, который далее включает в себя выбор одного из множества упорядоченных списков обучающих объектов.

23. Способ по п. 22, в котором выбор осуществляется для каждой итерации создания параметра качества прогноза.

24. Способ по п. 22, в котором выбор осуществляется в процессе проверки качества прогноза для данного дерева решений.

25. Способ по п. 14, в котором набор обучающих объектов связан с присущими им временными отношениями обучающих объектов, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию набора обучающих объектов в соответствии с временными отношениями.

26. Способ по п. 14, в котором набор обучающих объектов не связан с присущими им временными отношениями обучающих объектов, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию набора обучающих объектов в соответствии с правилом.

27. Способ по п. 14, в котором набор обучающих объектов не связан с присущими им временными отношениями обучающих объектов, и причем организация набора обучающих объектов в упорядоченный список обучающих объектов включает в себя организацию набора обучающих объектов в случайно созданном порядке.

28. Сервер, выполненный с возможностью реализовать алгоритм машинного обучения (MLA), MLA основан на прогностической модели дерева решений на основе дерева решений, причем данный уровень дерева решений обладает по меньшей мере одним узлом, сервер далее выполнен с возможностью осуществлять:

получение доступа, с постоянного машиночитаемого носителя сервера, к набору обучающих объектов, причем каждый обучающий объект из набора обучающих объектов включает в себя указание на документ и цель, связанную с документом;

(i) предыдущий обучающий объект, который находится до данного обучающего объекта, и

(ii) последующий обучающий объект, который находится после данного обучающего объекта;

спуск набора обучающих объектов по дереву решений таким образом, что каждый из набора обучающих объектов подвергается классификации прогностической моделью дерева решений на данной итерации обучения в данный дочерний узел из по меньшей мере одного узла данного уровня дерева решений;

создание параметра качества прогноза для данного уровня дерева решений, параметр качества прогноза используется для оценки качества прогноза прогностической модели дерева решений на данной итерации обучения дерева решений, путем:

29. Сервер, выполненный с возможностью реализовать алгоритм машинного обучения (MLA), MLA основан на прогностической модели дерева решений на основе дерева решений, причем данный уровень дерева решений обладает по меньшей мере одним узлом, сервер далее выполнен с возможностью осуществлять:

(i) предыдущий обучающий объект, который находится до данного обучающего объекта, и

(ii) последующий обучающий объект, который находится после данного обучающего объекта;

создание параметра качества прогноза для данного уровня дерева решений, параметр качества прогноза предназначен для оценки качества прогноза прогностической модели дерева решений на данной итерации обучения дерева решений, причем данная итерация обучения дерева решений обладает по меньшей мере одной предыдущей итерацией обучения предыдущего дерева решений, дерево решений и предыдущее дерево решений образуют ансамбль деревьев, созданный с помощью техники бустинга деревьев решений, путем:

30. Способ определения параметра качества прогноза в прогностический модели дерева решений,

данный уровень дерева решений обладает по меньшей мере одним узлом,

способ выполняется системой машинного обучения, которая выполняет прогностическую модель дерева решений,

способ включает в себя:

(i) предыдущий обучающий объект, который находится до данного обучающего объекта, и

(ii) последующий обучающий объект, который находится после данного обучающего объекта;

создание параметра качества прогноза для данного уровня дерева решений путем:

не менее одного параметра аппроксимации качества прогноза данного обучающего объекта, сформированного в ходе предыдущей итерации обучения предыдущего дерева решений;

вычисления указания по меньшей мере на один параметр аппроксимации качества данного обучающего объекта, созданного во время по меньшей мере одной предыдущей итерации обучения предыдущего дерева решений, путем разбиения упорядоченного списка обучающих объектов на множество блоков, причем множество блоков организовано по меньшей мере на два уровня блоков.