РАЗРАБОТКА АЛГОРИТМА ГРАДИЕНТНОГО БУСТИНГА СО СЛУЧАЙНЫМИ ПОВОРОТАМИ ПРИЗНАКОВОГО ПРОСТРАНСТВА ДЛЯ РЕШЕНИЯ ЗАДАЧИ КЛАССИФИКАЦИИ
Семашкин Николай Михайлович
2018 / Том 8 №2 [ Кибернетика, информационные системы и технологии ]
Рассмотрен алгоритм градиентного бустинга, модифицированный путем применения случайных поворотов признакового пространства на каждом этапе построения композиции. Для реализации алгоритма использован пакет scikit-learn. Sklearn - бесплатная библиотека машинного обучения для языка программирования Python. Библиотека включает в себя различные алгоритмы классификации, регрессии и кластеризации. На реальных выборках, взятых из открытого источника UCI Machine Learning Repository, исследовано качество алгоритма. Выполнено сравнение результатов работы алгоритма до и после модификации.
Ключевые слова:
классификация,градиентный бустинг,случайные повороты признакового пространства,sklearn,Householder QR-разложение матрицы,classification,gradient boosting,random rotations of the feature space,sklearn,Householder QR-matrix decomposition
Библиографический список:
- Zhang Yiyan, Yi Xin, Li Qin, Ma Jianshe, Li Shuai, Lv Xiaodan, Lv Weiqi. Empirical Study of Seven Data Mining Algorithms on Different Characteristics of Datasets for Biomedical Classification Applications // BioMedical Engineering OnLine. 2017. № 16. https://doi.org/10.1186/s12938-017-0416-x
- Elghazel H., Aussem A., Perraud F. Trading-odiversity and accuracy for optimal ensemble tree selection in random forests // Ensembles in Machine Learning Applications, Studies in Computational Intelligence. Springer Berlin Heidelberg, 2011. P. 169-179.
- Breiman L. Bagging predictors // Machine Learning. 1996. № 24. P. 123-140.
- Freund Y., Schapire R. Experiments with a new boosting algorithm // Proceedings of the Thirteenth International Conference on Machine Learning. Bari: Morgan Kaufmann Publishers Inc., 1996. Р. 148-156.
- Tin K. Ho. Random decision forests // Proceedings of the Third International Conference on Document Analysis and Recognition. 1995. Vol. 1. Р. 278-282.
- Tin K. Ho. The random subspace method for constructing decision forests // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998. № 20. Р. 832-844.
- Breiman L. Random forests - random features. Technical report. Berkeley: University of California at Berkeley, 1999.
- Blaser R., Fryzlewicz P. Random Rotation Ensembles // Journal of Machine Learning Research. 2016. № 17. Р. 1-26.
- Китов В.В. Исследование точности метода градиентного бустинга со случайными поворотами // Статистика и экономика. 2016. № 4 [Электронный ресурс]. URL: https://cyberleninka.ru/article/n/issledovanie-tochnosti-metoda-gradientnogo-bustinga-so-sluchaynymi-povorotami (21.03.2018).
- Pedregosa F. [et al.]. Scikit-learn: Machine Learning in Python // Journal of Machine Learning Research. 2011. № 12. P. 2825-2830.
- Alston S. Householder. Unitary triangularization of a nonsymmetric matrix // Journal of the ACM. 1958. № 5. Р. 339-342.
- Diaconis P., Shahshahani M. The subgroup algorithm for generating uniform random variables // Probability in the Engineering and Informational Sciences. 1987. № 1. Р. 15-32.
- Friedman J.H. Greedy Function Approximation: A Gradient Boosting Machine // The Annals of Statistics. Oct. 2001. Vol. 29. No. 5. Pp. 1189-1232.
- Lichman M. UCI machine learning repository, 2013.
Файлы: