Матричную постановку задачи для метода главных компонент можно записать следующим образом: 2
- Пусть X ∈ Rℓ×D — матрица объекты-признаки, где ℓ — число объектов, а D — число признаков. 2
- Поставим задачу уменьшить размерность пространства до d. 2
- Новую матрицу объекты-признаки обозначим через Z ∈ Rℓ×d. 2
- Потребуем, чтобы новые признаки линейно зависели от исходных: d xij = zisujs, s=1 или, в векторном виде, xi = ziU T (здесь мы ввели матрицу перехода U ∈ RD×d). 2
- Потребуем, чтобы левая и правая части равенств были как можно ближе друг к другу с точки зрения квадратичного отклонения: ℓ F= xi − ziU T 2 = X − ZU T 2 → min. 2 Z,U i=1. 2
Таким образом, мы пришли к задаче представления матрицы X в виде произведения двух матриц меньшей размерности. 2 Эта задача называется задачей матричного разложения. 2 В данном случае мы ищем приближение, оптимальное в смысле нормы Фробениуса, однако могут использоваться и другие нормы или метрики. 2
Также для расчёта анализа основных компонентов для набора данных можно использовать класс PCA() в библиотеке scikit-learn. 3