Матричную постановку задачи для метода главных компонент можно записать следующим образом: www.machinelearning.ru
- Пусть X ∈ Rℓ×D — матрица объекты-признаки, где ℓ — число объектов, а D — число признаков. www.machinelearning.ru
- Поставим задачу уменьшить размерность пространства до d. www.machinelearning.ru
- Новую матрицу объекты-признаки обозначим через Z ∈ Rℓ×d. www.machinelearning.ru
- Потребуем, чтобы новые признаки линейно зависели от исходных: d xij = zisujs, s=1 или, в векторном виде, xi = ziU T (здесь мы ввели матрицу перехода U ∈ RD×d). www.machinelearning.ru
- Потребуем, чтобы левая и правая части равенств были как можно ближе друг к другу с точки зрения квадратичного отклонения: ℓ F= xi − ziU T 2 = X − ZU T 2 → min. www.machinelearning.ru Z,U i=1. www.machinelearning.ru
Таким образом, мы пришли к задаче представления матрицы X в виде произведения двух матриц меньшей размерности. www.machinelearning.ru Эта задача называется задачей матричного разложения. www.machinelearning.ru В данном случае мы ищем приближение, оптимальное в смысле нормы Фробениуса, однако могут использоваться и другие нормы или метрики. www.machinelearning.ru
Также для расчёта анализа основных компонентов для набора данных можно использовать класс PCA() в библиотеке scikit-learn. yandex.ru