Regresion multivariada¶

Supongamos que tenemos un conjunto de caracteristicas $X = X_1,X_2…X_j…X_n$ para realizar una predicción $y$ con valores esperados $\hat{y}$.

Cada X, puede ser escrito como: $X_1 = x_1^{(1)},x_1^{(2)}, x_1^{(3)}…x_1^{(m)}$,

$X_2 = x_2^{(1)},x_2^{(2)}, x_2^{(3)}…x_2^{(m)}$,

.

$X_n = x_n^{(1)},x_n^{(2)}, x_n^{(3)}…x_n^{(m)}$.

Siendo n el número de caracteristicas y m el número de datos de datos, $\hat{y} = \hat{y}_1^{(1)}, \hat{y}_1^{(2)}…\hat{y}_1^{(m)} $, el conjunto de datos etiquetados y $y = y_1^{(1)}, y_1^{(2)}…y_1^{(m)} $ los valores predichos por un modelo

Lo anterior puede ser resumido como:

Training	$\hat{y}$	X_1	X_2	.	.	.	.	X_n
1	$\hat{y}_1^{1}$	$x_1^{1}$	$x_2^{1}$	.	.	.	.	$x_n^{1}$
2	$\hat{y}_1^{2}$	$x_1^{2}$	$x_2^{2}$	.	.	.	.	$x_n^{2}$
.	.	.	.	.	.	.	.
.	.	.	.	.	.	.	.
.	.	.	.	.	.	.	.
m	$\hat{y}_1^{m}$	$x_1^{m}$	$x_2^{m}$	.	.	.	.	$x_n^{m}$

y el el modelo puede ser ajustado como sigue:

Para un solo conjunto de datos de entrenamiento tentemos que:

$y = h(\theta_0,\theta_1,\theta_2,…,\theta_n ) = \theta_0 + \theta_1 x_1+\theta_2 x_2 + \theta_3 x_3 +…+ \theta_n x_n $.

(43)¶\[\begin{equation} h_{\Theta}(x) = [\theta_0,\theta_1,...,\theta_n ]\begin{bmatrix} 1^{(1)}\\ x_1^{(1)}\\ x_2^{(1)}\\ .\\ .\\ .\\ x_n^{(1)}\\ \end{bmatrix} = \Theta^T X^{(1)} \end{equation}\]

Para todo el conjunto de datos, tenemos que:

Sea $\Theta^T = [\theta_0,\theta_1,\theta_2,…,\theta_n]$ una matrix $1 \times (n+1)$ y

(44)¶\[\begin{equation} X = \begin{bmatrix} 1& 1 & 1 & .&.&.&1\\ x_1^{(1)}&x_1^{(2)} & x_1^{(3)} & .&.&.&x_1^{(m)}\\ .&. & . &.&.&.& .\\ .&. & . & .&.&.&.\\ .&. & . & .&.&.&.\\ x_n^{(1)}&x_n^{(2)} & x^{(3)} & .&.&.&x_n^{(m)}\\ \end{bmatrix}_{(n+1) \times m} \end{equation}\]

luego $h = \Theta^{T} X $ con dimension $1\times m$

La anterior ecuación, es un hiperplano en $\mathbb{R}^n$. Notese que en caso de tener una sola característica, la ecuación puede ser análizada según lo visto en la sesión de regresion lineal.

Para la optimización, vamos a definir la función de coste $J(\theta_1,\theta_2,\theta_3, …,\theta_n )$ , como la función asociada a la minima distancia entre dos puntos, según la metrica euclidiana.

Metrica Eculidiana

(45)¶\[\begin{equation} J(\theta_1,\theta_2,\theta_3, ...,\theta_n )=\frac{1}{2m} \sum_{i=1}^m ( h_{\Theta} (X)-\hat{y}^{(i)})^2 =\frac{1}{2m} \sum_{i = 1}^m (\Theta^{T} X - \hat{y}^{(i)})^2 \end{equation}\]

Otras métricas pueden ser definidas como sigue en la siguiente referencia. Metricas.

Nuestro objetivo será encontrar los valores mínimos $\Theta = \theta_0,\theta_1,\theta_2,…,\theta_n$ que minimizan el error, respecto a los valores etiquetados y esperados $\hat{y}$

Para encontrar $\Theta$ opmitimo, se necesita minimizar la función de coste, que permite obtener los valores más cercanos, esta minimización podrá ser realizada a través de diferentes metodos, el más conocido es el gradiente descendente.

Gradiente descendente¶

Consideremos la función de coste sin realizar el promedio esima de funcion de coste:

(46)¶\[\begin{equation} \Lambda = \begin{bmatrix} (\theta_0 1 + \theta_1 x_1^1+\theta_2 x_2^2 + \theta_3 x_3^3 +...+ \theta_n x_n^n - \hat{y}^{1})^2 \\ (\theta_0 1+ \theta_1 x_1^1+\theta_2 x_2^2 + \theta_3 x_3^3 +...+ \theta_n x_n^n - \hat{y}^{2})^2\\ .\\ .\\ .\\ (\theta_0 1 + \theta_1 x_1^m+\theta_2 x_2^m + \theta_3 x_3^m +...+ \theta_n x_n^m - \hat{y}^{m})^2\\ \end{bmatrix} \end{equation}\]

$\Lambda= [\Lambda_1,\Lambda_2, …,\Lambda_m]$

$J = \frac{1}{2m} \sum_{i}^m \Lambda_i $

El gradiente descente, puede ser escrito como:

(47)¶\[\begin{equation} \Delta \vec{\Theta} = - \alpha \nabla J(\theta_0, \theta_1,...,\theta_n) \end{equation}\]

escogiendo el valor j-esimo tenemos que:

(48)¶\[\begin{equation} \theta_j := - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_j} \end{equation}\]

Aplicando lo anterior a a funcion de coste asociada a la metrica ecuclidiana, tenemos que:

Para $j = 0$,

(49)¶\[\begin{equation} \theta_0 := - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_0} = \frac{1}{m}\alpha \sum_{i=1}^m (\theta_j X_{ji} - \hat{y}^{(i)}) 1 \end{equation}\]

Para $0<j<n $

(50)¶\[\begin{equation} \theta_j := - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_j} = \frac{1}{m} \alpha\sum_{i=1}^m (\theta_{j} X_{ji} - \hat{y}^{(i)}) X_j \end{equation}\]

donde X_j es el vector de entrenamiento j-esimo.

Lo anterior puede ser generalizado como siguem, teniendo presente que $X_0 = \vec{1}$

Para $0\leq j<n$,

(51)¶\[\begin{equation} \theta_j := - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_j} = \frac{1}{m} \alpha\sum_{i=1}^m (\theta_j X_{ji} - \hat{y}^{(i)}) X_j \end{equation}\]

Aprendizaje Estatadistico

Regresion multivariada

Contents

Regresion multivariada¶

Gradiente descendente¶

Modelos polinomiales¶