# Iris data set example
from sklearn import datasets   
import numpy as np
import matplotlib.pyplot as plt

iris = datasets.load_iris()

X = iris.data
y = iris.target

print(X.shape[1])

# Compute the covariance matrix
cov_mat = np.cov(X.T)

# Compute the eigenvalues and eigenvectors
eigen_vals, eigen_vecs = np.linalg.eig(cov_mat)

# Plot the variance explained ratio of the eigenvalues
tot = sum(eigen_vals)
var_exp = [(i / tot) for i in sorted(eigen_vals, reverse=True)]
cum_var_exp = np.cumsum(var_exp)
plt.bar(range(1, 5), var_exp, alpha=0.5, align='center',
        label='individual explained variance')

4

<BarContainer object of 4 artists>

# Reduce the dimensionality of the data set to two
X_reduced = X.dot(eigen_vecs[:, :2])

# Plot the reduced data set

for label, marker, color in zip(
        range(0, 3), ('^', 's', 'o'), ('blue', 'red', 'green')):
    plt.scatter(X_reduced[y == label, 0], X_reduced[y == label, 1],
                marker=marker, color=color, alpha=0.5, label=label)

# k-means clustering on Iris data set

from sklearn.cluster import KMeans
import numpy as np
from scipy.spatial.distance import cdist

class KMeans(object):

    def __init__(self, data, k=3, tol=1e-9):
        self.k = k
        self.tol = tol
        self.data = data
        self.clusters = np.zeros(len(self.data))

        # Initialize the centroids to k random points in the data set
        idx = np.random.permutation(len(self.data))
        self.centroids = self.data[idx[:self.k]]

    def update_clusters(self):

        # Find the distance between each point and each cluster
        dist = cdist(self.data, self.centroids, 'euclidean')   

        # Assign each point to the nearest cluster
        self.clusters = np.argmin(dist, axis=1)

        # Update the centroids
        centroids_old = self.centroids.copy()

        for i in range(self.k):
            self.centroids[i] = \
                 np.mean(self.data[self.clusters == i], axis=0)

        # Check if the centroids have converged
        return np.allclose(centroids_old, self.centroids, self.tol)

    def visualize_clusters(self,titlestr=""):
        colors = ['r', 'g', 'b', 'y', 'c', 'm']

        plt.figure()
        for i in range(self.k):
            plt.scatter(self.data[self.clusters == i, 0], 
                        self.data[self.clusters == i, 1],
                        marker='o', color=colors[i], alpha=0.5)
            
            plt.scatter(self.centroids[i, 0], self.centroids[i, 1], 
                        marker='*', edgecolor='k', color=colors[i], s=100)
        
        plt.title(titlestr)
        plt.show()

idx = np.random.permutation(150)
Xmini = X[idx[:15]]
km = KMeans(k=3, data=Xmini)

for i in range(20):
    plot = km.visualize_clusters(titlestr="Iteration "+str(i))
    converged=km.update_clusters()
    if converged:
        break

from scipy.stats import multivariate_normal
import matplotlib.gridspec as gridspec 
import numpy as np

class MixtureOfGaussians(object):
    def __init__(self, data, k=3, tol=1e-9):
        self.k = k
        self.tol = tol
        self.data = data
        self.clusters = np.zeros([len(self.data), k])

        # Initialize the means to k random points in the data set
        idx = np.random.permutation(len(self.data))
        self.means = self.data[idx[:self.k]]

        # Initialize the covariance matrices to the identity matrix
        self.covariances = np.zeros((self.k, 
                            self.data.shape[1], self.data.shape[1]))
        for i in range(self.k):
            self.covariances[i] = np.eye(self.data.shape[1])

        # Initialize the mixing coefficients to be uniform
        self.mixing_coefficients = np.ones(self.k) / self.k

    def E_step(self):

        # Compute the probability of each point belonging to each cluster
        for i in range(self.k):
            self.clusters[:, i] = \
                self.mixing_coefficients[i] * multivariate_normal.pdf(self.data, \
                        self.means[i], self.covariances[i])

        # Normalize the probabilities so that each point has a total probability of 1
        self.clusters /= self.clusters.sum(axis=1, keepdims=True)

        # Update the mixing coefficients
        self.mixing_coefficients = self.clusters.mean(axis=0)

    def M_step(self):
            
        # Update the means
        self.means = \
            self.clusters.T.dot(self.data) / self.clusters.sum(axis=0, keepdims=True).T

        # Update the covariance matrices
        for i in range(self.k):
            Z = (self.data - self.means[i]) * np.sqrt(self.clusters[:, i].reshape(-1, 1))
            self.covariances[i] = Z.T.dot(Z) / self.clusters[:, i].sum() \
                      + np.eye(self.data.shape[1]) * 1e-8

    def visualize_clusters(self,titlestr=""):
        colors = ['r', 'g', 'b', 'y', 'c', 'm']

        plt.figure()
        plt.scatter(self.data[:, 0], self.data[:, 1], 
                    marker='o', color='k', alpha=0.2)

        xx, yy = np.mgrid[-10:10:.1, -10:10:.1]
        data = np.dstack((xx, yy))

        for i in range(self.k):
            rv = multivariate_normal(self.means[i], self.covariances[i])
            z = rv.pdf(data)
            plt.contour(xx, yy, z, levels=[0.1,0.2,0.4,0.8,1.6], 
                colors=colors[i], alpha=0.5)
            plt.scatter(self.means[i, 0], self.means[i, 1], 
                marker='*', edgecolor='k', color=colors[i], s=100)
            plt.xlim([0, 10])
            plt.ylim([-10, 0])
        plt.title(titlestr)
        plt.show()        
        
    
idx = np.random.permutation(150)
Xmini = X_reduced[idx[:50]]
mog = MixtureOfGaussians(k=3, data=Xmini)

for i in range(50):
    if i % 10 == 0:
        plot = mog.visualize_clusters(titlestr="Iteration "+str(i))
    mog.E_step()
    mog.M_step()

Dimensionality Reduction¶

Clustering¶

Density Estimation¶