机器学习：双聚类算法

日期：2021-08-07 栏目：程序人生浏览：次

PS：因为没有找到实际应用的场景，所以两个示例直接采用了官网的示例。以后遇到实际的应用场景了，再替换成实际的例子。

1.算法简介

双聚类简单来说就是在数据矩阵A中寻找一个满足条件矩阵B1的子矩阵A1，而B1是条件矩阵B的一个子矩阵.

2.算法常用的计算模型

目前定义双聚类算法有四种比较广泛的方式：(括号中为sklearn官网的说法)

2.1等值模型(常数值，常量行或常量列)

机器学习：双聚类算法

2.2加法模型(低方差的子矩阵)

机器学习：双聚类算法

2.3乘法模型(异常高或低的值)

机器学习：双聚类算法

2.4信息共演模型(相关的行或列)

机器学习：双聚类算法

3.两种特殊的双聚类结果(sklearn官网有算法的)

3.1对角线结构

机器学习：双聚类算法

3.2棋盘格结构

机器学习：双聚类算法

4.双聚类的两种算法

双聚类的算法有很多种，这里只介绍sklearn官网提供的两种算法，也就是上述两种特殊结构的算法。

4.1光谱联合聚类(Spectral Co-Clustering)

说明：因为我们不自己动手写算法，所以这里的公式就略过了。

4.1.1 算法作用

该算法找到的值高于相应的其他行和列中的值。每行和每列只属于一个双聚类，因此重新排列行和列中的这些高值，使这些分区沿着对角线连续显示。

4.1.1 主要计算过程

1)按照数学公式对矩阵进行预处理

2)对处理后的矩阵进行行和列的划分，之后按照另外一个数学公式生产一个新的矩阵Z

3)对矩阵Z的每行使用k-means算法

4.1.2 sklearn中的函数

1) sklearn.cluster.bicluster. SpectralCoclustering

2)主要参数(详细参数)

n_clusters ：聚类中心的数目，默认是3

svd_method：计算singular vectors的算法，‘randomized’(默认) 或 ‘arpack’.

n_svd_vecs ：计算singular vectors值时使用的向量数目

n_jobs ：计算时采用的线程或进程数量

3)主要属性

rows_ :二维数组，表示聚类的结果。其中的值都是True或False。如果rows_[i,r]为True，表示聚类i包含行r

columns_:二维数组，表示聚类的结果。

row_labels_ ：每行的聚类标签列表

column_labels_ :每列的聚类标签列表

4)官网示例

机器学习：双聚类算法

import numpy as np from matplotlib import pyplot as plt from sklearn.datasets import make_biclusters from sklearn.datasets import samples_generator as sg from sklearn.cluster.bicluster import SpectralCoclustering from sklearn.metrics import consensus_score data, rows, columns = make_biclusters( shape=(300, 300), n_clusters=5, noise=5, shuffle=False, random_state=0) plt.matshow(data, cmap=plt.cm.Blues) plt.title("Original dataset") data, row_idx, col_idx = sg._shuffle(data, random_state=0) plt.matshow(data, cmap=plt.cm.Blues) plt.title("Shuffled dataset") model = SpectralCoclustering(n_clusters=5, random_state=0) model.fit(data) print(model.rows_[0]) print("*******************************************") print(model.rows_[1]) score = consensus_score(model.biclusters_, (rows[:, row_idx], columns[:, col_idx])) print("consensus score: {:.3f}".format(score)) fit_data = data[np.argsort(model.row_labels_)] fit_data = fit_data[:, np.argsort(model.column_labels_)] plt.matshow(fit_data, cmap=plt.cm.Blues) plt.title("After biclustering; rearranged to show biclusters") plt.show()

转载注明出处：https://www.heiqu.com/zyffxf.html

机器学习：双聚类算法

相关推荐