根据给定的参数生成数据,主要用来测试代码性能(没有实际数据的情况下)
函数原型 data, label = make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)参数说明
n_features :表示每一个样本有多少特征值 ,默认2n_samples :表示样本的个数 ,默认100centers: 是聚类中心点的个数,可以理解为label的种类数 ,默认3random_state :是随机种子,可以固定生成的数据cluster_std :设置每个类别的方差, 例如我们希望生成3类数据,可以将cluster_std设置为[1.0,3.0,5.0]。代表最后一类方差最大,分布的最散乱shuffle: 是否打乱数据。默认打乱center_box :每个簇中心随机生成时的包围框?不懂啥意思查询更多详细信息请到 官网—— make_blobs
使用示例 from sklearn.datasets import make_blobscenters = [[1, 1], [-1, -1], [1, -1]]X, labels = make_blobs(n_samples = 750, centers = centers,cluster_std = 0.4, random_state = 0)生成750个2维数据,总共分为3类 , 每一类的方差都是0.4,然后我自己指定了簇中心三个点