岁虚山

行由不得,反求诸己

0%

简介

聚类分析,又称群分析,指对样本数据的一种划分与归类的一种方法。聚类算法以相似性为基础,将样本数据中按照相似度不同分成不同的族群(类别)中。同一族群中,样本相似性相差小;不同族群中,样本相似性差异较大。

Meanshift,又称均值漂移算法,是一种基于核密度的估计算法,将每个族群的中心点移动到该族群的密度最大的位置,来对样本进行分类。

相较于其他分类算法,$Meanshift$ 不需要指定分类的族群数量,而是根据样本特性自动生成不同类别的族群。其广泛应用于聚类、图像平滑、分割、跟踪等方面。

本文以聚类为例,探讨 $Meanshift$ 的原理及实现。

阅读全文 »

场景描述

假设我们有这么一个问题:

我们有一个 n 维的向量(数组),现在我们需要将前面的 r 个元素移动到末尾,如下所示:

我们该如何操作呢?

阅读全文 »

前言

Hexo 博客搭建完成后,可以将博客部署到 git 服务商提供的静态网页服务上,如 Github,Gitee等。当然,如果有自己的 VPS 服务器的话,还可以将博客部署到 VPS 服务器上,通过 IP 或者有域名来进行访问。

本文记录将 Hexo 部署到 VPS 的步骤,以供参阅。

阅读全文 »

问题

假设现在有一个包含有 5000000(500万)个整数型的数据列表,其中的数据范围为 0 — 9999999,并且无重复数据。现在,我们想对这个列表进行排序,该如何去做呢?

阅读全文 »

概述

存在一个样本数据集合(训练样本集),并且每个样本都有确定的标签,即样本与标签之间存在一一对应的关系。输入没有标签的样本(测试样本),将测试样本的数据与训练样本集中的数据进行比较,然后提取训练样本集中与测试样本最相似(最近邻)的分类标签,选择提取标签中的前K个标签(可能会重复),在K个标签集中出现次数最多的标签,作为测试样本的分类。

阅读全文 »