1. 首页 > 知识问答

聚类是什么意思(什么是数据挖掘中的聚类?)

数据挖掘中的聚类是什么意思

原创2022-05-30 20:27·助力企业内贸外贸成长

数据挖掘和聚类密切相关。它们都专注于特定数据集的模式识别。

主要是机器学习、模式识别和统计的共同努力。它们有助于发现数据中的模式。聚类是数据挖掘的各种方法之一。

 

数据分析

 

什么是数据挖掘中的聚类?

通常,数据挖掘最终会发现模式。如果您特别谈论聚类,它是一种无监督的数据挖掘方法,可将数据分成几组。换句话说,聚类是将数据统计分布到子类中。每个子类都展示了一组相似的对象。这是一种无监督算法。

让我们考虑用这个例子来阐明它的含义。当您在搜索引擎中键入一个短语时,它会立即进行监控。每当您再次浏览它时,它都会排列一系列由您之前的搜索所激发的广告。它的机器人需要几分钟来扫描您探索的内容。同样,许多其他用户也会浏览过类似或相关的信息。但是,他们的措辞可能会有所不同。它的机器人在算法中进行了数十亿次搜索,以列出最易搜索的短语。这就是数据挖掘。

 

数据处理

 

无监督算法使用多个变量描述数据作为输入。与监督算法不同,它没有变量来预测。

它的各种方法是什么?

数据可以有多种类型,如调查、报告、表格、图像等。其各种方法处理 数据挖掘中聚类分析中的数据类型。因此,结果出现了决定性的作用。

  1. 划分方法: 假设一个数据集包含 n 个 对象,而它们划分为组 k。 这意味着每个 k 组将有 n 个 对象,前提是:
  • 每个集群应该至少有一个对象。
  • 一个对象应该只属于一个集群。

 

大数据

这种聚类在数据挖掘中最初是有效的。紧随其后的是迭代重定位技术以及进行精细聚类。

  1. 分层方法: 它是数据对象的分层分解。它的凝聚方法首先将每个对象聚集在一个组中。随后,根据自下而上的方法,合并密切相关的对象,直到留下一个对象。

另一方面,矿工可以采用自上而下的方法,即。分裂的方法。它首先将所有对象聚集到一个组中。然后,它被分成更小的集群。

  1. 基于密度的方法: 顾名思义,只要相邻簇的密度超过其阈值,该方法就会扩大簇的半径。
  2. 基于模型的方法: 它基于假设建模。建立一个假设模型以找到数据的最佳拟合。密度函数保持在核心。然后,出现数据的空间分布。在考虑异常值或噪声的同时,标准统计数据确定聚类。
  3. 基于约束的方法: 这种方法反映了将用户或面向应用的约束(如用户的期望)合并到集群中。

它的应用有哪些?

  1. 市场 研究: 市场研究需要深入洞察比较和预测分析。这种聚类广泛地有助于识别隐藏模式、分析和战略形成。
  2. 互联网算法: 万维网使用它来理解搜索以过滤准确的结果或信息。
  3. 模式识别: 许多银行使用异常值检测应用程序来筛选信用卡欺诈模式。
  4. 图像处理: 比方说,政府想要了解有关特定地点征地的确切信息。聚类有助于根据图像中出现的房屋类型、价值和地理位置确定房屋类型。
  5. 数据挖掘: 它有助于对营销循环进行分类、客户分析、派生植物和动物分类法、基因分类和对任何目标领域的洞察。

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ15101117,本站将立刻清除。

联系我们

在线咨询:点击这里给我发消息

微信号:666666