Refine the translation
This commit is contained in:
Родитель
80099c7ca4
Коммит
cc50d72f6a
|
@ -9,7 +9,7 @@
|
|||
|
||||
[聚类](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124)对于数据探索非常有用。让我们看看它是否有助于发现尼日利亚观众消费音乐的趋势和模式。
|
||||
|
||||
✅花一点时间思考聚类的用途。在现实生活中,每当你有一堆衣服需要整理家人的衣服时,就会发生聚类🧦👕👖🩲. 在数据科学中,聚类用于在尝试分析用户的偏好或确定任何未标记数据集的特征。在某种程度上,聚类有助于理解杂乱的状态,就像一个袜子抽屉。
|
||||
✅花一点时间思考聚类的用途。在现实生活中,每当你有一堆衣服需要整理家人的衣服时,就会发生聚类🧦👕👖🩲. 在数据科学中,聚类用于在尝试分析用户的偏好或确定任何未标记数据集的特征。在某种程度上,聚类有助于理解杂乱的状态,就像是一个袜子抽屉。
|
||||
|
||||
[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering")
|
||||
|
||||
|
@ -29,7 +29,7 @@
|
|||
|
||||
## 聚类入门
|
||||
|
||||
[Scikit-learn 提供了大量](https://scikit-learn.org/stable/modules/clustering.html)的方法来执行聚类。您选择的类型将取决于您的用例。根据文档,每种方法都有不同的好处。以下是 Scikit-learn 支持的方法及其适当用例的简化表:
|
||||
[Scikit-learn ](https://scikit-learn.org/stable/modules/clustering.html)提供了大量的方法来执行聚类。您选择的类型将取决于您的用例。根据文档,每种方法都有不同的好处。以下是 Scikit-learn 支持的方法及其适当用例的简化表:
|
||||
|
||||
| 方法名称 | 用例 |
|
||||
| ---------------------------- | -------------------------------------------------- |
|
||||
|
@ -41,7 +41,7 @@
|
|||
| Agglomerative clustering | 许多,受约束的,非欧几里得距离,转导的 |
|
||||
| DBSCAN | 非平面几何,不均匀聚类,转导的 |
|
||||
| OPTICS | 不平坦的几何形状,具有可变密度的不均匀聚类,转导的 |
|
||||
| Gaussian mixtures | 平面几何,感应的 |
|
||||
| Gaussian mixtures | 平面几何,归纳的 |
|
||||
| BIRCH | 具有异常值的大型数据集,归纳的 |
|
||||
|
||||
> 🎓我们如何创建聚类与我们如何将数据点收集到组中有很大关系。让我们分析一些词汇:
|
||||
|
@ -63,7 +63,7 @@
|
|||
>
|
||||
> 🎓 ['距离'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)
|
||||
>
|
||||
> 聚类由它们的距离矩阵定义,例如点之间的距离。这个距离可以通过几种方式来测量。欧几里得聚类由点值的平均值定义,并包含“质心”或中心点。因此,距离是通过到该质心的距离来测量的。非欧式距离指的是“聚类心”,即离其他点最近的点。聚类心又可以用各种方式定义。
|
||||
> 聚类由它们的距离矩阵定义,例如点之间的距离。这个距离可以通过几种方式来测量。欧几里得聚类由点值的平均值定义,并包含“质心”或中心点。因此,距离是通过到该质心的距离来测量的。非欧式距离指的是“聚类中心”,即离其他点最近的点。聚类中心又可以用各种方式定义。
|
||||
>
|
||||
> 🎓 ['约束'](https://wikipedia.org/wiki/Constrained_clustering)
|
||||
>
|
||||
|
@ -232,7 +232,7 @@
|
|||
|
||||
请注意,当顶级流派被描述为“缺失”时,这意味着 Spotify 没有对其进行分类,所以让我们避免它。
|
||||
|
||||
1. 通过过滤掉丢失的数据避免
|
||||
1. 通过过滤掉丢失的数据来避免
|
||||
|
||||
```python
|
||||
df = df[df['artist_top_genre'] != 'Missing']
|
||||
|
@ -335,3 +335,4 @@
|
|||
|
||||
[研究用于聚类的其他可视化](./assignment.zh-cn.md)
|
||||
|
||||
转导
|
||||
|
|
|
@ -2,7 +2,7 @@
|
|||
|
||||
聚类(clustering)是一项机器学习任务,用于寻找类似对象并将他们分成不同的组(这些组称做“聚类”(cluster))。聚类与其它机器学习方法的不同之处在于聚类是自动进行的。事实上,我们可以说它是监督学习的对立面。
|
||||
|
||||
## 区域性话题: 尼日利亚观众音乐品味的聚类模型🎧
|
||||
## 本节主题: 尼日利亚观众音乐品味的聚类模型🎧
|
||||
|
||||
尼日利亚多样化的观众有着多样化的音乐品味。使用从Spotify上抓取的数据(受到[本文](https://towardsdatascience.com/country-wise-visual-analysis-of-music-taste-using-spotify-api-seaborn-in-python-77f5b749b421)的启发),让我们看看尼日利亚流行的一些音乐。这个数据集包括关于各种歌曲的舞蹈性、声学、响度、言语、流行度和活力的分数。从这些数据中发现一些模式(pattern)会是很有趣的事情!
|
||||
|
||||
|
|
Загрузка…
Ссылка в новой задаче