学习聚类算法要找什么书看？？

2024-05-17 05:41

1. 学习聚类算法要找什么书看？？

Pattern Recognition [美]Richard O.Duda,Peter E.Hart,David G.Stork
这是美国你所知道的大多数牛校在data mining领域里的必用教材之一，如过你刚开始接触聚类算法，可能会觉得我给你推荐的这书似乎从名字上看不出clustering的影子，但建议你仔细翻翻目录，你就会发现这本书的nb之处了，单独抽出算法来讲是晦涩又没意义的

学习聚类算法要找什么书看？？

2. 机器学习，数据挖掘的书有哪些

说到数据分析，人们往往会下意识地联想到另一个耳熟能详的名词：数据挖掘。那么，到底什么是数据挖掘呢？顾名思义，数据挖掘就是对数据进行处理，并从中提取可用信息的过程。如果你刚好正在寻找这方面的入门书籍，那么韩家炜老师写的《数据挖掘：概念与技术》绝对是一个不错的选择。

该书针对传统的数据分析方法，常见的如聚类、分类、去噪等，都做了非常细致的说明，并附带详实的算法、实例。相信你在看完该书的相关章节后，一定会对上述方法有较为深刻的认知。值得一提的是，该书还被许多学校引作本科教材，因此读者自学时还可以较为容易地获取各种参考学习资料，让学习模式直接从hard降为easy。但是，由于该书成书较早，且近年来机器学习发展迅速，其中所涉及的诸多内容在今天看来已显得略微朴实，无法很好地反映数据分析领域当下最前沿的技术。但瑕不掩瑜，总体而言，这依然是一本初学者理想的入门书籍。
在学习完上一本《数据挖掘》后，此时的你将会拥有一些简单的数据分析基础。如果还想更上一层楼，那么周志华老师的这本《机器学习》绝对是不能错过的进阶读本。

用一句话来概括周志华老师的这本《机器学习》的话，大概就是“周老师用一万种方法教你挑个好西瓜”。由于“怎样挑个好瓜”的怨念贯穿了全书的始终，且连封面也印上了西瓜，人们也常常亲切地将其称为西瓜书。
相比于上一本教材，本书对读者明显提出了更高的要求。一方面，该书成书更晚，涵盖的机器学习方法也更广泛，决策树、神经网络、支持向量机、增强学习等大家常常听到的热点方法，书中都分章做了细致的介绍。另一方面，西瓜书涉及了不少数学公式，需要读者有一定的统计、代数数学基础。看一个公式花上半个小时，那真是家常便饭。不过大家也不用太紧张，本书的附录部分专门为许多公式提供了详尽的推导过程。即便看完附录后还是一头雾水，你也至少知道用搜索引擎时该填哪些关键词了(￣ ▽ ￣)…总的来说，该书是进一步全面了解当下主流数据分析方法，俯瞰机器学习全貌的不二选择，大家可以按自身兴趣选读相关章节。
讲到这里，我似乎听到有读者在犯嘀咕了：“说了这么多，什么时候传我造AI的神功啊？就是那个叫什么深度学习的。”确实，这年头讲到数据分析如果不谈谈网络，都不好意思和别人说自己涉猎过这块领域。那么，笔者在此就再推荐一本神经网络的入门书籍。
其实，神经网络是机器学习方法的一条分支，而且上个世纪50年代就已经有了“感知机”的概念，将感知机推叠在一起就是“多层感知机”。只是限于当时的计算机算力，人们只能用多层感知机处理一些简单的问题，也无法构建深层网络，因此相关研究也很快冷下来。从某种程度上说，感知机和多层感知机就是当下神经元和神经网络的雏形。
2016年，Google的AlphaGo击败了李世石。人们突然惊奇地发现，当下的算力已经可以支撑神经网络胜任如此复杂的工作了。于是相关领域的研究热度被再次点燃，并一直延续至今。其实，神经网络的基础理论并不复杂，可概括为“只要神经元足够多，一层前馈网络足以拟合任何函数。”这个理论有什么用呢？举个例子，如果把你比作一个函数的话，那么你从外界感知到的信息就是函数的输入，而你的反应就是函数的输出。所以从理论上讲，只要你能拟合出一个足够准确的函数，就可以造出一个自己了！怎么样，是不是感觉可以去造AI了。
好了，现在让我们从梦中醒来，先挑一本学习教材。看完书，你就知道拟合出一个“准确”的函数，是一件需要那么多理论和技巧的事。就入门而言，我强烈推荐Michael Nielsen写的这本在线书籍《Neural Networks and Deep Learning》（http://neuralnetworksanddeeplearning.com/），主要有以下几个方面的理由：
· 该书篇幅适中，是极佳的快速入门读物。送你个哈工大的中文翻译链接（https://legacy.gitbook.com/book/hit-scir/neural-networks-and-deep-learning-zh_cn/details）， 试试2个星期把它读完吧；
· 关键公式的推导过程非常详细，便于读者理解性地记忆反向传播、dropout等原理的内涵；
· 充分发挥了网页版书籍的优势，在页面中插入了一些运行小界面，生动地向读者诠释了神经网络底层运行的各种机理；

· 更难能可贵的是，随书还附带了一批可运行的神经网络实例。试试亲自上手改改代码吧，相信你会有意外的收获。

3. 有哪些常用的聚类算法

　　划分法
　　划分法(partitioning methods)，给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K<N。而且这K个分组满足下列条件：
　　（1） 每一个分组至少包含一个数据纪录；
　　（2）每一个数据纪录属于且仅属于一个分组（注意：这个要求在某些模糊聚类算法中可以放宽）；
　　对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中的记录越近越好，而不同分组中的纪录越远越好。
　　大部分划分方法是基于距离的。给定要构建的分区数k，划分方法首先创建一个初始化划分。然后，它采用一种迭代的重定位技术，通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是：同一个簇中的对象尽可能相互接近或相关，而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分方法可以扩展到子空间聚类，而不是搜索整个数据空间。当存在很多属性并且数据稀疏时，这是有用的。为了达到全局最优，基于划分的聚类可能需要穷举所有可能的划分，计算量极大。实际上，大多数应用都采用了流行的启发式方法，如k-均值和k-中心算法，渐近的提高聚类质量，逼近局部最优解。这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类，需要进一步扩展基于划分的方法。[1]
　　使用这个基本思想的算法有：K-MEANS算法、K-MEDOIDS算法、CLARANS算法；

　　层次法
　　层次法(hierarchical methods)，这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。
　　例如，在“自底向上”方案中，初始时每一个数据纪录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。
　　层次聚类方法可以是基于距离的或基于密度或连通性的。层次聚类方法的一些扩展也考虑了子空间聚类。层次方法的缺陷在于，一旦一个步骤（合并或分裂）完成，它就不能被撤销。这个严格规定是有用的，因为不用担心不同选择的组合数目，它将产生较小的计算开销。然而这种技术不能更正错误的决定。已经提出了一些提高层次聚类质量的方法。[1]
　　代表算法有：BIRCH算法、CURE算法、CHAMELEON算法等；

　　密度算法
　　基于密度的方法(density-based methods)，基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。
　　这个方法的指导思想就是，只要一个区域中的点的密度大过某个阈值，就把它加到与之相近的聚类中去。
　　代表算法有：DBSCAN算法、OPTICS算法、DENCLUE算法等；

　　图论聚类法
　　图论聚类方法解决的第一步是建立与问题相适应的图，图的节点对应于被分析数据的最小单元，图的边（或弧）对应于最小处理单元数据之间的相似性度量。因此，每一个最小处理单元数据之间都会有一个度量表达，这就确保了数据的局部特性比较易于处理。图论聚类法是以样本数据的局域连接特征作为聚类的主要信息源，因而其主要优点是易于处理局部数据的特性。

　　网格算法
　　基于网格的方法(grid-based methods)，这种方法首先将数据空间划分成为有限个单元（cell）的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。
　　代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法；

　　模型算法
　　基于模型的方法(model-based methods)，基于模型的方法给每一个聚类假定一个模型，然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是：目标数据集是由一系列的概率分布所决定的。
　　通常有两种尝试方向：统计的方案和神经网络的方案。

有哪些常用的聚类算法

4. 老师让学习人工智能中常用分类和聚类算法和scilearn包的使用，请问应该怎么学习？

Scikit-learn
Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块，他的特色就是多样化的分类，回归和聚类的算法包括支持向量机，逻辑回归，朴素贝叶斯分类器，随机森林，Gradient Boosting，聚类算法和DBSCAN。而且也设计出了Python numerical和scientific libraries Numpy and Scipy
2.Pylearn2
Pylearn是一个让机器学习研究简单化的基于Theano的库程序。
3.NuPIC
NuPIC是一个以HTM学习算法为工具的机器智能。HTM是皮层的精确计算方法。HTM的核心是基于时间的持续学习算法和储存和撤销的时空模式。NuPIC适合于各种各样的问题,尤其是检测异常和预测的流数据来源。
4. Nilearn
Nilearn 是一个能够快速统计学习神经影像数据的Python模块。它利用Python语言中的scikit-learn 工具箱和一些进行预测建模，分类，解码，连通性分析的应用程序来进行多元的统计。
5.PyBrain
Pybrain是基于Python语言强化学习，人工智能，神经网络库的简称。 它的目标是提供灵活、容易使用并且强大的机器学习算法和进行各种各样的预定义的环境中测试来比较你的算法。
6.Pattern
Pattern 是Python语言下的一个网络挖掘模块。它为数据挖掘，自然语言处理，网络分析和机器学习提供工具。它支持向量空间模型、聚类、支持向量机和感知机并且用KNN分类法进行分类。
7.Fuel
Fuel为你的机器学习模型提供数据。他有一个共享如MNIST, CIFAR-10 (图片数据集), Google’s One Billion Words (文字)这类数据集的接口。你使用他来通过很多种的方式来替代自己的数据。
8.Bob
Bob是一个的信号处理和机器学习的工具。它的工具箱是用Python和C++语言共同编写的，它的设计目的是变得更加高效并且减少开发时间，它是由处理图像工具,音频和处理、机器学习和模式识别的大量包构成的。
9.Skdata
Skdata是机器学习和统计的数据集的库程序。这个模块对于玩具问题，流行的计算机视觉和自然语言的数据集提供标准的Python语言的使用。
10.MILK
MILK是Python语言下的机器学习工具包。它主要是在很多可得到的分类比如SVMS,K-NN,随机森林，决策树中使用监督分类法。 它还执行特征选择。 这些分类器在许多方面相结合,可以形成不同的例如无监督学习、密切关系金传播和由MILK支持的K-means聚类等分类系统。
11.IEPY
IEPY是一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。
12.Quepy
Quepy是通过改变自然语言问题从而在数据库查询语言中进行查询的一个Python框架。他可以简单的被定义为在自然语言和数据库查询中不同类型的问题。所以，你不用编码就可以建立你自己的一个用自然语言进入你的数据库的系统。
现在Quepy提供对于Sparql和MQL查询语言的支持。并且计划将它延伸到其他的数据库查询语言。
13.Hebel
Hebel是在Python语言中对于神经网络的深度学习的一个库程序，它使用的是通过PyCUDA来进行GPU和CUDA的加速。它是最重要的神经网络模型的类型的工具而且能提供一些不同的活动函数的激活功能，例如动力，涅斯捷罗夫动力，信号丢失和停止法。
14.mlxtend
它是一个由有用的工具和日常数据科学任务的扩展组成的一个库程序。
15.nolearn
这个程序包容纳了大量能对你完成机器学习任务有帮助的实用程序模块。其中大量的模块和scikit-learn一起工作，其它的通常更有用。
16.Ramp
Ramp是一个在Python语言下制定机器学习中加快原型设计的解决方案的库程序。他是一个轻型的pandas-based机器学习中可插入的框架，它现存的Python语言下的机器学习和统计工具（比如scikit-learn,rpy2等）Ramp提供了一个简单的声明性语法探索功能从而能够快速有效地实施算法和转换。
17.Feature Forge
这一系列工具通过与scikit-learn兼容的API，来创建和测试机器学习功能。
这个库程序提供了一组工具，它会让你在许多机器学习程序使用中很受用。当你使用scikit-learn这个工具时，你会感觉到受到了很大的帮助。（虽然这只能在你有不同的算法时起作用。）
18.REP
REP是以一种和谐、可再生的方式为指挥数据移动驱动所提供的一种环境。
它有一个统一的分类器包装来提供各种各样的操作，例如TMVA, Sklearn, XGBoost, uBoost等等。并且它可以在一个群体以平行的方式训练分类器。同时它也提供了一个交互式的情节。
19.Python 学习机器样品
用的机器学习建造的简单收集。
20.Python-ELM
这是一个在Python语言下基于scikit-learn的极端学习机器的实现。

5. 自学数据分析需要看哪些书的

第一大类：理论类。 理论层面的书籍，比如《大数据时代》 、《数据之巅》 。 

第二大类：技术类。 技术层面的书籍，比如《Hadoop技术内幕》系列。这一类的书籍，主要是指系统技术类，在构建大数据系统时，系统如何运作，各系统组件的设计目标、框架结构、适用场景、工作原理、运作机制、实现功能等等。这类书籍，适合于IT系统部，开发部的技术人员。他们需要明白系统的运作机制，利用系统来实现大数据的应用开发，以及系统运维优化等。     

第三大类：应用类。 应用层面的书籍，比如《数据挖掘技术》 、《基于SPSS的数据分析》等等。 这一类的书籍，主要是指应用技术类，告诉你如何应用工具和方法，从海量数据中提取有用的信息，来解决真实的业务问题。这类书籍，适合于业务部门、市场营销部门及与业务结合比较紧密的人员。他们更关注业务问题的解决，围绕业务问题来构建分析和解决方案。

自学数据分析需要看哪些书的

6. 算法之道的图书目录

前言第一篇 算法基础篇第1章 从无有到无穷 21.1 意念与现实 31.2 什么是算法 41.3 算法的表示 61.4 算法之魂 71.5 如何比较速度 81.6 算法与计算机的关系 91.7 算法的范畴 101.8 为什么学习算法 10思考题 11第2章 计数与渐近 122.1 算法的分析 122.1.1 正确性分析 132.1.2 时空效率分析 142.1.3 时空特性分析 142.2 计数：算法分析的核心 142.3 算法设计 152.4 算法效率表示 162.5 渐近分析 172.6 O表示 182.7 最好、最坏、平均 192.8 O的另一类定义 212.9 O的性质 222.10 要更快的计算机还是要更快的算法 22思考题 23第3章 分治与递归 253.1 分而治之为上策 263.2 分治策略 283.3 递归表达式求解 293.3.1 递归树法 293.3.2 替换解法 303.3.3 大师解法 323.4 分治策略举例1：乘方运算 353.5 生命不能承受之重：矩阵乘法 363.6 魔鬼序列：斐波那契序列 383.7 VLSI 布线 413.8 多项式乘法 433.9 分治就在潜意识深处 43思考题 43第二篇 算法设计篇第4章 动态规划思想 464.1 什么是动态规划 474.2 流水装配线问题 484.3 最长公共子序列 524.3.1 第一种解法：蛮力策略 524.3.2 第二种解法：动态规划 534.4 最长公共子序列变种 554.5 记忆递归法 554.6 空间效率改善 564.7 最优二叉搜索树 564.7.1 递归解法 594.7.2 计算最优答案 594.8 最优子结构与重叠子问题 624.8.1 最优子结构 624.8.2 重叠子问题 634.9 动态规划与静态规划的关系 634.10 动态规划与静态规划的相互转换 64思考题 65第5章 贪婪选择思想 675.1 仅有动态规划是不够的 675.2 什么是贪婪 685.3 背包问题 685.4 贪婪选择属性 715.5 教室规划问题 725.6 最小生成树 765.6.1 Kruskal算法的正确性 795.6.2 Kruskal算法的时间分析 805.7 Prim算法 805.8 霍夫曼树和霍夫曼编码 835.8.1 霍夫曼树 855.8.2 霍夫曼编码 865.8.3 霍夫曼编码的无前缀编码性质 875.9 贪婪选择属性 885.10 标准分治、动态规划和贪婪选择的比较 89思考题 90第6章 随机化思想 926.1 为什么要随机化 936.2 随机的平方 946.3 什么是随机化算法 956.4 拉斯维加斯算法 966.5 蒙特卡罗算法 976.6 素性测试 976.7 矩阵乘积验证器 1006.8 随机化最小生成树算法 1026.8.1 Karger-Klein-Tarjan算法 1036.8.2 节点降低算法 1036.8.3 线性时间最小生成树算法 1046.8.4 线性时间最小生成树算法的时间成本分析 1046.9 随机数的生成 1056.10 随机化算法的应用 105思考题 106第三篇 算法分析篇第7章 概率分析 1087.1 一切都在概率中 1097.2 什么是概率分析 1097.3 梦幻情人的代价 1107.3.1 直接分析 1127.3.2 最坏情况分析 1137.3.3 最好情况分析 1137.3.4 平均情况分析 1137.3.5 平均情况下成本的概率分析 1137.4 概率分析结果的有效性 1147.5 正确概率分析的保障 1157.6 梦幻情人的概率 1157.7 随机排列问题 1177.8 南柯一梦：从无穷到无有 1197.9 概率分析的其他应用 120思考题 121第8章 摊销分析 1228.1 什么是摊销分析 1238.2 摊销分析与数据结构 1248.3 摊销分析的几种方法 1248.4 聚类分析 1258.4.1 栈操作的聚类分析 1258.4.2 二进制计数器的聚类分析 1268.5 会计分析 1288.6 势能分析 1308.6.1 栈操作的势能分析 1308.6.2 二进制计数器的势能分析 1318.7 摊销分析应用：表格扩展的代价 1318.7.1 动态表插入操作的聚类分析 1348.7.2 动态表插入操作的会计分析 1348.7.3 动态表插入操作的势能分析 1368.8 运气不好就摊销 137思考题 138第9章 竞争分析 1399.1 什么是竞争分析 1399.2 在线算法和离线算法 1419.3 竞争力 1429.4 健忘对手和优良对手 1429.5 线性表更新问题 1439.6 前置移动算法的竞争分析 1459.7 聚类问题 1479.7.1 聚类问题的次优解算法 1489.7.2 CLUSTERING-ALGORITHM算法的竞争分析 1489.8 竞争分析与普通算法分析 149思考题 149第四篇 经典算法篇第10章 排序和次序 15210.1 排序无处不在 15210.2 插入排序 15310.2.1 插入排序的效率分析 15410.2.2 折半插入排序 15510.3 归并排序 15610.4 快速排序 15810.4.1 快速排序的过程 15810.4.2 快速排序的时间复杂性分析 15910.4.3 最坏情况分析 16010.4.4 最好情况分析 16010.4.5 平均情况分析 16110.5 随机化快速排序 16210.6 排序的下限 16410.7 线性排序 16510.8 计数排序 16610.9 基数排序 16810.9.1 基数排序的正确性 16910.9.2 基数排序的时间效率分析 17010.10 桶排序 17110.10.1 桶排序的定义 17210.10.2 桶排序的正确性 17310.10.3 桶排序的时间复杂性分析 17310.11 次序选择 17510.12 快速次序选择算法 17610.13 随机快速次序选择算法 17810.14 最坏情况下的线性选择算法 17910.14.1 杠杆点好坏分析 18010.14.2 算法的时间复杂性分析 181思考题 181第11章 搜索与哈希 18311.1 搜索问题 18411.2 顺序搜索 18411.3 折半搜索 18511.4 常数搜索 18611.5 哈希搜索 18711.6 哈希函数选择 18911.6.1 直接哈希 18911.6.2 除法（模除法）哈希 19011.6.3 乘法哈希 19111.6.4 乘法哈希的赌徒原理 19211.6.5 乘方取中法 19311.7 哈希算法的碰撞问题 19311.7.1 开放寻址哈希 19311.7.2 开放寻址哈希的时间成本 19411.7.3 开放寻址下成功搜索的时间成本 19511.7.4 封闭寻址哈希 19611.7.5 探寻序列的设计 19711.7.6 封闭寻址哈希的效率分析 19911.7.7 搜索不成功的时间成本 19911.7.8 成功搜索的效率分析 20111.8 哈希表元素删除 20111.9 随机化哈希 20211.10 全域哈希 20311.11 全域哈希构造 20411.12 完美哈希 206思考题 208第12章 最短路径 21112.1 剑指罗马 21112.2 最短路径问题 21312.3 单源单点最短路径问题 21512.3.1 深度优先搜索与广度优先搜索 21512.3.2 深度优先解法 21712.4 单源多点最短路径问题 21812.4.1 最短路径的性质 21912.4.2 Dijkstra最短路径算法 22012.4.3 Dijkstra算法举例 22112.4.4 Dijkstra算法与洪水泛滥 22212.4.5 Dijkstra算法的正确性 22312.4.6 Dijkstra算法的时间复杂性 22412.5 Bellman-Ford算法 22612.5.1 负权重的应对方式 22712.5.2 Bellman-Ford算法的正确性 23012.5.3 负循环检查问题 23112.5.4 Bellman-Ford算法的时间复杂性 23112.6 多源多点最短路径问题 23212.6.1 多源多点最短路径问题解决思路 23212.6.2 直接动态规划解法 23312.6.3 矩阵乘法解法 23412.6.4 Floyd-Warshall 算法 23512.6.5 Johnson 算法 23612.6.6 Johnson等效变换 23712.6.7 差限问题解决 23812.7 天意难违 240思考题 240第五篇 难解与无解篇第13章 可解与不可解 24413.1 我们战无不胜吗 24513.2 易解与难解 24513.3 决策问题和优化问题 24613.4 决策问题 24713.5 P类问题 24713.6 NP类问题 24813.7 （确定性）图灵机 24913.8 非确定性图灵机 24913.9 非确定性算法 25013.10 回到NP类问题 25113.11 P和NP 25213.12 搜索问题、决策问题和优化问题 25313.13 有没有解和是否可决定 253思考题 254第14章 NP完全问题 25614.1 玉龙雪山下的审判 25614.2 NP完全问题的定义 25714.3 NP完全的重要性 25814.4 多项式时间规约 25914.5 如何证明一个问题S是NP完全 25914.6 第1个NP完全问题的证明 26014.7 库克定理 26014.8 3-SAT问题 26314.9 证明NP难的技巧 26414.10 整数规划 26514.11 独立集问题 26614.12 汉密尔顿回路问题 26814.13 讨论：弱NP完全、强NP完全和中NP完全 271思考题 272第15章 无解与近似 27315.1 难解问题 27415.2 不可决定问题 27415.3 程序终结的判断 27515.4 难解之题的求解 27615.5 智能穷举、近似算法和本地搜索 27715.6 智能穷举之回溯策略 27915.7 智能穷举之分支限界 28015.8 贪婪近似策略 28015.9 启发式搜索策略 28115.10 模拟淬火算法 28215.10.1 模拟淬火算法的思想 28415.10.2 模拟淬火算法的基本循环 28415.10.3 淬火算法描述 284思考题 286结语 算法之道 288附录 算法随想 290参考文献 293

7. 人工智能领域有哪些书比较值得推荐

机器学习
Programming Collective Intelligence
本书以机器学习与计算统计为主题背景，专门讲述如何挖掘和分析Web上的数据和资源，如何分析用户体验、市场营销、个人品味等诸多信息，并得出有用的结论，通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息，以便创造新的用户价值和商业价值。
全书内容翔实，包括协作过滤技术（实现关联产品推荐功能）、集群数据分析（在大规模数据集中发掘相似的数据子集）、搜索引擎核心技术（爬虫、索引、查询引擎、PageRank算法等）、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术（垃圾邮件过滤、文本过滤）、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。本书是Web开发者、架构师、应用工程师等的绝佳选择。
Machine Learning for Hackers
Machine Learning for Hackers （中文译名：机器学习-实用案例解析）通过实例讲解机器学习算法，用R实现的，可以一边学习机器学习一边学习R。这是一本实操型的书，重点放在讲怎么用R做数据挖掘，机器学习的算法更多的是通过黑箱的方式来讲，强调input,output含义，弱化机器学习算法细节。文中基本都是通过case来讲述怎么去解决问题，并且提供了原始数据供自己分析。适合两种人：
（1）有过机器学习的一些理论，缺少案例练习
（2）只需掌握怎么用通用的机器学习解决问题的人，只希望知道机器学习算法的大致思想，不想详细学习机器学习中的算法。
Machine Learning by Tom M Mitchell
《Machine Learning》展示了机器学习中核心的算法和理论，并阐明了算法的运行过程。《Machine Learning》综合了许多的研究成果，例如统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等，并以此来理解问题的背景、算法和其中的隐含假定。《机器学习》可作为计算机专业 本科生、研究生教材，也可作为相关领域研究人员、教师的参考书。
The Elements of Statistical Learning
《The Elements of Statistical Learning》介绍了这些领域的一些重要概念。尽管应用的是统计学方法，但强调的是概念，而不是数学。许多例子附以彩图。《The Elements of Statistical Learning》内容广泛，从有指导的学习（预测）到无指导的学习，应有尽有。包括神经网络、支持向量机、分类树和提升等主题，是同类书籍中介绍得最全面的。
计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战，这导致了统计学领域新工具的发展，并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础，但常常用不同的术语来表达。
Learning from Data
这是一门机器学习（ML）的入门课程，涵盖其基本理论、算法及应用。机器学习是大数据及金融、医药、商业及科研应用的关键技术。机器学习使得计算系统能够自动学习如何通过数据中提取的信息执行目标任务。机器学习现已成为当下最热门的研究领域之一，也是加州理工学院15个不同专业的本科生和研究生的研修课程。本课程在理论和实践中保持平衡，并涵盖了数学与启发式方法。
Pattern Recognition and Machine Learning
这本书是机器学习的神作之一，必读经典！
人工智能
Artificial Intelligence: A Modern Approach
《Artificial Intelligence: A Modern Approach》以详尽和丰富的资料，从理性智能体的角度，全面阐述了人工智能领域的核心内容，并深入介绍了各个主要的研究方向，是一本难得的综合性教材。
Artificial Intelligence for Humans
这本书阐释了基本的人工智能算法，如维度、距离度量、聚类、误差计算和线性回归等，用了丰富的案例进行阐释。需要较好的数学基础。
Paradigm of Artificial Intelligence Programming
本书介绍了出色的编程范式和基本的AI理论，是致力于人工智能领域的小伙伴的必读之作。
Artificial Intelligence: A New Synthesis
本书提出了统一人工智能理论的新的集成方法，涵盖了诸如神经网络，计算机视觉，启发式搜索，贝叶斯网络等。进阶选手必读。
The Emotion Machine: Commonsense Thinking, Artificial Intelligence and the Future of Human Mind
在这部让人脑洞大开的图书中，科技先锋马文·明斯基继续了他极具创造力的研究，给我们呈现了一个全新的不可思议的人类大脑运转模式。
Artificial Intelligence (3rd Edition)
这是一本关于人工智能的入门书。没有编程基础的人也可以很容易地理解其中的解释和概念。化繁为简，但也包含了高层次的人工智能领域的探讨。

人工智能领域有哪些书比较值得推荐

8. 文本聚类算法真正能实用的有哪些算法？

在文本信息空间内寻找任何两个最相关的文本信息，并将之简并成一个文本信息，从而实现信息数量的收缩。
简并算法的实现通过比较整个信息空间内的所有文本的相关性（相识性），得到相互之间的相关性后两两(注)进行配对。配对的要求是这两个文本信息的相关性最大，例如A 找到了文档B，那么B 也一定找到最相关的文档就是A 。

注，某些情况A 最相近的文档是C ，那么B 而B 最相关的文档也是C ，存在一种情况，A,B,C 三者之间自恰，就是构成空间信息最近的一个三角形。

得到了最相似文档后，将只进行平均化，或者简单的迭加。

信息空间中独立信息的数量会减少到原来的一半以下，然后重复实现1 的过程，在进行兼并。

 信息最后简并到唯一的一个信息，就是整个信息文本的平均值。

画出信息树的结构，就能够根据要进行规模不同大小的聚类进行自动聚类了。