网盛创新研究院/百科/正文

朴素贝叶斯

相关新闻/

Related Info

贝叶斯定理在信息领域内有着无与伦比的地位。贝叶斯分类是一系列分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯算法（Naive Bayesian) 是其中应用最为广泛的分类算法之一。

朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。

通过以上定理和“朴素”的假定，我们知道：

P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)

分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程：第一步,建立一个模型，描述预先的数据集或概念集。通过分析由属性描述的样本（或实例，对象等）来构造模型。假定每一个样本都有一个预先定义的类，由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集，该步也称作有指导的学习。

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。决策树模型通过构造树来解决分类问题。首先利用训练数据集来构造一棵决策树，一旦树建立起来，它就可为未知样本产生一个分类。在分类问题中使用决策树模型有很多的优点，决策树便于使用，而且高效；根据决策树可以很容易地构造出规则，而规则通常易于解释和理解；决策树可很好地扩展到大型数据库中，同时它的大小独立于数据库的大小；决策树模型的另外一大优点就是可以对有许多属性的数据集构造决策树。决策树模型也有一些缺点，比如处理缺失数据时的困难，过度拟合问题的出现，以及忽略数据集中属性之间的相关性等。

解决这个问题的方法一般是建立一个属性模型,对于不相互独立的属性,把他们单独处理。例如中文文本分类识别的时候，我们可以建立一个字典来处理一些词组。如果发现特定的问题中存在特殊的模式属性，那么就单独处理。

这样做也符合贝叶斯概率原理，因为我们把一个词组看作一个单独的模式，例如英文文本处理一些长度不等的单词，也都作为单独独立的模式进行处理，这是自然语言与其他分类识别问题的不同点。

实际计算先验概率时候，因为这些模式都是作为概率被程序计算，而不是自然语言被人来理解，所以结果是一样的。

在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。但这点有待验证，因为具体的问题不同，算法得出的结果不同，同一个算法对于同一个问题，只要模式发生变化，也存在不同的识别性能。这点在很多国外论文中已经得到公认，在机器学习一书中也提到过算法对于属性的识别情况决定于很多因素，例如训练样本和测试样本的比例影响算法的性能。

决策树对于文本分类识别，要看具体情况。在属性相关性较小时，NBC模型的性能稍微良好。属性相关性较大的时候，其他的算法性能也很好，这是由于信息熵理论决定的。

朴素贝叶斯模型：

----

Vmap=arg max P( Vj | a1,a2...an)

Vj属于V集合

其中Vmap是给定一个example,得到的最可能的目标值.

其中a1...an是这个example里面的属性.

这里面,Vmap目标值,就是后面计算得出的概率最大的一个.所以用max 来表示

----

贝叶斯公式应用到 P( Vj | a1,a2...an)中.

可得到 Vmap= arg max P(a1,a2...an | Vj ) P( Vj ) / P (a1,a2...an)

又因为朴素贝叶斯分类器默认a1...an他们互相独立的.

所以P(a1,a2...an)对于结果没有用处. [因为所有的概率都要除同一个东西之后再比较大小,最后结果也似乎影响不大]

可得到Vmap= arg max P(a1,a2...an | Vj ) P( Vj )

然后

"朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。换言之。该假定说明给定实例的目标值情况下。观察到联合的a1,a2...an的概率正好是对每个单独属性的概率乘积： P(a1,a2...an | Vj ) =Πi P( ai| Vj )

....

朴素贝叶斯分类器：Vnb =arg max P( Vj ) Π i P ( ai | Vj )

Vnb = arg max P ( Vj )

此处Vj ( yes | no )，对应天气的例子。

----

标签：

网盛创新研究院/百科/正文

朴素贝叶斯

相关新闻/

头条推荐

大家都在看