第七章 多变量分析,(聚类分析、判别分析),内容背景,1、拼音输入法的数学原理 亚洲语言及所有非罗马的语言的计算机输入原本是个问题。 26个字母,10个数字外加一些控制键: 自然音节编码-偏傍笔划拆字-自然音节输入(螺旋升华过程) 汉字编码=拼音编码+消除歧义性编码 香农第一定律:任何编码的长度都不会小于它的信息熵。理论上,输入一个汉字平均敲键1.3次(安装非常大的语言模型) 2、新闻分类与定理 为了让计算机“算”新闻,要求把文字变成可以计算的一组数字,然后再设计一个算法来算出任意两篇新闻的相似性。 词是信息的载体 同一类新闻用词都是相似的,不同类新闻用词各不相同。 实词TF-IDF值的向量,计算向量间的夹角余弦,