1、,天文学中的数据挖掘,张彦霞,国家天文台,2014.2.24,概要,必要性概念技术问题展望,天文学、天体物理学、天文统计学、天文学信息学,天文学是研究宇宙空间天体、宇宙的结构和发展的学科。内容包括天体的构造、性质和运行规律等。主要通过观测天体发射到地球的辐射,发现并测量它们的位置、探索它们的运动规律、研究它们的物理性质、化学组成、内部结构、能量来源及其演化规律。天文学是一门古老的科学,自有人类文明史以来,天文学就有重要的地位。天体物理学是研究宇宙的物理学,这包括星体的物理性质(光度、密度、温度、化学成分等等)和星体与星体彼此之间的相互作用。应用物理理论与方法,天文物理学探讨恒星结构、恒星演化、
2、太阳系的起源和许多跟宇宙学相关的问题。天文统计学是用统计学的知识来解决天文问题.天文信息学是用信息技术来解决天文学所面临的各种大数据问题.,Astronomy facing“data avalanche”,IRAS 25m 2MASS 2m DSS Optical IRAS 100m WENSS 92cmNVSS 20cm GB 6cm ROSAT keV,Necessity Is the Mother of Invention,DM&KDD,大数据-巨信息量-全波段天文时代,大型巡天导致天文学步入一个新的时代,大多数数据大的人们无法看这就需要存储技术、网络技术、数据库相关技术和标准等许多知识
3、被数据的复杂性所掩盖而难以获得大多(不是所有的 )经验关系是建立在3维参数空间基础上的,如椭圆和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见?大部分数据人们是无法直接理解的这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、人工智能 / 机器帮助的发现数据挖掘是帮助和加速科学发现过程的利器, 大数据, 机器学习, 可视化, 云服务,Credit:Tony Hey,天文数据的特点,空间性多波段性海量性非线性异构性缺值性或坏标记分布性高维性时序性开放性,海量数据,NVO (IVOA) 注册的数据资源有14,000一些大型的天文数据库包括NASA空间天文项目已经完成或正在进行的大型天文巡
4、天项目,如: MACHO 和相关的暗物质巡天: 1 TB DPOSS: 3 TB 2MASS: 10 TB GALEX: 30 TB, SDSS:,40 TB,将来的巨型巡天项目,如: PanSTARRS:每晚 10 TB,,预计最终40 PB SKA:2020年中期运行,每天约0.5-10PBLSST (Large Synoptic Survey Telescope): 2020开始运行, with 3-Gigapixel camera 每30秒10 GB 每晚 30 TB,持续十年 预计最终的图像数据100 PB 预计最终的星表数据30 PB 每三晚巡全天一次: 制作天体的电影,数据的大小
5、和增长速度都在持续增长,人类基因序列由约三十亿个碱基对组成。存储要求:约750兆,15亿个传感器每秒传输四千万次数据流:约每秒700MB,约每天15PB,来自34个国家的1000名科学家参与该项目,成千上万的小型天线阵分布在三千多米范围内数据流:约每秒60GB,一天一百万PBSKA超级计算机约1亿台,,每秒要执行1018次操作,天文数据的常用类型,光谱数据图像数据星表数据时序数据模拟数据,星系的图像和光谱、恒星和气体的光谱早型星晚型星气体,气体,星系,天文学: 数据驱动的科学,天文学:是发现驱动的科学 驱动发现的因素:, 新问题 新的思想 新模型 新理论 更重要的是新数据!,天文学:是发现驱动
6、的科学, 发现导致:, 新的问题 新思想 新模型 新理论, 更重要的是 . 更多的新数据!, 因此,需要更有效的挖掘和分析算法或工具,天文学家一直在从事数据挖掘,“The data are mine, and,you cant have them!”, 严格意义上讲 ., 天文学家喜欢对事物进行分类 .,(监督学习. 如,分类), 天文学家喜欢对事物归类 .,(非监督学习. 如,聚类), 天文学家更希望发现新的天体或现象 .,(半监督学习. 如, 离群探测),天文中的数据挖掘课题,过去 : 100到1000个独立的分布的异构数据 / 元数据 /信息库 .目前 : 天文数据可以从融合的分布资源中
7、获得,如虚拟天文台 .将来 : 随着大型巡天项目的发展,天文学在未来将越来越成为数据密集型的科学 .挑战 : 越来越难于将数据传输到用户 算法移植到数据 !,天文学研究的转变,科学研究的四个阶段,第一范式实验或测量第二范式理论分析第三范式数值模拟第四范式数据密集型的科学Data Fusion+DM+ML,数据驱动到数据密集,天文学一直以来就是数据驱动的科学现在成为数据密集型的科学:天文信息学(Astroinformatics )!,面向数据的天文学研究= “第四范式”科学知识发现第四范式: 数据密集型的科学发现Scientific Knowledge ! 大数据集的优点: 很好地统计分析典型或
8、特殊事件 自动搜寻稀有事件,数据量,科学是数据密集型的,大数据五“ V”特点:Volume (数据量 )Variety (多样性)Value (价值密度低)Velocity (速度快时效高)Veracity (真实性), 超大型数据集 数据迁移代价高 学科标准 高效计算的需求 超算、HPC、网格如:高能物理、天文学,大型数据集,学科内标准共享数据中心合作研究,如:基因组学、金融,中型或小型数据集普通文档、EXEl广泛应用的各类数据、标准少,本地服务器或计算机,如:社会科学、人文科学研究人员数目,数据挖掘:从大量的、不完全的、有噪声的、,模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不
9、知道的、但又是潜在有用的信息和知识的过程。,在天文学中,从海量天文数据中发现稀有或未知类型天体或天文现象。,数据挖据的定义,数据挖掘:知识发现的过程,数据挖掘知识发现过程的核心课题定义数据预处理特征抽取/选择数据挖掘模型选择实验结果的解释预评估,模式评估数据挖掘整个过程是不断重复和互动的,为的是获得更优的模型和更好的参数 组 合 , 速度计算能力专家知识,有效的数据挖掘分解图,知识库的语义创建,模型和算法,星表和元数据,知识,数据(存储)透明的计算架构(网格、云、,人工神经网络支持矢量机决策树遗传算法近邻算法规则推导粗糙集,数据挖掘的常用技术,数据总结分类分析聚类分析回归分析关联规则分析序列模
10、式分析依赖关系分析偏差分析模式分析或统计分析时序数据分析其它,数据挖掘的任务,分类分析(known knowns),定义,按照某种规则,新的数据被划分到已知类别中的一类。这个规则是通过具有标签的数据进行监督学习获得的。,应用,恒星分成不同的光谱型,星系按哈勃或形态分类,活动星系核进一步细分,等等,方法,神经网络决策树Nave Bayesian Networks支持矢量机学习矢量量化遗传算法.,分类器可以沿几个正交的轴来训练,探索所有的维数比较困难不同的任务需要不同的分类器来实现.,采用何种分类器?分类算法,决策树, OC1神经网络最近邻规则或其他算法,观测参量流量, 位置, 色参数, 变化参量
11、,空间扩展, ,训练样本WGACAT, ROSAT AllSky Survey, .,X射线, 可见光, 红外, .分类粗分: 恒星 vs. 河外天体细分: A0 vs. B0, AGN vs. QSO vs. 星系,聚类分析(uknown uknowns),定义:,按照某种规律聚在一起的称为一类。所用的数据是无标签的,通过非监督的学习方式训练数据,类间的差异尽可能地大,而类内的差异尽可能地小。,应用:,SDSS的双色图恒星聚在一块 如香蕉状,类星体则偏离该区域。,方法:,K均值聚类Hierarchical clustering预期最大算法(Expectation Maximization a
12、lgorithm)高斯混合模型(Gaussian mixture modeling)主成分分析,优越性,新的概念(Concept discovery)点滴知识(Bootstrapping knowledge),聚类分析,回归分析(known uknowns),定义,将一个连续应变量建模为一个或多个预测元的函数。这个规则是通过具有标签的数据进行监督学习获得的。,应用,恒星物理参数(Teff、g、Fe/H)的测量,星系和类星体的测光红移,等等,方法,神经网络决策树kNN支持矢量机核回归., N 10 , 如何有效地排序、分类?,基本的天文问题 1,聚类问题:,在数据集中查找聚类的天体统计意义和科学
13、意义上各个类别的重要性是什么?找“朋友的朋友”或近邻的最优算法?10 维数 1000 因此, 若干子空间搜索问题是否存在两点或更高阶的相关性? N 1010, N-point 相关怎么做? 与N2logN成正比的算法显然不能用,基本的天文问题 2,离群探测: (未知的未知),找到那些超出我们预期的天体或事件 (不属于,已知类别) 这些有可能是真正的科学发现或垃圾 因此,离群探测可用于:,新奇发现 Nobel prize?, 异常探测 探测系统是否正常工作? 数据质量保证 数据流是否正常工作?,在1000维空间中或感兴趣的子空间(低维空间),中,如何最优化地探测到离群? 怎样衡量“兴趣度”?,降
14、维问题:,寻找相关性和参数的基平面,维数成千上万 维灾 !参数之间的相关性?线性或非线性混合?本征值或紧致表示是否可以代表整个数据集的性质?,基本的天文问题 3,基本的天文问题 4,叠加和分解问题:,在参数空间中重叠的天体找出它们的所属类别假设1010 天体在1000维空间中重叠怎么办?, 如何最优地分解和抽取不同类型的天体? 一些约束条件如何应用?,最优化问题:,在高维参数空间中如何找到复杂的多变量函数的最优解(最佳拟合、全局最大似然),基本的天文问题 5,“Just,Checking”,为什么需要分布的数据挖掘?由于 许多重大的科学发现产生于多数据源的交叉证认:- 类星体- Gamma-r
15、ay bursts- 极亮红外星系- X射线黑洞双星- 射电星系,.,天文数据的分布性,不同的人、研究所、项目、国家、机构, , 数据的异构性 (如,数据库, 图像, 星表, 文件系统, 网页, 文档数据图书馆, 二进制, 文本,结构的,非结构的, ) 天文学家要查询和挖掘这些数据需要进行两步操作 尽管虚拟天文台驱动数据发现和融合,但是仍然不能有助于大型数据挖掘的开展,分布的数据挖掘,分布的数据挖掘有两种类型:,1.,分布的挖掘数据,2. 挖掘分布的数据,第一类要求复杂的算法移植到数据第二类多种形式, 数据整体存放或分割上集中,或者数据分布存放在不同的地方,实践数据挖掘,线性或非线性, 高斯或
16、非高斯 连续或离散 是否存在缺值 对比特征和样本数 按照数据挖据的任务和特征,选择合适的数据挖掘算法,未来天文数据的挑战,统计、计算和挖掘方法用于peta-和 exa- 量级的可扩张性在海量多维数据空间中同时多点拟合的算法优化用于探索PB 级数据的紧致表示的多分辨率、多级、分形、分级方法和结构PB 量级数据的可视化分析 ( 包括特征探测, 模型和有趣事件或天体的发现, 相关关系、聚类 , 新类型天体的 发 现 , 降 维 )高维 PB 级数据的索引和联合存储技巧(树、图、网络拓扑)PB 级数据库的快速查询和搜索方法,主要挑战知识发现工具,可用性、可扩展性、互动的数据挖掘+可视化机器学习/人工智
17、能和人机交互的发现,社区的认知和职业规划,改变科学届/ 学术届的文化奖励和认可机制,超高维数据空间的可视化,优化人类感知和理解可视化的数据探索和发现,出版和合作的新形式,超出论文的范畴;较好的合作工具,培养新一代的科学家,更好地使用在线的学习工具和方法,最为成功的巡天项目SDSS,发表 SCI论文 5600余篇,SDSS的主要科学发现,发现红移高于6的类星体褐矮星引力透镜银河系的子结构小的低表面亮度星系超高速星重子声波振荡小行星家族,http:/ 球状星团搜寻多波段测光暂源分类 天文图像分割,http:/ Analysis for the Virtual ObservatoryVOStat项目
18、通过网页服务为天文学家提供了一套工具。天文学家可以按照需要调用简单的或复杂的程序来实现自己的任务。这套工具是基于大的开源的统计计算语言和环境 R 开发的。所有的统计计算在VOStat 的服务器端进行,算完后再传给用户 。,天文会议或组织,ADASSADSSummer School in Statistics for AstronomersStatistical Challenges in Modern AstronomyAstroinformaticsAstrostatisticsAstrostatistics and Astroinformatics PortalASAIP: https:/asaip.psu.edu,