1、機械学習基日本語解析,奈良先端科学技術大学院大学 情報科学研究科 松本裕治,2003年6月10日(火) 静岡大学情報学部,形態素解析,文単語区切、品詞同定処理 以下処理成 単語分書(tokenization) 文単語単位文字列分処理 活用語処理(stemming, lemmatization) 英語動詞名詞語尾、日本語活用語語尾処理、原型活用形情報得処理 品詞同定(part-of-speech tagging) 個単語品詞推定処理,形態素解析問題点,処理曖昧性発生 単語分書 日本語単語区切、分書曖昧性問題深刻 英語、単語、例外多。 句読点区切。 常句読点限(Mr., U.S.A., Im )
2、複数語語働場合(“New York” “with regard to” ) 活用語処理 品詞同定 同形語複数品詞活用形可能性場合,形態素解析必要事項,基本的処理: 辞書単語引、与文照合、最自然単語列求 辞書 入力文文字列(単語毎区切) 文字列対象辞書引自明 解探索 可能単語組合(何基準)最適単語列発見 単純全探索行計算量膨大 動的計画法基用(Viterbi algorithm),形態素解析辞書構成,文含単語、実数 単語毎区切文正、8単語単語 / 毎 / / 区切 / / / / 現在辞書形態素検索、上文69語異単語含 入力文部分文字列対辞書引行、効率悪 辞書構成工夫必要 部分文字列高速検索構造
3、提案 TRIE構造、木、Suffix array ,日本語処理辞書要件,単語区切明確、先頭何文字単語。先頭文字、文字順番辞書引?、辞書引対象接頭部分重文字列効率的検索方法必要 TRIE構造,奈良先端科学技術大学院大学情報科学研究科,辞書検索構造:TRIE,TRIE: 文字毎持木構造,a,b,c,z,b,a,c,k,c,d,b,l,e,d,i,e,s,e,a,t,t,u,a bide aba ca aback case abc cat ad cute bib bible,e,上単語登録TRIE 赤丸単語終了位置表,辞書検索構造:TRIE,日本語同様,奈,大,轟,先,端,大,県,良,庁,大,学,阪
4、,府,洋,平,赤丸単語終了位置表,TRIE特徴,対象文字列先頭文字順番、単語検索可能 入力文字列長比例時間探索可能 辞書引終了自動的 TRIE葉末端来、検索対象文字対応枝場合探索終了 TRIE欠点 効率悪 各節点数枝出、木下方、節点少数枝 節点構造効率極悪 日本語場合、文字種(数千種類)出力枝各節点持現実的不可能,TRIE構造実現工夫,日本語場合: 各文字(文字)出力枝、節点作 、中間節点(文字数字除)無駄、効率大幅(各節点出力枝数高28 =128本) 、多節点、遥少枝、各節点無駄領域持 問題解決策 配列領域圧縮 2分木再構成 木,分木用TRIE,文字2進数表示考 各節点、枝(対応)持 枝関無
5、駄領域大幅削減、無駄節点多数,文字 2進数表現進木 位置対応,分木TRIE特徴欠点,分木節点出力、表現 、実際単語登録、節点、本枝必要,0,0,0,0,0,1,1,1,1,1,1,1,1,0,a=01100001,b=01100010,c=01100011,枝分,木,分木TRIE枝分縮退、途中節点設 枝分岐、節点作 各節点、自分何目節点情報,4,7,8,8,1,10,9,12,0,0,0,0,0,0,1,1,1,1,1,1,節点書数字、 入力文字列何目 0, 1値確認、 意味,a=01100001,b=01100010,c=01100011,木特徴,分木TRIE比較、枝分岐節点設特徴:記憶効率
6、大幅向上 各節点、指定0,1 最終的検索成功時点改検索文字照合行必要,4,7,8,8,1,10,9,12,0,0,0,0,0,0,1,1,1,1,1,1,節点書数字、 入力文字列何目 0, 1値確認、 意味,a=01100001,b=01100010,c=01100011,規則基形態素解析,基統計的学習行最近傾向比、人手規則基解析行方法80年代以前主流。 規則()基手法 最長一致法 与文単語切際、最綴長単語優先。 分割数最小法 文全体最小個数単語切単語列優先。 文節数最小法 文全体文節数最小単語列選 (文節 - 自立語列続付属語列) 方法曖昧性解消例多,規則基方法問題点,最長一致法 全日本部課
7、長会議 全日 / 本部 / 課長 / 会議全 / 日本 / 部課長 / 会議 分割数最小法 / / / / / / / / 文節数最小法 木枯 木 / / (係助詞) / / 枯 / / 木 / / (名詞) / / 枯 / / ,接続可能性規則(表)基形態素解析,最長一致法単純方法、細品詞区別。 単語、品詞連接文中現可能性規則列挙、可能品詞列解求方法 連接可能性規則表、品詞(単語)次元行列表 文法的不自然品詞連接制限、程度曖昧性解消、複数解存在可能性残,接続表最小法,単語、品詞連接文中現可能性強数値化、低品詞列解求方法 連接表、品詞(単語)行列、要素次元行列表 複数解間優劣区別 設定問題 人
8、手決、負担大 決方一貫性保難,連接表基方法問題点解決策,接続可能性規則 複数可能解間優劣。 接続最小法 人手値決定非常困難以下、確率品詞接続強測、定義。 理由:確率値逆数対数見、最小法確率等価考可能。 、正(付)(確率値)学習可能,統計情報基形態素解析,品詞付与解析済、単語出現、品詞(単語)確率値求。 文構成単語出現確率直前n-1語依存仮定言語文化 n=3 ,tri-gram model, n=2,bi-gram model。 茶筌(奈良先端大開発形態素解析) bi-gram tri-gram 混合用。文単語列与際最大出現確率品詞列求目的 、単語出現確率品詞連接確率積最大品詞列求,以下用記号説
9、明,確率最大化基形態素解析,入力文(w1,n=w1,w2,wn)与時、各単語品詞(s1,n=s1,s2,sn)求。 確率基方法、入力文対生起確率最大品詞列求,上式、s0 sn+1 、文頭文末表 特別品詞,入力文与時、品詞 s0,n+1 確率,(条件付確率定義),前式項以下簡単化,前式中確率、次見積,確率値計算例,単語生起確率 例、学校名詞中回現 、全体現名詞総数回。、学校名詞出現確率、品詞連接確率 例、中名詞回出現、直後格助詞回出現、名詞格助詞連接確率、,確率値変換,形態素解析、全体生起確率最大品詞列求帰着 確率直接扱、長文、全体生起確率非常小値、計算機起可能性 確率値、以下実数(整数値)変換
10、行。 確率値考、最大確率与品詞列考、確率値逆数対数、最小値求。 、算加算最大確率品詞列求。,確率値対数値,確率値最大品詞列求問題、確率値対数、最小対数値求問題変更 結果得、対数値和最小化問題,最大確率(最小)品詞列推法,入力文単語区切方法一意(単語境界曖昧性) 区切単語対品詞一意(品詞曖昧性) 1通単語列(w1,w2,wn)対品詞列(s0, s1, sn+1)考、確率値次、単語生起確率品詞連接確率積(実際、対数和計算),最大確率品詞列求、以下可能性、最小経路求同問題,形態素解析例,文頭,4500,4200,5700,3150,3200,1400,7100,4550,形態素解析例,文頭,4500
11、,4200,5700,3150,3200, 動詞 五段(基本) ,2700,1400,800,6900,7250,4550,1500,7900,形態素解析例,文頭,4200,5700,3150,3200,1400, 動詞 五段(基本) ,2700,1400,1300,6900,4500, 格助詞 , 助動詞 (連用) ,800,4550,1500,600,7300,8200,7650,1200,形態素解析例,文頭,4200,5700,3150,3200,1400, 動詞 五段(基本) ,2700,1400,1300,6900,4500, 格助詞 , 助動詞 (連用) ,800,4550,150
12、0,7300,600,1200,960,7400,8260,形態素解析例,文頭, 名詞 ,700, 動詞 変(基本) ,2700, 格助詞 ,1000,4200,5700,3150,3200, 動詞 五段(基本) ,800,1400, 動詞 五段(基本) ,2700,1400,1300,6900,4500, 格助詞 , 助動詞 (連用) ,800,4550,1500, 名詞 ,600,7300,600,1200,960,文末,500,7400,形態素解析例,文頭, 名詞 ,700, 動詞 変(基本) ,2700, 格助詞 ,1000,4200,5700,3150,3200, 動詞 五段(基本) ,800,1400, 動詞 五段(基本) ,2700,1400,1300,6900,4500, 格助詞 , 助動詞 (連用) ,800,4550,1500, 名詞 ,600,7300,600,1200,960,文末,500,7400,日本語形態素解析茶筌,実学習確率基最小化基日本語形態素解析 以下場所、Windows版Unix版茶筌入手可能http:/chasen.aist-nara.ac.jp/chasen/distribution.html.ja 現在、約100万語品詞情報付学習。 今回説明、直前品詞接続確率、次拡張基 部分的直前品詞列基確率用 一部品詞、品詞単位、単語単位確率値計算,