收藏 分享(赏)

生物情報ソフトウェア特論.ppt

上传人:杨桃文库 文档编号:4881802 上传时间:2019-01-19 格式:PPT 页数:24 大小:524KB
下载 相关 举报
生物情報ソフトウェア特論.ppt_第1页
第1页 / 共24页
生物情報ソフトウェア特論.ppt_第2页
第2页 / 共24页
生物情報ソフトウェア特論.ppt_第3页
第3页 / 共24页
生物情報ソフトウェア特論.ppt_第4页
第4页 / 共24页
生物情報ソフトウェア特論.ppt_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、生物情報特論 ()近似文字列,阿久津 達也京都大学 化学研究所 ,講義予定,第回: 文字列構造 第回: 込基 第回: 近似文字列 第回: 配列解析 第回: 木構造比較:順序木 第回: 木構造比較:無順序木 第回: 文法圧縮 第回: RNA二次構造予測 第回: 質立体構造予測比較 第回: 固定部分k木 第回: 比較列挙 第回: 離散,近似文字列,近似文字列: 問題定義,入力: 出力: 以下条件満 T 中位置 j P 誤差 k 以内,誤差種類: (A) 文字異 (B) 1文字挿入 (C) 1文字削除,例: P=bcde, T=abcdfebde, k=1,例: P=bcdefgh, T=abxdy

2、eghij,k=3,編集距離: P T 距離 k P T 誤差 k,近似文字列: 動的計画法,例: P=caab,T=bccabad, O(mn)時間,Landau-Vishkin,Landau-Vishkin: ,: 見,対角線 d: j-i=d 満 Di,j 集合,表 Ld,e: Ld,e=i Di,j=e j-i=d 満最大行 i,例: 下表、 L3,0=0, L3,1=3, L3,2=4,Ld,e性質 必要記憶領域 O(kn) 対角線総数 O(n) Ld,e ek 十分 対角線沿単調増加,Landau-Vishkin,定理: 近似文字列 O(kn) 時間実行可能 (略証) 計算量解析問

3、題 while 。 、suffix tree 用、while 1回O(1)時間実行可能。, 中心部分,接尾辞木利用,while (極大伸長部分列検出)O(1)時間実行方法 S=P#T$ 接尾辞木構成 Prow+1 相当箇所 Srow+1m+n+2 対応葉 x trow+1+d相当箇所 Srow+m+2+dm+n+2 対応葉 y x y LCA(lowest common ancestor)該当部分列対応 LCA計算O(log n)長定数時間演算仮定定数時間可能,Dont Care記号 近似文字列,Akutsu: Inf. Proc. Lett. 1995,Dont Care近似文字列: 問題定

4、義,問題: P,T Dont Care記号(:任意文字可能)入良近似文字列,例: P=bc*eghi, T=a*cdefgij, k=2,Dont Care近似文字列: ,: 二方法組合,Landau-Vishkin利用 while prow+1=trow+d+1 次変更prow+1= or trow+d+1= or prow+1=trow+d+1, 、実行最悪 O(m) 時間, 利用 実行 O(M) 全体 O(kMn),定理: Dont Care記号近似文字列時間実行可能,Dont Care近似文字列: 構成,Wr,j: 満最大 h, Wr,j 構成 全体 O(m/M)n) 構成込法 O(m

5、/M)n log m)時間,作成,編集距離埋込 局所性鋭敏型,Andoni, Indyk: CACM 2008,編集距離埋込,埋込: X 距離 、Y 距離 有距離空間時、以下満 X Y 関数 、X Y 歪率 D 埋込,定理: 長 n 文字列対編集距離 O(n2) 次元 L1 空間歪率 埋込可能 Ostrovsky, Rabani: J. ACM 2007,定理: 長 n 文字列対編集距離 L1 空間埋込歪率 (log n) Krauthgamer, Rabani: Proc. SODA 2006,定理: 長 n 文字列対編集距離 log(n)O(1/) 近似O(n1+) 時間計算可能 Ando

6、ni et al.: Proc. FOCS 2010,定理: 移動操作許場合、長 n 文字列対編集距離 L1 空間歪率 O(log n log*n) 埋込可能 Cormode, Muthukrishnan: ACM Trans. Alg. 2007,埋込後高次元空間探索必要 局所性鋭敏型,局所性鋭敏型 (Locality Sensitive Hashing),高次元探索 Kd木使、一般次元高難 : 多少性許,近似近傍探索 (Approximate Neighbor Search) 入力: d次元点集合 P (|P|=n), 質問点 q, 距離 r 出力: d(p,q) r 満点、yes (p

7、出力)d(p,q)(1+)r 満点、no以外OK,局所性鋭敏型関数族,F (r,r(1+),)-局所性鋭敏型関数族 h F 選時、(p) 以下満 d(p,q)r 、Prh(p)=h(q) d(p,q)(1+)r 、 Prh(p)=h(q),命題: P2d、b=(b1,bd)P 、F=hi | hi (b)=bi 、F (r,r(1+),1-r/d,1-r(1+)/d)-LSH関数族 証明: c b 距離 r 以下、少 d-r 一致。 、hi (c)=hi (b) 確率 (d-r)/d=1-r/d 以上。,注意: 確率 h 選方,局所性鋭敏型: ,F k 個関数組合選 G 構成 G=gi | g

8、i(p)=(hi,1(p),hi,k(p), hi,jF G 個選関数(改) g1,g ,前処理: 構成 g1,g 用 個作成 各、P ,探索: i=1 i= 以下繰返 gi(q) 点、d(p,q)r 満 p 出力終了 調点合計 4 超失敗終了。 繰返終了、 d(p,q)(1+)r 満点無出力。,局所性鋭敏型: 説明,探索: i=1 i= 以下繰返 gi(q) 点、d(p,q)r 満 p 出力終了 調点合計 4 超失敗終了。 繰返終了、 d(p,q)(1+)r 満点無出力。,局所性鋭敏型: 検出確率,設定,d(p,q)r 満 p 存在時、gi(p)=gi(q) 確率,上記満 gi 存在(、p

9、検出)確率,d(p,q)(1+)r 満 p 対、gi(p)=gi(q) 確率、個入、(望)p 個数期待値 (1/n)n)=1 以下。,局所性鋭敏型: 誤検出確率,、 個入、 p 個数期待値 以下。 4 個以上点調確率 (/4)=1/4以下。 d(p,q)(1+)r 満 p 存在場合、失敗確率 1/4 以下。(no 出力欲失敗場合),局所性鋭敏型: 計算量,領域計算量: O(dn+n1+) 領域 点情報: O(dn)領域 : O(n)=O(n1+) 領域 (点情報点記憶) 探索時間計算量: O(d)=O(dn)時間 (関数O(d)時間計算可能仮定),定理: (r,r(1+),)-LSH族存在問題

10、対、O(dn+n1+1/(1+)領域、O(dn1/(1+)探索時間(高確率成功)近似近傍探索実行可能,O(log n)個作成、失敗確率 O(1/nh) 下可能,実数対応 直線射影+整数化 Datar et al.: Proc. SoCG. 2004 Rt 空間(t定数)球射影(最適) Andoni, Indyk: Proc. FOCS 2006 応用 配列比較 Buhler: Bioinformatics 2001 検出 Buhler, Tompa: J. Comp. Biol. 2002 化合物検索 Cao et al.: Bioinformatics 2010 質量分析検索 Dutta,

11、Chen: Bioinformatics 2007,拡張応用,近似文字列 動的計画法 O(mn) 時間 対角線注目、接尾辞木用 O(kn) 時間(k 許容誤差) Dont Care 記号近似文字列 +込+動的計画法 局所性鋭敏型 近似乱拓性導入次元指数依存性回避 補足 近似文字列 O(nk4/m+m+k) 時間改善Cole, Hariharan: SIAM J. Comput. 2002 。編集距離O(n+k2)時間計算可能。Steaming型O(n+k2)時間Chakraborty et al., STOC 2016 k 関係 O(nm1-) 時間研究課題(O(log2n)程度改善既知 Bille, Colton: TCS 2008)Strong Exponential Time Hypothesis (SETH)否定的解決Backurs & Indik, STOC 2015(第回解説) Dont Care文字近似文字列改良研究課題 編集距離 O(n)(近)L1空間低歪埋込研究課題 LSH 利用近似近傍探索 Andoni et al., SODA, 2014,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报