1、 站点结构图优化交接文档入口 get_web_pic.sh执行流程1. 拷贝导航栏、面包屑、重定向 url 文件、页面类型词典、网页源码、已经抓取过源码的url 文件至临时目录cp $Source_data_path/opt_nav_1.txt $Nav_1cp $Source_data_path/opt_nav_2.txt $Nav_2cp $Source_data_path/opt_nav_3.txt $Nav_3cp $Source_data_path/opt_nav_4.txt $Nav_4cp $Source_data_path/map_tjurl.txt $Map_tjurlcp
2、$Source_data_path/mypos_data.txt $Mypos_datacp $Source_data_path/nav_column.txt $Nav_columncp $Source_data_path/index_dict.txt $Pagetype_dictcp $Source_data_path/pack $Html_txtcp $Source_data_path/input.dict $Input_url_dict2. 将多个导航文件合并成一个文件Perl trans_nav_format.pl $DOMAIN_NAME $Nav_1 $Nav_2 $Nav_3 $
3、Nav_4 $Nav_tmp将 url 归一化,去掉 url 的开头 http、末尾 / ,去掉前链不包含当前站点 domain 的记录输出格式:$next_url.“t“.$title.“t“.$pre_url.“t“.$nav_block_num.“t“.$nav_url_level.“t“.$mine_level后链t 标题 t 前链 t 块 id t url 级别t 挖掘层次url 级别 :取值 0 或 1,1 表示 url 的标题字体为较粗或有特殊属性的,0 表示普通 url3. 转化面包屑文件格式为前后链对,并与栏目块文件合并perl trans_mypos_format.pl $
4、Mypos_data $DOMAIN_NAME $Mypos_allcat $Nav_column $Mypos_all面包屑格式转化时,如果面包屑中一个 url 与当前 url 相同时,判断其是否为索引页,如果不是,则去掉该 url4. 过滤出没被抓取过的 url,并通过 tckernel 抓取源码,从日志中得到 url 的页面类型$PYTHON_HOME/bin/python scoreMain.py $wapid $Target_data_path/uniq_url.listperl filter_index_dict.pl5. 根据数据文档得出站点结构图perl build_web_p
5、ic_test.pl配置USE_SAME_LV_CONTAIN_RELATION为 1 时,检验某一层次时,查看普通 url 是否在粗体 url 的下级层次中,如果是,则将普通 url 从当前层次中去掉,将它归为粗体 url 的下级 URLURL_FREQUENCY_THRESHOLD在一个频道 url 的后链(集合 A)中,点击进入每一个后链,这些后链的后链中,一个url B(属于集合 A)出现的次数/A 的总数,大于门限值,则认为 B 肯定是频道 url 的下级子频道USE_DOMAIN_CONTAIN_RELATION为 1 时,根据前链得出域名,只有后链包含该域名时,才是合法的前后链关
6、系函数执行顺序a. get_level_1_channel_url()把首页上的导航,将含有粗体等属性的 url 存入 lv1_channel_url_map,其他 url 存入 lv2_channel_url_map 中b. get_url_sign_map()存入 url 及其签名的对应关系c. get_replace_url_map()归一化 url,在 replace_url_map 中存入原始 url 及其归一化后的新 url规则:1) 重定向文件中,将重定向后的 url 替换成原始的 url2) replace_url_map key 中每个 url,如果去掉末尾 index 或
7、default 后的页面也存在,则将它归一化为去掉 index 或 default 后的,具体规则见代码3) 一个 url 非首页,且以 www 开头,如果去掉 www 的 url 也存在,归一化为去掉 www 的4) lv1_channel_url_map,lv2_channel_url_map 中存储的为原始的 url,替换为归一化后的 urld. get_url_pattern_pagetype_map()url_pagetype_map 中存储 url 及页面类型的对应关系e. get_url_title_map()url_title_map 中存储 url 及标题的对应关系f. my
8、pos_url_relation_map()读取 mypos 文件的记录,存储在 mypos_url_relation_map 中mypos_url_relation_map 为二级 map,存储前链、后链及后链标题$mypos_url_relation_map$pre_url$url=$url_title;mypos_url_next_pre_map 记录后链及其对应的前链g. update_level_1_channel_url()读取导航中的第一层 url,根据 url 之间的包含关系,及粗体 url 是否包含普通 url,找出真正属于第一层次的 url,其他 url 为这些 url 的
9、下级子频道,将生成的 url 关系存入 pre_url_map 和 next_url_map 中h. get_fixed_level_urls()对大于 2 的每一层次,执行该函数,得出每一层次的 url,将生成的 url 关系存入pre_url_map 和 next_url_map 中fixed_level_url_relation_map 为 2 级 map,1 级 key 为前链,2 级 key 为后链,存储到达 前链-后链 这条路径的所有合法路径(有多条路径,各条路径间用t 分割,每一条路径的 url 用分割),及后链是否为前链的下级子频道i. anchor_mypos_to_nav(
10、)将面包屑中有后链,无前链的 url 挂载到 nav 中某个频道下j. print_sub_channel根据 pre_url_map 和 next_url_map 打印出结构图从导航图开始,当导航图中 url 没有后链时,在面包屑图中寻找一个 url 为 STRUCTURED_PAGE_TYPE_INDEX 或 STRUCTURED_PAGE_TYPE_LIST 时,才在结构图中保留K. print_mypos_channel根据 mypos_url_relation_map 打印结构图一个 url 为 STRUCTURED_PAGE_TYPE_INDEX 或 STRUCTURED_PAGE_TYPE_LIST 时,才在结构图中保留