jk制服在线观看,沐浴偷拍一区二区视频 ,国产综合色在线视频区色吧图片

來源：https://blog.csdn.net/m0_57315623?type=blog

前言

咱們?nèi)绻梦覀兊男》掌魅ジ惆俣?，搜狗那種引擎肯定是不行的，內(nèi)屬于全站搜索，我們這里做一個站內(nèi)搜索。這個還是可以的，就類似于我們對網(wǎng)站里的資源進行搜索。

一.搜索引擎怎么搜索

搜索引擎就像一個小蜜蜂每天不停的采摘蜂蜜，就是去爬蟲各個網(wǎng)頁，然后通過爬取之后建立索引，以供于我們?nèi)ニ阉鳌?/p>

這里我們可以使用Python，或者下載文檔壓縮包。這里我們下包把，快多了。本來想搞一個英雄聯(lián)盟的，實在找不見，要是后續(xù)有老鐵找到可以分享一下。

建議大家別爬蟲（要不然被告了，不過我們學校的官網(wǎng)倒是可以隨便爬，我們當時就是拿這個練手的）為什么要用索引呢？

因為爬的數(shù)據(jù)太多了，不索引，難道我去遍歷嗎？時間復雜度太大了。

這里我們需要建立索引，索引分別為正排索引，和倒排索引。

拿LOL舉個例子吧，正排就相當于，我們提到無極劍圣的技能就可以聯(lián)想到：

Q技能阿爾法突襲
W技能冥想
E技能無雙
R技能高原血統(tǒng)

所以這是根據(jù)名字選技能

倒排索引就是LOL里面誰有劍：

蠻王
無極劍圣
劍姬

所以這是根據(jù)特點選擇英雄

二.模塊劃分

1.索引模塊

1）掃描下載到的文檔，分析內(nèi)容，構建出，正排索引和倒排索引。并且把索引內(nèi)容保存到文件中。

2）加載制作i好的索引。并提供一些API實現(xiàn)查正排和查倒排這樣的功能。

2.搜索模塊

1）調(diào)用索引模塊，實現(xiàn)一個搜索的完整過程。

輸入：用戶的查詢詞輸出：完整的搜索結果

3.web模塊

需要實現(xiàn)一個簡單的web程序，能夠通過網(wǎng)頁的形式和用戶進行交互。包含了前端和后端。

三. 怎么實現(xiàn)分詞

分詞的原理：

1.基于詞庫

嘗試把所有的詞都進行窮舉，把這些結果放到詞典文件中。

2.基于統(tǒng)計

收集到很多的語料庫，進行人工標注，知道了那些字在一起的概率比較大~

java中能夠?qū)崿F(xiàn)分詞的第三方工具也是有很多的

比如ansj(聽說唱的兄弟可能聽過ansj，哈哈)這個就是一個maven中央倉庫的分詞第三方庫。

我們直接下載最新版本然后放入pom.xml里面

test包里直接操作：我們使用這個測試代碼直接搞。試一下這個包咋用。

import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;
import java.util.List;
public class TastAnsj {
    public static void main(String[] args) {
        String str = "易大師是一個有超高機動性的刺客、戰(zhàn)士型英雄，擅長利用快速的打擊迅速擊潰對手，易大師一般打野和走單人路，作為無極劍道的最后傳人，易可以迅速砍出大量傷害，同時還能利用技能躲避猛烈的攻擊，避開敵人的集火。";
        List<Term> terms = ToAnalysis.parse(str).getTerms();
        for (Term term : terms) {
            System.out.println(term.getName());
        }
    }
}

四.文件讀取

把剛剛下載好的文檔的路徑復制到String中并且用常量標記。

這一步是為了用遍歷的方法把所有html文件搞出來，我們這里用了一個遞歸，如果是絕對路徑，就填加到文件鏈表，如果不是就遞歸，繼續(xù)添加里面的值。

import java.io.File;
import java.util.ArrayList;


//讀取剛剛文檔
public class Parser {
     private static final  String INPUT_PATH="D:/test/docs/api";
      public  void run(){
          //整個Parser類的入口
          //1.根據(jù)路徑，去枚舉出所有的文件.（html）；
          ArrayList<File> fileList=new ArrayList<>();
          enumFile(INPUT_PATH,fileList);
          System.out.println(fileList);
          System.out.println(fileList.size());
          //2.針對上面羅列出的文件，打開文件，讀取文件內(nèi)容，并進行解析
          //3.把在內(nèi)存中構造好的索引數(shù)據(jù)結構，保定到指定的文件中。
      }
      //第一個參數(shù)表示從哪里開始遍歷 //第二個表示結果。
      private void enumFile(String inputPath,ArrayList<File>fileList){
         File rootPath=new File(inputPath);
         //listFiles 能夠獲取到一層目錄下的文件
        File[] files= rootPath.listFiles();
         for(File f:files){
             //根據(jù)當前f的類型判斷是否遞歸。
             //如果f是一個普通文件，就把f加入到fileList里面
             //如果不是就調(diào)用遞歸
             if(f.isDirectory()){
                 enumFile(f.getAbsolutePath(),fileList);
             }else {
                 fileList.add(f);
             }
         }
      }
    public static void main(String[] args) {
        //通過main方法來實現(xiàn)整個制作索引的過程
        Parser parser=new Parser();
        parser.run();
    }
}

我們嘗試運行一下，這里的文件也太多了吧，而且無論是什么都打印出來了。所以我們下一步就是把這些文件進行篩選，選擇有用的。

else {
                 if(f.getAbsolutePath().endsWith(",html"))
                 fileList.add(f);
             }

這個代碼就是只是針對末尾為html的文件。下圖就是展示結果。

4.1 打開文件，解析內(nèi)容。

這里分為三個分別是解析Title，解析Url，解析內(nèi)容Content

4.1.1解析Title

f.getName()是直接讀取文件名字的方法。

我們用的name.substring(0,f.getName().length()-5);為什么要用總的文件名字長度減去5呢，因為.HTML剛好就是五。

private  String parseTitle(File f) {
          String name= f.getName();
         return name.substring(0,f.getName().length()-5);

    }

4.1.2解析Url操作

這里的url就是我們平時去一個瀏覽器輸入一個東西下面會有一個url，這個url就是我們的絕對路徑經(jīng)過截取獲得出我們的相對的目錄，然后與我們的http進行拼接，這樣就可以直接得到一個頁面。

private  String parseUrl(File f) {
      String part1="https://docs.oracle.com/javase/8/docs/api/";
      String part2=f.getAbsolutePath().substring(INPUT_PATH.length());
          return part1+part2;
    }

4.1.3解析內(nèi)容

以<>為開關進行對數(shù)據(jù)的讀取，以int類型讀取，為什么要用int而不是char呢因為int類型讀完之后就變成-1可以判斷一下是否讀取完畢。具體代碼如下很容易理解。

private  String parseContent(File f) throws IOException {
          //先按照一個一個字符來讀取，以<>作為開關
        try(FileReader fileReader=new FileReader(f)) {
            //加上一個是否拷貝的開關.
            boolean isCopy=true;
            //還需要準備一個結果保存
            StringBuilder content=new StringBuilder();
            while (true){
                //此處的read的返回值是int，不是char
                //如果讀到文件末尾，就會返回-1，這是用int的好處；
                int  ret = 0;
                try {
                    ret = fileReader.read();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                if(ret==-1) {
                        break;
                    }
                    char c=(char) ret;
                    if(isCopy){
                        if(c=='<'){
                            isCopy=false;
                            continue;
                        }
                        //其他字符直接拷貝
                        if(c=='\n'||c=='\r'){
                            c=' ';
                        }
                        content.append(c);
                    }else{
                        if(c=='>'){
                            isCopy=true;
                        }
                    }
            }

            return  content.toString();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        }
        return "";
    }

這一模塊總的代碼塊如下：

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;

//讀取剛剛文檔
public class Parser {
     private static final  String INPUT_PATH="D:/test/docs/api";
      public  void run(){
          //整個Parser類的入口
          //1.根據(jù)路徑，去枚舉出所有的文件.（html）；
          ArrayList<File> fileList=new ArrayList<>();
          enumFile(INPUT_PATH,fileList);
          System.out.println(fileList);
          System.out.println(fileList.size());
          //2.針對上面羅列出的文件，打開文件，讀取文件內(nèi)容，并進行解析
          for (File f:fileList){
              System.out.println("開始解析"+f.getAbsolutePath());
              parseHTML(f);
          }
          //3.把在內(nèi)存中構造好的索引數(shù)據(jù)結構，保定到指定的文件中。
      }


    private  String parseTitle(File f) {
          String name= f.getName();
         return name.substring(0,f.getName().length()-5);

    }
    private  String parseUrl(File f) {
      String part1="https://docs.oracle.com/javase/8/docs/api/";
         String part2=f.getAbsolutePath().substring(INPUT_PATH.length());
          return part1+part2;
    }
    private  String parseContent(File f) throws IOException {
          //先按照一個一個字符來讀取，以<>作為開關
        try(FileReader fileReader=new FileReader(f)) {
            //加上一個是否拷貝的開關.
            boolean isCopy=true;
            //還需要準備一個結果保存
            StringBuilder content=new StringBuilder();
            while (true){
                //此處的read的返回值是int，不是char
                //如果讀到文件末尾，就會返回-1，這是用int的好處；
                int  ret = 0;
                try {
                    ret = fileReader.read();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                if(ret==-1) {
                        break;
                    }
                    char c=(char) ret;
                    if(isCopy){
                        if(c=='<'){
                            isCopy=false;
                            continue;
                        }
                        //其他字符直接拷貝
                        if(c=='\n'||c=='\r'){
                            c=' ';
                        }
                        content.append(c);
                    }else{
                        if(c=='>'){
                            isCopy=true;
                        }
                    }
            }

            return  content.toString();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        }
        return "";
    }
    private void parseHTML (File f){
        //解析出標題
          String title=parseTitle(f);
        //解析出對應的url
          String url=parseUrl(f);
        //解析出對應的正文
        try {
            String content=parseContent(f);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
      //第一個參數(shù)表示從哪里開始遍歷 //第二個表示結果。
      private void enumFile(String inputPath,ArrayList<File>fileList){
         File rootPath=new File(inputPath);
         //listFiles 能夠獲取到一層目錄下的文件
        File[] files= rootPath.listFiles();
         for(File f:files){
             //根據(jù)當前f的類型判斷是否遞歸。
             //如果f是一個普通文件，就把f加入到fileList里面
             //如果不是就調(diào)用遞歸
             if(f.isDirectory()){
                 enumFile(f.getAbsolutePath(),fileList);
             }else {
                 if(f.getAbsolutePath().endsWith(".html"))
                 fileList.add(f);
             }
         }
      }
    public static void main(String[] args) {
        //通過main方法來實現(xiàn)整個制作索引的過程
        Parser parser=new Parser();
        parser.run();
    }
}

說個題外話，鳥哥是個比較喜歡折騰的程序員，業(yè)余喜歡開發(fā)自己網(wǎng)站、小程序、App等，這些東西統(tǒng)統(tǒng)離不開服務器！最近就圍繞服務器的主題創(chuàng)建了一個微信群，喜歡玩服務器或者想自己開發(fā)一款產(chǎn)品的讀者可以進來，相互學習交流！群通知中給大家分享了一套搭建服務器的視頻教程哦。非常適合新手學習！我也會時不時的帶大家擼點和服務器相關的優(yōu)惠券！不感興趣，不喜歡折騰的就沒必要湊著鬧了！

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內(nèi)容，請點擊舉報。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

前言