• 仅30行代码,实现一个搜索引擎(1.0版)


    说到搜索引擎,一般人都会觉得这东西十分“高大上”,对于不了解搜索引擎实现方式的小伙伴而言,确实能够感同身受。

    国内著名的搜索引擎代表非百度莫属,而国外著名的搜索引擎代表则非谷歌莫属了。

    搜索引擎一定程度上方便了网民的生活,生活或工作中啥不知道的上网搜索一下大都能找到答案。

    今天将会分享如何仅用30行左右的代码来实现一个简易版的搜索引擎,我先称之为1.0版本好啦~

    搜索引擎组成

    一个完整的搜索引擎由以下四部分组成:

    • 搜索器
    • 索引器
    • 用户接口
    • 检索器

    搜索器

    熟悉 Python 的小伙伴可以把搜索器理解为 Python 的爬虫(scrawler),它像蜘蛛一样能够在互联网上大量爬取各类网站的内容,将爬取到的内容传送给索引器。

    索引器

    拿到搜索器传送的网页或内容后,会对内容进行加工处理,形成索引(index),存储于内部的数据库等待检索。

    用户接口

    用户接口很好理解,是指网页和 App 前端界面,例如:百度和谷歌的搜索页面。

    用户通过用户接口,向搜索引擎发出询问(query),询问解析后送达检索器。

    检索器

    检索器在收到用户接口传送的询问解析后进行高效检索,再将检索结果返回给用户。

    搜索引擎 Python 实现

    PS:今天分享的重点是搜索引擎的实现,不是如何进行爬虫爬取内容,因此搜索引擎的组成部分搜索器此处使用本地存储文件内容代替。

    1. 搜索引擎基类文件

    # Engine.py
    class SearchEngineBase(object):
        def __init__(self):
            pass
    
        def add_search_contents(self, file_path):
            with open(file_path, 'r') as fin:
                content = fin.read()
            self.process_search_contents(file_path, content)
    
        def process_search_contents(self, file_path, content):
            raise Exception('process_search_contents not implemented.')
    
        def search(self, query_content):
            raise Exception('search not implemented.')
    
    
    def main(search_engine):
        for file_path in ['./search_contents/1.txt', './search_contents/2.txt', './search_contents/3.txt', './search_contents/4.txt', './search_contents/5.txt']:
            search_engine.add_search_contents(file_path)
    
        while True:
            query_content = input('请输入你要检索的关键词:')
            results = search_engine.search(query_content)
            print('Total found {} result(s):'.format(len(results)))
            for result in results:
                print(result)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27

    2. 搜索引擎子类文件

    # SimpleEngine.py
    from Engine import SearchEngineBase, main
    import sys, os
    sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
    
    
    class MyEngine(SearchEngineBase):
        """
        1.MyEngine是继承了父类SearchEngineBase的子类
        2.子类继承并实现了process_search_contents,search函数
        3.子类继承了父类的add_search_contents函数
        """
        def __init__(self):
            super(MyEngine, self).__init__()
            self.__file_path_to_content = {} # 初始化私有变量__file_path_to_content,用于存储文件路径及其内容的字典
    
        def process_search_contents(self, file_path, content):
            """
            填充字典__file_path_to_content,将文件路径作为key,文件内容作为value写入字典中
            """
            self.__file_path_to_content[file_path] = content
    
        def search(self, query):
            """
            枚举字典内容,将搜索的关键字在文件内容中有搜索结果时,将对应文件路径放入列表以便于统计其长度
            """
            results = []
            for file_path, content in self.__file_path_to_content.items():
                if query in content:
                    results.append(file_path)
            return results
    
    
    search_engine = MyEngine()
    main(search_engine)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35

    3. 搜索样本文件

    如图所示,将搜索的样本文件分别放在5个不同的 txt 文件中,并都放于 search_contents 目录下。

    图片

    4. 搜索引擎效果

    在这里插入图片描述

    到这里,一个简易版的搜索引擎就实现了,后面还会继续分享搜索引擎实现的进阶版,敬请关注哟~

    如果你不想一个人野蛮生长,找不到系统的资料,问题得不到帮助,坚持几天便放弃的感受的话,可以加入我们的QQ群:746506216,大家可以一起讨论交流,里面会有各种软件测试资料和技术交流。


    资源分享

    下方这份完整的软件测试视频学习教程已经上传CSDN官方认证的二维码,朋友们如果需要可以自行免费领取 【保证100%免费】

    在这里插入图片描述

    在这里插入图片描述

  • 相关阅读:
    B站付费视频使up主掉粉过万
    记一次beego通过go get命令后找不到bee.exe的坑
    编程为什么要使用设计模式?使用设计模式的好处有哪些?
    降噪耳机哪款比较舒适?比较舒适的降噪耳机盘点
    Webpack关闭SourceMap
    数据结构(C):从初识堆到堆排序的实现
    基于复旦微JFM7K325T FPGA的高性能PCIe总线数据预处理载板(100%国产化)
    MIxformerV2的onnx和tensorrt加速
    maven依赖报红
    java this用法
  • 原文地址:https://blog.csdn.net/wx17343624830/article/details/127820679