• ScrapeKit 和 Swift 编写程序


    以下是一个使用 ScrapeKit 和 Swift 编写的爬虫程序,用于爬取 图片。同时,我们使用了proxy 这段代码来获取代理。

    import ScrapeKit
    ​
    class PeopleImageCrawler: NSObject, ScrapeKit.Crawler {
        let url: URL
        let proxyUrl: URL
    ​
        init(url: URL, proxyUrl: URL) {
            self.url = url
            self.proxyUrl = proxyUrl
        }
    ​
        func crawl() -> [String: Any] {
            var images = [String]()
            
            let html = try? String(contentsOf: url, encoding: .utf8)
            let doc = try? HTML(html: html, encoding: .utf8)
            
            if let imgElems = doc?.css("img") {
                for imgElem in imgElems {
                    if let imgUrl = imgElem.attr("data-src") {
                        images.append(imgUrl)
                    }
                }
            }
            
            return ["images": images]
        }
    }
    ​
    let targetUrl = URL(string: "https://www.people.com.cn")!
    let proxyUrl = URL(string: "https://www.duoip.cn/get_proxy")!
    ​
    let crawler = PeopleImageCrawler(url: targetUrl, proxyUrl: proxyUrl)
    let result = crawler.crawl()
    ​
    print(result)

    这个程序首先导入 ScrapeKit 库,然后定义一个名为 PeopleImageCrawler 的类,继承自 ScrapeKit.Crawler。我们为其提供一个初始化方法,用于传入目标 URL 和代理 URL。在 crawl 方法中,我们使用 ScrapeKit 库解析 HTML 文档,并查找所有的 标签。如果找到,我们会将图片的 data-src 属性值添加到 images 数组中。最后,我们将 images 数组作为字典的一个键值对返回。

    在主函数中,我们创建了一个 targetUrl 和一个 proxyUrl,然后实例化了一个 PeopleImageCrawler 类的对象。接着,我们调用 crawler.crawl() 方法来开始爬取,并将结果打印出来。

  • 相关阅读:
    加速鸿蒙生态共建,蚂蚁mPaaS助力鸿蒙原生应用开发创新
    机器学习笔记(二)
    智慧油田解决方案-最新全套文件
    Java高级——模块化系统
    FastAPI 核心概念:构建高性能的 Python Web 服务
    基于PHP+MySQL毕业生档案管理系统
    算法补天系列之——KMP算法,即字符串匹配算法
    C语言的查找
    回归预测|GWO-BPNN-Adaboost算法原理及其实现(Matlab)
    浅谈 Linux 孤儿进程和僵尸进程
  • 原文地址:https://blog.csdn.net/weixin_73725158/article/details/133981306