• csharp写一个招聘信息采集的程序


    csharp爬虫是一种用于自动化抓取网页内容的程序。它可以通过模拟人类浏览器的行为,自动访问网站并抓取所需的数据。csharp爬虫可以用于各种场景,例如数据挖掘、搜索引擎优化、竞争情报等。但是,使用csharp爬虫需要注意一些问题,例如网站的反爬虫机制、数据的合法性等。

    在这里插入图片描述

    using System;
    using System.Net;
    using System.Net.Http;
    using System.Text;
    using HtmlAgilityPack;
    
    class Program
    {
        static void Main(string[] args)
        {
            // 创建一个HttpClient实例
            HttpClient client = new HttpClient();
    
            // 设置爬虫IP
            client.DefaultRequestHeaders.Add("Proxy-Host", "www.duoip.cn");
            client.DefaultRequestHeaders.Add("Proxy-Port", "8000");
    
            // 创建一个HttpGet请求
            var request = new HttpRequestMessage(HttpMethod.Get, "目标网站");
    
            // 发送请求
            var response = await client.SendAsync(request);
    
            // 将响应转换为字符串
            var content = await response.Content.ReadAsStringAsync();
    
            // 使用HtmlAgilityPack解析HTML
            var doc = new HtmlDocument();
            doc.LoadHtml(content);
    
            // 获取所有a标签
            var links = doc.DocumentNode.SelectNodes("//a");
    
            // 遍历所有链接,输出URL
            foreach (var link in links)
            {
                Console.WriteLine(link.Attributes["href"].Value);
            }
        }
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40

    1、创建一个HttpClient实例,用于发送网络请求。

    2、设置爬虫IP,通过HttpClient的DefaultRequestHeaders属性添加爬虫IP信息。

    3、创建一个HttpGet请求,请求的URL是"目标网站"。这只是一个示例,你需要根据你的需求修改这个URL。

    4、发送请求,使用HttpClient的SendAsync方法发送请求。

    5、将响应转换为字符串,使用HttpResponseMessage的Content属性获取响应的内容,然后使用ReadAsStringAsync方法将其转换为字符串。

    6、使用HtmlAgilityPack解析HTML,创建一个HtmlDocument实例,然后使用LoadHtml方法加载HTML内容。

    7、获取所有a标签,使用HtmlDocument的SelectNodes方法,传入一个XPath表达式"//a",这个表达式表示所有的a标签。

    8、遍历所有链接,使用foreach循环遍历获取的所有a标签,然后输出每个链接的URL。

    注意:这个示例使用了HtmlAgilityPack库,你需要在你的项目中添加对这个库的引用才能运行这个程序。你也可以使用其他库来解析HTML,如HtmlWebParser等。同时,这个示例只是一个基本的爬虫程序,实际的爬虫程序可能需要处理更多的细节,例如处理重定向、处理JavaScript渲染的页面、处理登录验证等。

  • 相关阅读:
    Mysql DATETIME与TIMESTAMP的区别
    网络中的一些基本概念
    Python3 基础语法:行与缩进
    linux内存、cpu、进程、端口、硬盘管理
    固定资产预算怎么管理的
    好奇一下各个大模型对华为mate60系列的看法
    c++ 并发与多线程(12)线程安全的单例模式-1
    Linux arm64 set_memory_ro/rw函数
    Stream 流式编程:并行流
    【Qt之控件QKeySequenceEdit】分析及使用
  • 原文地址:https://blog.csdn.net/weixin_44617651/article/details/134328871