• HuggingFace Transformers教程(1)--使用AutoClass加载预训练实例


    知识的搬运工又来啦

    ☆*: .。. o(≧▽≦)o .。.:*☆ 

    【传送门==>原文链接:】https://huggingface.co/docs/transformers/autoclass_tutorial

     🚗🚓🚕🛺🚙🛻🚌🚐🚎🚑🚒🚚🚛🚜🚘🚔🚖🚍🚗🚓🚕🛺🚙🛻🚌🚐🚎🚑🚒🚚

    由于存在许多不同的Transformer架构,因此为您的检查点(checkpoint)创建一个可能很具有挑战性。作为🤗Transformers核心理念的一部分,使库易于使用、简单和灵活,AutoClass自动推断并从给定的检查点加载正确的架构。from_pretrained()】方法允许您快速加载任何架构的预训练模型因此您无需花费时间和资源从头开始训练模型。生产此类检查点不可知代码意味着,如果您的代码适用于一个检查点,则它将适用于另一个检查点——只要它是为类似的任务进行训练的,即使架构不同。

    请记住,架构是指模型的骨架,检查点是给定架构的权重。例如,BERT是一种架构,而bert-base-uncased是一个检查点。模型是一个通用术语,可以表示架构或检查点。

    在本教程中,我们可以学习:

    - 加载预训练的分词器。
    - 加载预训练的图像处理器。
    - 加载预训练的特征提取器。
    - 加载预训练的处理器。
    - 加载预训练模型

    AutoTokenizer

    几乎每个NLP任务都始于分词器。分词器将您的输入转换为模型可以处理的格式。

    使用AutoTokenizer.from_pretrained()加载分词器:

    1. from transformers import AutoTokenizer
    2. tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

    然后按照下面所示进行分词:

    1. sequence = "In a hole in the ground there lived a hobbit."
    2. print(tokenizer(sequence))
    3. {'input_ids': [101, 1999, 1037, 4920, 1999, 1996, 2598, 2045, 2973, 1037, 7570, 10322, 4183, 1012, 102],
    4. 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
    5. 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

    AutoImageProcessor

    对于视觉任务,图像处理器将图像处理成正确的输入格式。

    1. from transformers import AutoImageProcessor
    2. image_processor = AutoImageProcessor.from_pretrained("google/vit-base-patch16-224")

    AutoFeatureExtractor

    对于音频任务,特征提取器将音频信号处理成正确的输入格式。

    使用AutoFeatureExtractor.from_pretrained()加载特征提取器:

    1. from transformers import AutoFeatureExtractor
    2. feature_extractor = AutoFeatureExtractor.from_pretrained(
    3. "ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition"
    4. )

    AutoProcessor

    多模态任务需要一个处理器来结合两种类型的预处理工具。例如,LayoutLMV2模型需要一个图像处理器来处理图像和一个分词器来处理文本;处理器将两者结合起来。

    使用AutoProcessor.from_pretrained()加载处理器:

    1. from transformers import AutoProcessor
    2. processor = AutoProcessor.from_pretrained("microsoft/layoutlmv2-base-uncased")

    AutoModel

    Pytorch

    最后,AutoModelFor类允许您加载给定任务的预训练模型(请参见此处以获取可用任务的完整列表)。例如,使用AutoModelForSequenceClassification.from_pretrained()加载序列分类模型:

    1. from transformers import AutoModelForSequenceClassification
    2. model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")

    可以轻松地重复使用相同的检查点,以加载不同任务的架构:

    1. from transformers import AutoModelForTokenClassification
    2. model = AutoModelForTokenClassification.from_pretrained("distilbert-base-uncased")

    对于PyTorch模型,from_pretrained()方法使用torch.load(),它在内部使用pickle,并已知存在安全问题。一般来说,永远不要加载可能来自不可信源或可能被篡改的模型。针对Hugging Face Hub上托管的公共模型,这种安全风险在一定程度上得到了缓解,因为每次提交时都会对其进行恶意软件扫描。请参阅Hub文档以了解最佳实践,例如使用GPG进行签名提交验证。

    TensorFlow和Flax检查点不受影响,并且可以在PyTorch架构中使用from_pretrained方法的from_tf和from_flax参数来加载,以绕过此问题。

     通常,我们建议使用AutoTokenizer类和AutoModelFor类来加载预训练模型的实例。这将确保您每次都加载正确的架构。在下一个教程中,学习如何使用新加载的分词器、图像处理器、特征提取器和处理器对数据集进行预处理,以进行微调。

    TensorFlow

    最后,TFAutoModelFor类允许您加载给定任务的预训练模型(请参见此处以获取可用任务的完整列表)。例如,使用TFAutoModelForSequenceClassification.from_pretrained()加载序列分类模型:

    1. from transformers import TFAutoModelForSequenceClassification
    2. model = TFAutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")

    可以轻松地重复使用相同的检查点,以加载不同任务的架构:

    1. from transformers import TFAutoModelForTokenClassification
    2. model = TFAutoModelForTokenClassification.from_pretrained("distilbert-base-uncased")

    通常,我们建议使用AutoTokenizer类和TFAutoModelFor类来加载预训练模型的实例。这将确保您每次都加载正确的架构。在下一个教程中,学习如何使用新加载的分词器、图像处理器、特征提取器和处理器对数据集进行预处理,以进行微调。

  • 相关阅读:
    算法刷题-栈与队列
    Linux 命令行——gzip、gunzip、bzip、bunzip、tar、zip等命令
    JAVA计算机毕业设计颜如玉图书销售网站的设计与实现Mybatis+系统+数据库+调试部署
    RNA修饰技术介绍|介孔二氧化硅纳米颗粒(MSN)搭载的微小RNA-24(miR-24)纳米载体复合物
    Linux系统(Centos7)配置与管理Apache服务器练习题
    【速通指南】《信息资源管理》信息系统资源管理,第3章
    echarts南丁格尔图设置最小半径
    情人节程序员用HTML网页表白【爱心表白】 HTML5七夕情人节表白网页源码 HTML+CSS+JavaScript
    `算法知识` Trie字典树
    redis学习的笔记记录
  • 原文地址:https://blog.csdn.net/weixin_46481662/article/details/133622055