• torchtext0.14 实践手册(0.12版本同理)


    torchtext的API有过两次较大变动:

    • 第一次是在0.9,将一些类库移入了legacy目录。对代码的影响是,import torchtext.data要改成import torchtext.legacy.data
    • 第二次是在0.12,将legacy目录移除,并提供了新的API。对代码的影响是,很多原本在legacy目录中的接口都废弃了,要重新构建代码逻辑。

    实践手册

    接下来,介绍使用tochtext0.14的各种步骤时的做法。本文会在介绍每一个做法时,对比两个版本下的具体代码,帮助读者更好地从旧版API的思维迁移到新API。

    构建词典

    假设输入是一个pands Dataframe对象train_df

    train_df = pd.read_csv("processed_data/train.csv")
    
    • 1

    0.9版本

    原本的做法如下。
    首先创建Field

    TEXT = data.Field(tokenize = 'spacy', include_lengths = True)
    LABEL = data.LabelField(dtype = torch.float)
    
    fields = [('text',TEXT), ('label',LABEL)]
    
    • 1
    • 2
    • 3
    • 4

    再创建torchtext Dataset。DataFrameDataset继承了torchtext.legacy.data.Dataset,其实现复制于github/lextoumbourou

    train_ds, val_ds = DataFrameDataset.splits(fields, train_df=train_df, val_df=valid_df)
    
    • 1

    最后,传入数据集为参数调用Field::build_vocab,就构建词典了。

    TEXT.build_vocab(train_ds,
                     max_size = MAX_VOCAB_SIZE,
                     vectors = 'glove.6B.200d',
                     unk_init = torch.Tensor.zero_)
    
    LABEL.build_vocab(train_ds)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    0.14版本

    现在讲0.14版本。先定义分词函数yield_tokens,它使用spacy分词器对pandas Dataframe的每一行作分词操作。

    这里用了yield语法,不懂的百度一下。

    import spacy
    spacy_tokenizer = spacy.load("en_core_web_sm")
    
    def yield_tokens(data_df):
        for _, row in data_df.iterrows():
            yield [token.text for token in spacy_tokenizer(row.text)]
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    然后调用build_vocab_from_iterator,传入回调函数yield_tokens,就构建好词典了。

    vocab = build_vocab_from_iterator(yield_tokens(train_df), min_freq=5, specials=['', ''])
    vocab.set_default_index(vocab[""])
    
    • 1
    • 2

    有了这个词典,可以将单词和序号之间互相转换了。尝试输出一下itos和stoi:

    print(vocab.get_itos()[:10])
    print(vocab.get_stoi()[""], vocab.get_stoi()[""], vocab.get_stoi()["the"])
    
    • 1
    • 2

    得到如下输出

    ['', '', 'URL', 'the', '?', 'a', 'to', 'in', 'i', 'of']
    0 1 3
    
    • 1
    • 2

    总结

    • 原本做分词时,是Field内置spacy分词器,现在是手动调用spacy分词操作,还得提供分词函数
    • 原本是用torchtext的Dataset,现在是用pytorch的Dataset(之后会用到)
    • 原本构建词典时,要先创建Field,再调用Field::build_vocab。现在不用这么冗杂,直接调用build_vocab_from_iterator即可。

    构建迭代器

    0.9版本

    在构建迭代器时,原本是用torchtext的迭代器data.BucketIterator

    train_iterator, valid_iterator = data.BucketIterator.splits(
            (train_ds, val_ds),
            batch_size = BATCH_SIZE,
            sort_within_batch = True,
            device = device)
    
    • 1
    • 2
    • 3
    • 4
    • 5

    它会尽可能让长度相近的句子放在一个batch。使用迭代器时,只需要for循环即可。

    从batch读出text属性时,是两个参数:句子和它们的长度。这个tuple形式的返回值权且当做是特性吧。

    for batch in train_iterator:
          text, text_lengths = batch.text
          ...
    
    • 1
    • 2
    • 3

    0.14版本

    在0.14版本里,读取数据只需要复用pytorch的原生接口Dataset。先定义一个DataFrameDataset,其实就是在pandas DataFrame上包了一层。复习Dataset接口可以先参考pytorch dataset dataloader

    class DataFrameDataset(Dataset):
        def __init__(self, content, label):
            self.content = content
            self.label = label
    
        def __getitem__(self, index):
            return self.content[index], self.label[index]
    
        def __len__(self):
            return len(self.label)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    然后定义train和valid数据集的Dataloader。传入参数有collate_batch函数,它会对每一批数据作预处理。该函数的实现比较自由,根据训练时的需要去实现即可,总之和原生的一样。

    这里用到了python的partial语法,不懂的可以百度一下。

    train_iter = DataFrameDataset(list(train_df['text']), list(train_df['target']))
    train_loader = DataLoader(train_iter, batch_size=8, shuffle=True,
                              collate_fn=partial(collate_batch, vocab=vocab, device=device))
    
    • 1
    • 2
    • 3

    这样,读取数据的时候,用for循环读出来就行。这里batch返回几个参数都由collate_batch的实现决定。

    for batch in iterator:
    	text, text_lengths, labels = batch
    
    • 1
    • 2

    总结

    在0.9版本里,必须定义data.BucketIterator才能读取数据。而到了0.14版本,只要复用pytorch原生的接口Dataset、DataLoader,并善用后者的collate_fn参数,就能读取批次数据了。

    使用预训练词向量

    为了做迁移学习,我们常常要用预训练的词向量,赋值给模型的词向量矩阵,完成初始化。torchtext提供了一些预训练的词库,比如Glove。在版本的变迁中,使用这些预训练向量的方法也在变化。

    0.9版本

    "使用预训练向量"原本创建词库时附带的功能。在调用Field::build_vocab构建词库之后,调用Field.vocab.vectors就能取到词库的向量矩阵了,然后就能赋值给模型:

    pretrained_embeddings = TEXT.vocab.vectors
    model.embedding.weight.data.copy_(pretrained_embeddings)
    
    • 1
    • 2

    0.14版本

    在0.14版本里,Field被移除了,在Vocab中也没找到vectors成员。但是,torchtext留了预训练词库(比如Glove),只要手动地读取向量,一行行地赋值到模型的词向量矩阵中,就能完成迁移学习的初始化了。

    model = LSTM_net(INPUT_DIM,
                         EMBEDDING_DIM,
                         HIDDEN_DIM,
                         OUTPUT_DIM,
                         N_LAYERS,
                         BIDIRECTIONAL,
                         DROPOUT,
                         PAD_IDX)
    
    ...
    
    # 迁移学习glove预训练词向量
    pretrained = torchtext.vocab.GloVe(name="6B", dim=200)
    print(f"pretrained.vectors device: {pretrained.vectors.device}, shape: {pretrained.vectors.shape}")
    for i, token in enumerate(vocab.get_itos()):
       model.embedding.weight.data[i] = pretrained.get_vecs_by_tokens(token)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16

    这里有几处值得说明:

    • torchtext.vocab.GloVe是一个预训练词库,name=6B只是词库名前缀,dim=200代表希望加载向量长度为200的那个词库。如果想用其它名字的词库,可以自行百度一下。
    • vocab.get_itos()可以取得映射数组,完成序号->单词的映射。
    • pretrained.get_vecs_by_tokens(token)可以完成单词->词向量的映射。

    总结

    在0.9版本,当调用Field::build_vocab创建词库时,加载预训练词库的操作就顺带完成了。
    到了0.14版本,预训练词库占用单独的接口,你需要显式地加载,再逐行赋值给模型的词向量矩阵。

    0.14版本看起来麻烦一点,但代码并没有变得复杂,而且for循环效率其实不慢(因为0.9版本的实现里,Field也是用for循环从预训练词库读取向量,再赋值给成员矩阵的)

    本文参考

    感谢以下文章作者:

  • 相关阅读:
    java项目之戒烟网站(ssm+vue)
    ps怎么对字体进行加粗?
    2023年中国铁路行车监测系统竞争格局、市场规模及行业发展趋势分析[图]
    数据仓库之雪花模型
    VS2022+QT5.14.2开发VS QT Tool的使用
    kafka分布式安装部署
    java面试小经历
    华清远见嵌入式学习——驱动开发——day9
    [buuctf.reverse] 117-120
    PostgreSQL进阶
  • 原文地址:https://blog.csdn.net/duoyasong5907/article/details/128169017