深度学习 NLP："Efficient" 类 BERT 实现？

Deep Learning NLP: "Efficient" BERT-like Implementations?

我在一个遗留的公司环境中工作，在那里我只有 16 核 64GB VM 可用于 NLP 项目。我有一个多标签 NLP 文本分类问题，我真的很想利用深度表示学习模型，如 BERT、RoBERTa、ALBERT 等。

我有大约 200,000 个文档需要标记，我已经注释了大约 2,000 个文档用作 training/testing/fine 调整的基本事实。我还有大量的领域相关文档可用于预训练。我很可能需要从头开始进行预训练，因为这是在临床领域。如果预训练模型有机会使用 Hugging Face 等微调，我也愿意接受。

人们会建议将哪些与 PyTorch 或 Keras 兼容的模型及其实现作为起点？还是我现有的计算资源无法满足计算要求？

如果您想使用当前的设置，运行使用变压器模型没有问题。您可以通过减小批处理大小来减少内存使用，但代价是速度变慢运行s。

或者，在 google Colab 上免费测试您的算法。然后开一个GCP账户，google会提供$300美金的免费积分。使用它来创建一个 GPU 云实例，然后运行你的算法在那里。

您可能想使用 HuggingFace Transformers 的 Albert 或 Distilbert。 Albert 和 Distilbert 都对计算和内存进行了优化。 HuggingFace 有很多优秀的例子。

根据经验，您希望避免从头开始训练语言模型。如果可能的话，微调语言模型或更好地跳过它并直接训练分类器。此外，HuggingFace 和其他公司拥有 MedicalBert、ScienceBert 和其他专门的预训练模型。

深度学习 NLP："Efficient" 类 BERT 实现？

Deep Learning NLP: "Efficient" BERT-like Implementations?

nlp

multilabel-classification

deep-learning

keras

pytorch