深度学习 NLP:"Efficient" 类 BERT 实现?
Deep Learning NLP: "Efficient" BERT-like Implementations?
我在一个遗留的公司环境中工作,在那里我只有 16 核 64GB VM 可用于 NLP 项目。我有一个多标签 NLP 文本分类问题,我真的很想利用深度表示学习模型,如 BERT、RoBERTa、ALBERT 等。
我有大约 200,000 个文档需要标记,我已经注释了大约 2,000 个文档用作 training/testing/fine 调整的基本事实。我还有大量的领域相关文档可用于预训练。我很可能需要从头开始进行预训练,因为这是在临床领域。如果预训练模型有机会使用 Hugging Face 等微调,我也愿意接受。
人们会建议将哪些与 PyTorch 或 Keras 兼容的模型及其实现作为起点?还是我现有的计算资源无法满足计算要求?
如果您想使用当前的设置,运行使用变压器模型没有问题。您可以通过减小批处理大小来减少内存使用,但代价是速度变慢 运行s。
或者,在 google Colab 上免费测试您的算法。然后开一个GCP账户,google会提供$300美金的免费积分。使用它来创建一个 GPU 云实例,然后 运行 你的算法在那里。
您可能想使用 HuggingFace Transformers 的 Albert 或 Distilbert。 Albert 和 Distilbert 都对计算和内存进行了优化。 HuggingFace 有很多优秀的例子。
根据经验,您希望避免从头开始训练语言模型。如果可能的话,微调语言模型或更好地跳过它并直接训练分类器。此外,HuggingFace 和其他公司拥有 MedicalBert、ScienceBert 和其他专门的预训练模型。
我在一个遗留的公司环境中工作,在那里我只有 16 核 64GB VM 可用于 NLP 项目。我有一个多标签 NLP 文本分类问题,我真的很想利用深度表示学习模型,如 BERT、RoBERTa、ALBERT 等。
我有大约 200,000 个文档需要标记,我已经注释了大约 2,000 个文档用作 training/testing/fine 调整的基本事实。我还有大量的领域相关文档可用于预训练。我很可能需要从头开始进行预训练,因为这是在临床领域。如果预训练模型有机会使用 Hugging Face 等微调,我也愿意接受。
人们会建议将哪些与 PyTorch 或 Keras 兼容的模型及其实现作为起点?还是我现有的计算资源无法满足计算要求?
如果您想使用当前的设置,运行使用变压器模型没有问题。您可以通过减小批处理大小来减少内存使用,但代价是速度变慢 运行s。
或者,在 google Colab 上免费测试您的算法。然后开一个GCP账户,google会提供$300美金的免费积分。使用它来创建一个 GPU 云实例,然后 运行 你的算法在那里。
您可能想使用 HuggingFace Transformers 的 Albert 或 Distilbert。 Albert 和 Distilbert 都对计算和内存进行了优化。 HuggingFace 有很多优秀的例子。
根据经验,您希望避免从头开始训练语言模型。如果可能的话,微调语言模型或更好地跳过它并直接训练分类器。此外,HuggingFace 和其他公司拥有 MedicalBert、ScienceBert 和其他专门的预训练模型。