直接从 mySQL 数据库训练分类器

train a classifier directly from mySQL database

目前，我找到了一份 ML 数据科学家的工作。我的问题如下，是否可以直接从 mySQL 数据库训练算法，是否与从 csv 文件训练算法的方式相似。此外，我想知道您是否正在处理非常不平衡的数据集。例如，当您使用 0.2% 的数据进行测试时，它是否将训练和测试中的负例和正例比例等分。任何人都可以向我推荐一个好的教程或文档吗？

当然可以直接从数据库训练模型。这就是生产系统中到处发生的事情。您的软件应该经过设计，这与您的数据源是 SQL、csv 还是其他什么无关紧要。由于你没有提到编程语言，所以很难说如何去做，但是在python你可以在这里看看：How do I connect to a MySQL Database in Python?

如果您的数据集不平衡，就像现实中经常发生的那样，您可以使用 class 权重让您的 classifier 意识到这一点。例如。在 keras/sci-kit 学习中你可以只传递 class_weights 参数。请注意，如果您的数据集太小，您可能运行会遇到默认度量（例如准确性）的问题。最好看看混淆矩阵或其他指标，例如 Matthews correlation coefficient

另一个很好的参考：

直接从 mySQL 数据库训练分类器

train a classifier directly from mySQL database

database

data-science