直接从 mySQL 数据库训练分类器
train a classifier directly from mySQL database
目前,我找到了一份 ML 数据科学家的工作。我的问题如下,是否可以直接从 mySQL 数据库训练算法,是否与从 csv 文件训练算法的方式相似。此外,我想知道您是否正在处理非常不平衡的数据集。例如,当您使用 0.2% 的数据进行测试时,它是否将训练和测试中的负例和正例比例等分。任何人都可以向我推荐一个好的教程或文档吗?
当然可以直接从数据库训练模型。这就是生产系统中到处发生的事情。您的软件应该经过设计,这与您的数据源是 SQL、csv 还是其他什么无关紧要。由于你没有提到编程语言,所以很难说如何去做,但是在python你可以在这里看看:How do I connect to a MySQL Database in Python?
如果您的数据集不平衡,就像现实中经常发生的那样,您可以使用 class 权重让您的 classifier 意识到这一点。例如。在 keras/sci-kit 学习中你可以只传递 class_weights 参数。请注意,如果您的数据集太小,您可能 运行 会遇到默认度量(例如准确性)的问题。最好看看混淆矩阵或其他指标,例如 Matthews correlation coefficient
另一个很好的参考:
目前,我找到了一份 ML 数据科学家的工作。我的问题如下,是否可以直接从 mySQL 数据库训练算法,是否与从 csv 文件训练算法的方式相似。此外,我想知道您是否正在处理非常不平衡的数据集。例如,当您使用 0.2% 的数据进行测试时,它是否将训练和测试中的负例和正例比例等分。任何人都可以向我推荐一个好的教程或文档吗?
当然可以直接从数据库训练模型。这就是生产系统中到处发生的事情。您的软件应该经过设计,这与您的数据源是 SQL、csv 还是其他什么无关紧要。由于你没有提到编程语言,所以很难说如何去做,但是在python你可以在这里看看:How do I connect to a MySQL Database in Python?
如果您的数据集不平衡,就像现实中经常发生的那样,您可以使用 class 权重让您的 classifier 意识到这一点。例如。在 keras/sci-kit 学习中你可以只传递 class_weights 参数。请注意,如果您的数据集太小,您可能 运行 会遇到默认度量(例如准确性)的问题。最好看看混淆矩阵或其他指标,例如 Matthews correlation coefficient
另一个很好的参考: