我可以在以下数据集样本上使用机器学习吗

Question

Dataset Sample

我可以使用任何算法来训练以上数据集吗？因为每一行 (Id) 都有因变量 (Status) 。但是每个 "Id" 再次作为 Multiple Rows per Features 您可以将其假设为 "Each Id has multiple transaction and All transactions have common Status" 机器学习会从这些交易中找到一些模式吗

是否有其他方法可以解决此类问题

Answer 1

您可以假设每一行都是独立的并忽略 id 列，或者如果每个 ID 都有 3 行，您可以使用更多功能扩展数据集

Answer 2

只需用上一行中的值填充您的 ID 行，状态行也是如此，这将导致：

df
ID Feature1 Feature2 Feature3 Status
8079 100    Asia      High    Approved
8079 200    Africa    Low     Approved

当你运行一个分类算法时，你可以使用：ID, Feature1, Feature2, Feature3作为特征和状态作为目标。分类器将以此学习，一切都与以前完全相同。这些功能仍然是独立的。只有当变量以某种方式相互依赖时，您才会拥有依赖特征，在您的情况下，ID 8079 不会导致特征 1：非洲。他们是独立的。

您可以使用以下内容填充您的单元格：

import numpy as np
df[df[0]==""] = np.NaN
df.fillna(method='ffill')

根据您的意见，方法可能略有不同，您需要将您的条目转换为新功能 ()：数据框应如下所示：

ID Feature1 Feature2 Feature3  Feature1a .... Feature3z Status
8079 100    Asia      High    200                       Approved

我可以在以下数据集样本上使用机器学习吗

Can I use machine learning on below dataset sample

artificial-intelligence

machine-learning

random-forest

deep-learning