Neo4J - 加载到图形需要太多时间
Neo4J - Load to graph takes too much time
我有非常庞大的电子商务订单数据(包括产品详情)。我刚刚开始探索 Neo4j 以加载到图形数据库中以通过图形算法计算产品关系和模式。
以下是我的 csv 文件中的字段
CUSTOMER_UNIQUE_ID (Customer Code)
ORDER_ID (Order Code)
ORDER_DATE (Order date)
CLIENT_TYPE (Ordered via Mobile / App / Desktop)
PARENT_SKU (Product ID)
LEV1 (Category Level 1)
LEV2 (Category Level 2)
LEV3 (Category Level 3)
要加载数据,我使用以下密码:
USING PERIODIC COMMIT 1000
LOAD CSV WITH HEADERS FROM "FILE:///E:/Data/2015/Nov/MBA/order_item_MBA.csv" AS line
MERGE(product:Product {parent_sku:line.PARENT_SKU}) ON CREATE SET product.parent_sku = line.PARENT_SKU, product.lev1 = line.LEV1, product.lev2 = line.LEV2, product.lev3 = line.LEV3
仅 运行 上述 50K 条记录(5MB 文件大小)的脚本需要 13 分钟。我哪里出错了吗?我计划加载大约 30M 条记录。约。 20+M 个节点和 100+M 个边。我想创建一个产品-客户图,根据购买的产品创建边。
如果你MERGE
在一个节点上,你应该在属性上有一个索引(http://neo4j.com/docs/stable/query-schema-index.html):
CREATE INDEX ON :Product(parent_sku)
理想情况下,您在此标签上为此 属性 创建唯一性约束。这将自动添加一个非常快的索引 (http://neo4j.com/docs/stable/query-constraints.html):
CREATE CONSTRAINT ON (node:Product) ASSERT node.parent_sku IS UNIQUE
这应该会大大加快您的导入速度。
我有非常庞大的电子商务订单数据(包括产品详情)。我刚刚开始探索 Neo4j 以加载到图形数据库中以通过图形算法计算产品关系和模式。 以下是我的 csv 文件中的字段
CUSTOMER_UNIQUE_ID (Customer Code)
ORDER_ID (Order Code)
ORDER_DATE (Order date)
CLIENT_TYPE (Ordered via Mobile / App / Desktop)
PARENT_SKU (Product ID)
LEV1 (Category Level 1)
LEV2 (Category Level 2)
LEV3 (Category Level 3)
要加载数据,我使用以下密码:
USING PERIODIC COMMIT 1000
LOAD CSV WITH HEADERS FROM "FILE:///E:/Data/2015/Nov/MBA/order_item_MBA.csv" AS line
MERGE(product:Product {parent_sku:line.PARENT_SKU}) ON CREATE SET product.parent_sku = line.PARENT_SKU, product.lev1 = line.LEV1, product.lev2 = line.LEV2, product.lev3 = line.LEV3
仅 运行 上述 50K 条记录(5MB 文件大小)的脚本需要 13 分钟。我哪里出错了吗?我计划加载大约 30M 条记录。约。 20+M 个节点和 100+M 个边。我想创建一个产品-客户图,根据购买的产品创建边。
如果你MERGE
在一个节点上,你应该在属性上有一个索引(http://neo4j.com/docs/stable/query-schema-index.html):
CREATE INDEX ON :Product(parent_sku)
理想情况下,您在此标签上为此 属性 创建唯一性约束。这将自动添加一个非常快的索引 (http://neo4j.com/docs/stable/query-constraints.html):
CREATE CONSTRAINT ON (node:Product) ASSERT node.parent_sku IS UNIQUE
这应该会大大加快您的导入速度。