Scrapy Pipelines - 如何在 SQL 查询中创建变量?

Scrapy Pipelines - How to create a variable in a SQL query?

我正在尝试将我抓取的数据 (产品 ID、类别、名称、描述、价格和时间戳) 存储在 Microsoft [=] 的两个单独的 table 上96=] 数据库。一个名为 products_tb 的 table 产生 productidcategorynamedescription。将数据存储在相应数据库中的 SQL 语句还会创建一个 productgroupidproductgroupid 必须用于存储剩余的数据,pricetimestamp 在第二个名为 pricefluctuation 的 table 中。这背后的想法是,我有一个 table 包含所有独特的产品,还有一个 table 每天更新所有这些产品的所有价格 + 时间戳。然后可以使用 productgroupid.

对所有价格和时间戳进行分组

我尝试创建第二个 SQL 语句,但我不知道如何从 SELECT 创建一个变量,以便我可以使用结果插入另一个 table.

pipelines.py

import pymssql

class KrcPipeline(object):

    def __init__(self):
        self.conn = pymssql.connect(host='DESKTOP-P1TF28R', user='sa', password='123', database='kaercher')
        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

#       This part works

        sql_statement = f'''
                    BEGIN
                            IF NOT EXISTS (SELECT * FROM [kaercher].[dbo].[products_tb]
                                WHERE productid = {item['productid']})
                            BEGIN
                            INSERT INTO [kaercher].[dbo].[products_tb] (productid, category, name, description)
                            OUTPUT (Inserted.productgroupid)
                            VALUES ({item['productid']}, '{item['category']}', '{item['name']}', '{item['description']}')
                            END
                        END
                '''

#       This part doesn't work :(   

        sql_statement2 = f'''
                        SELECT productgroupid FROM [kaercher].[dbo].[products_tb]
                        WHERE productid = {item['productid']}    

                        INSERT INTO [kaercher].[dbo].[pricefluctuation_tb] (productgroupid, price, timestamp)
                        VALUES (  variable for the productgroupid?  , {item['price']}, {item['timestamp']})

                '''        



        self.cursor.execute(sql_statement)
        self.cursor.execute(sql_statement2)        

        self.conn.commit()

        return item

items.py

import scrapy


class KrcItem(scrapy.Item):
    productid=scrapy.Field()
    name=scrapy.Field()
    description=scrapy.Field()
    price=scrapy.Field()
    producttype=scrapy.Field()
    timestamp=scrapy.Field()
    category=scrapy.Field()
    pass

MS中的数据库结构SQL:

kaercher.db

  1. products_tb

    • productgroupid (bigint)
    • productid (int)
    • 类别(nvarchar(100))
    • 名称(nvarchar(350))
    • 描述(nvarchar(1000))
  2. pricefluctuation_tb

    • productgroupid (bigint)
    • 价格(浮动)
    • 时间戳(int)

试试这个:

sql_statement2 = f'''

DECLARE @productgroupid INT;

SET @productgroupid = (
                       SELECT productgroupid
                       FROM [kaercher].[dbo].[products_tb]
                       WHERE productid = {item['productid']}
                       );

INSERT INTO [kaercher].[dbo].[pricefluctuation_tb] (productgroupid, price, timestamp)
VALUES ( @productgroupid  , {item['price']}, {item['timestamp']})

                '''

这假定每个产品 ID 有一个产品组 ID。