Excel Power Query/M - 根据网站上可用的页面数动态合并多个连接

Excel Power Query/M - Dynamically Combine a Number of Connections Based on the Number of Pages Available on a Website

我才刚刚开始涉足 M 的世界(我买了一本书和所有东西!),所以我希望你们中的一位聪明人能帮助我 :)

我使用 Power Query 从网站上的 table 跨多个页面提取数据

我很幸运,他们的 URL 以 “page=1” 结尾,等等

我已将每个页面加载为单独的连接(仅连接),并且有一个主 sheet 将所有页面附加在一起。每个连接都命名为 “Page 1”“Page 2”

原码为:

let Source = Table.Combine({#"Page 1", #"Page 2", #"Page 3", #"Page 4", #"Page 5", #"Page 6", #"Page 7", #"Page 8", #"Page 9", #"Page 10", #"Page 11", #"Page 12", #"Page 13"}) in Source

有数据的页面数量不时变化,我想找出一种方法来动态加载最多可用的页面数量

(事实证明,如果您放置的页码高于最大页数,该网站会重复最后一页,因此它会在我的母版中复制它们 table 因为我正在加载 30 页)

因此在只有 8 页数据的示例中,我希望它加载:

let Source = Table.Combine({#"Page 1", #"Page 2", #"Page 3", #"Page 4", #"Page 5", #"Page 6", #"Page 7", #"Page 8"}) in Source

我又幸运了,“Page 1 of 8” 在网站上独占一行,所以我可以使用 Power Query

轻松解析出“8”

快速搜索 this solution

这似乎是个好计划! 我可以学点M!

但我不想使用单独的文件,所以搜索更多后我找到了一个不同的解决方案,其中包括使用 Excel.CurrentWorkbook(){[Name="TabelName"]}[Content]

所以我结合上面得到:

Source = Excel.CurrentWorkbook(){[Name="TableName"]}[Content], CombineTable = Table.Combine(Source[Column1]) in CombineTable

然后我创建了一个名为 TableName 的 table,其中 ‘Page 1’‘Page 30’ 向下,用 IF 语句将其包围,因此它将是空白的在该单元格中,如果它大于页数

将其放入高级编辑器 它看到 ‘Page 1’,但无法从中生成 table

我知道有一种更简单的方法可以做到这一点,但是我的 Google-Fu 在这里让我失望了。看来这应该是一个非常简单的解决方案哈哈

如果有人能给我指明一个优雅的解决方案的方向,我将永远感激 :)

-编辑- 每个连接的代码(URL是内部业务URL,所以我只是将其替换为URL):

let Source = Web.Page(Web.Contents("https://URL&page=1")), Data0 = Source{0}[Data], #"Changed Type" = Table.TransformColumnTypes(Data0,{{"", type text}, {"Policy number", type text}, {"Creation date and time", type text}, {"Deadline", type text}, {"Case Ref", type text}, {"Lock User", type text}}), #"Removed Bottom Rows" = Table.RemoveLastN(#"Changed Type",2), #"Changed Type1" = Table.TransformColumnTypes(#"Removed Bottom Rows",{{"Creation date and time", type datetime}, {"Deadline", type datetime}}), #"Removed Columns" = Table.RemoveColumns(#"Changed Type1",{""}) in #"Removed Columns"

这是获取页码的代码:

let Source = Web.Page(Web.Contents("https:URL&page=1")), Data0 = Source{0}[Data], #"Changed Type" = Table.TransformColumnTypes(Data0,{{"", type text}, {"Policy number", type text}, {"Creation date and time", type text}, {"Deadline", type text}, {"Case Ref", type text}, {"Lock User", type text}}), #"Removed Top Rows" = Table.Skip(#"Changed Type",21), #"Removed Other Columns" = Table.SelectColumns(#"Removed Top Rows",{"Creation date and time"}), #"Split Column by Delimiter" = Table.SplitColumn(#"Removed Other Columns", "Creation date and time", Splitter.SplitTextByDelimiter(" ", QuoteStyle.Csv), {"Creation date and time.1", "Creation date and time.2", "Creation date and time.3", "Creation date and time.4"}), #"Changed Type1" = Table.TransformColumnTypes(#"Split Column by Delimiter",{{"Creation date and time.1", type text}, {"Creation date and time.2", Int64.Type}, {"Creation date and time.3", type text}, {"Creation date and time.4", Int64.Type}}), #"Removed Other Columns1" = Table.SelectColumns(#"Changed Type1",{"Creation date and time.4"}), #"Renamed Columns" = Table.RenameColumns(#"Removed Other Columns1",{{"Creation date and time.4", "I&W - Retail - Pages"}}) in #"Renamed Columns"

如果不访问您的实际 URL,很难对此进行测试。

但是我们可以通过生成一个页面列表将所有内容合并到一个查询中,用一个函数查询每个页面以return我们想要的数据,然后合并这些数据。

let
    SourceURL = "https://URL",

    LastPageNumber = (MyURL) =>
        let
            Source = Web.Page(Web.Contents(MyURL & "&page=1")),
            WebData = Source{0}[Data],
            #"Filtered Page Text" = Table.SelectRows(WebData, each Text.StartsWith([Creation date and time], "Page ")),
            #"Last Page Number" = try Number.FromText(Text.AfterDelimiter(#"Filtered Page Text"{0}[Creation date and time], " ", {0, RelativePosition.FromEnd})) otherwise 8
        in
            #"Last Page Number",

    PageNumbers = List.Numbers(1, LastPageNumber(SourceURL)),
    #"Table from List" = Table.FromList(List.Transform(PageNumbers, each Number.ToText(_)), Splitter.SplitByNothing(), {"Page"}),

    GetWebData = (MyURL, PageNumber) =>
        let
            Source = Web.Page(Web.Contents(MyURL & "&page=" & PageNumber)),
            WebData = Source{0}[Data],
            #"Removed Bottom Rows" = Table.RemoveLastN(WebData,2),
            #"Changed Type" = Table.TransformColumnTypes(#"Removed Bottom Rows",{{"", type text}, {"Policy number", type text}, {"Creation date and time", type datetime}, {"Deadline", type datetime}, {"Case Ref", type text}, {"Lock User", type text}})
        in
            #"Changed Type",

    #"Retrieve Web Data" = Table.AddColumn(#"Table from List", "WebData", each try GetWebData(SourceURL, [Page]) otherwise #table({""},{})),
    #"Combined Web Data" = Table.Combine(#"Retrieve Web Data"[WebData])
in
    #"Combined Web Data"

根据需要更改 SourceURL 值。

第一个函数 LastPageNumber 过滤 Creation date and time 列中以 "Page" 开头的值,并提取最后一个 space 之后的值 - 这为我们提供了 8 "Page 1 of 8".

现在我们可以生成从 1 到最后页码的数字列表。然后第二个函数 GetWebData 检索每个指定页码的网络数据,并将这些表 return 放入列中。

最后,我们使用 Table.Combine

returned 合并网络数据表