Excel Power Query/M - 根据网站上可用的页面数动态合并多个连接
Excel Power Query/M - Dynamically Combine a Number of Connections Based on the Number of Pages Available on a Website
我才刚刚开始涉足 M 的世界(我买了一本书和所有东西!),所以我希望你们中的一位聪明人能帮助我 :)
我使用 Power Query 从网站上的 table 跨多个页面提取数据
我很幸运,他们的 URL 以 “page=1”
结尾,等等
我已将每个页面加载为单独的连接(仅连接),并且有一个主 sheet 将所有页面附加在一起。每个连接都命名为 “Page 1”
、“Page 2”
等
原码为:
let
Source = Table.Combine({#"Page 1", #"Page 2", #"Page 3", #"Page 4", #"Page 5", #"Page 6", #"Page 7", #"Page 8", #"Page 9", #"Page 10", #"Page 11", #"Page 12", #"Page 13"})
in
Source
有数据的页面数量不时变化,我想找出一种方法来动态加载最多可用的页面数量
(事实证明,如果您放置的页码高于最大页数,该网站会重复最后一页,因此它会在我的母版中复制它们 table 因为我正在加载 30 页)
因此在只有 8 页数据的示例中,我希望它加载:
let
Source = Table.Combine({#"Page 1", #"Page 2", #"Page 3", #"Page 4", #"Page 5", #"Page 6", #"Page 7", #"Page 8"})
in
Source
我又幸运了,“Page 1 of 8”
在网站上独占一行,所以我可以使用 Power Query
轻松解析出“8”
快速搜索 this solution
这似乎是个好计划!
我可以学点M!
但我不想使用单独的文件,所以搜索更多后我找到了一个不同的解决方案,其中包括使用 Excel.CurrentWorkbook(){[Name="TabelName"]}[Content]
所以我结合上面得到:
Source = Excel.CurrentWorkbook(){[Name="TableName"]}[Content],
CombineTable = Table.Combine(Source[Column1])
in
CombineTable
然后我创建了一个名为 TableName
的 table,其中 ‘Page 1’
到 ‘Page 30’
向下,用 IF
语句将其包围,因此它将是空白的在该单元格中,如果它大于页数
将其放入高级编辑器
它看到 ‘Page 1’
,但无法从中生成 table
我知道有一种更简单的方法可以做到这一点,但是我的 Google-Fu 在这里让我失望了。看来这应该是一个非常简单的解决方案哈哈
如果有人能给我指明一个优雅的解决方案的方向,我将永远感激 :)
-编辑-
每个连接的代码(URL是内部业务URL,所以我只是将其替换为URL
):
let
Source = Web.Page(Web.Contents("https://URL&page=1")),
Data0 = Source{0}[Data],
#"Changed Type" = Table.TransformColumnTypes(Data0,{{"", type text}, {"Policy number", type text}, {"Creation date and time", type text}, {"Deadline", type text}, {"Case Ref", type text}, {"Lock User", type text}}),
#"Removed Bottom Rows" = Table.RemoveLastN(#"Changed Type",2),
#"Changed Type1" = Table.TransformColumnTypes(#"Removed Bottom Rows",{{"Creation date and time", type datetime}, {"Deadline", type datetime}}),
#"Removed Columns" = Table.RemoveColumns(#"Changed Type1",{""})
in
#"Removed Columns"
这是获取页码的代码:
let
Source = Web.Page(Web.Contents("https:URL&page=1")),
Data0 = Source{0}[Data],
#"Changed Type" = Table.TransformColumnTypes(Data0,{{"", type text}, {"Policy number", type text}, {"Creation date and time", type text}, {"Deadline", type text}, {"Case Ref", type text}, {"Lock User", type text}}),
#"Removed Top Rows" = Table.Skip(#"Changed Type",21),
#"Removed Other Columns" = Table.SelectColumns(#"Removed Top Rows",{"Creation date and time"}),
#"Split Column by Delimiter" = Table.SplitColumn(#"Removed Other Columns", "Creation date and time", Splitter.SplitTextByDelimiter(" ", QuoteStyle.Csv), {"Creation date and time.1", "Creation date and time.2", "Creation date and time.3", "Creation date and time.4"}),
#"Changed Type1" = Table.TransformColumnTypes(#"Split Column by Delimiter",{{"Creation date and time.1", type text}, {"Creation date and time.2", Int64.Type}, {"Creation date and time.3", type text}, {"Creation date and time.4", Int64.Type}}),
#"Removed Other Columns1" = Table.SelectColumns(#"Changed Type1",{"Creation date and time.4"}),
#"Renamed Columns" = Table.RenameColumns(#"Removed Other Columns1",{{"Creation date and time.4", "I&W - Retail - Pages"}})
in
#"Renamed Columns"
如果不访问您的实际 URL,很难对此进行测试。
但是我们可以通过生成一个页面列表将所有内容合并到一个查询中,用一个函数查询每个页面以return我们想要的数据,然后合并这些数据。
let
SourceURL = "https://URL",
LastPageNumber = (MyURL) =>
let
Source = Web.Page(Web.Contents(MyURL & "&page=1")),
WebData = Source{0}[Data],
#"Filtered Page Text" = Table.SelectRows(WebData, each Text.StartsWith([Creation date and time], "Page ")),
#"Last Page Number" = try Number.FromText(Text.AfterDelimiter(#"Filtered Page Text"{0}[Creation date and time], " ", {0, RelativePosition.FromEnd})) otherwise 8
in
#"Last Page Number",
PageNumbers = List.Numbers(1, LastPageNumber(SourceURL)),
#"Table from List" = Table.FromList(List.Transform(PageNumbers, each Number.ToText(_)), Splitter.SplitByNothing(), {"Page"}),
GetWebData = (MyURL, PageNumber) =>
let
Source = Web.Page(Web.Contents(MyURL & "&page=" & PageNumber)),
WebData = Source{0}[Data],
#"Removed Bottom Rows" = Table.RemoveLastN(WebData,2),
#"Changed Type" = Table.TransformColumnTypes(#"Removed Bottom Rows",{{"", type text}, {"Policy number", type text}, {"Creation date and time", type datetime}, {"Deadline", type datetime}, {"Case Ref", type text}, {"Lock User", type text}})
in
#"Changed Type",
#"Retrieve Web Data" = Table.AddColumn(#"Table from List", "WebData", each try GetWebData(SourceURL, [Page]) otherwise #table({""},{})),
#"Combined Web Data" = Table.Combine(#"Retrieve Web Data"[WebData])
in
#"Combined Web Data"
根据需要更改 SourceURL
值。
第一个函数 LastPageNumber
过滤 Creation date and time
列中以 "Page" 开头的值,并提取最后一个 space 之后的值 - 这为我们提供了 8 "Page 1 of 8".
现在我们可以生成从 1 到最后页码的数字列表。然后第二个函数 GetWebData
检索每个指定页码的网络数据,并将这些表 return 放入列中。
最后,我们使用 Table.Combine
returned 合并网络数据表
我才刚刚开始涉足 M 的世界(我买了一本书和所有东西!),所以我希望你们中的一位聪明人能帮助我 :)
我使用 Power Query 从网站上的 table 跨多个页面提取数据
我很幸运,他们的 URL 以 “page=1”
结尾,等等
我已将每个页面加载为单独的连接(仅连接),并且有一个主 sheet 将所有页面附加在一起。每个连接都命名为 “Page 1”
、“Page 2”
等
原码为:
let
Source = Table.Combine({#"Page 1", #"Page 2", #"Page 3", #"Page 4", #"Page 5", #"Page 6", #"Page 7", #"Page 8", #"Page 9", #"Page 10", #"Page 11", #"Page 12", #"Page 13"})
in
Source
有数据的页面数量不时变化,我想找出一种方法来动态加载最多可用的页面数量
(事实证明,如果您放置的页码高于最大页数,该网站会重复最后一页,因此它会在我的母版中复制它们 table 因为我正在加载 30 页)
因此在只有 8 页数据的示例中,我希望它加载:
let
Source = Table.Combine({#"Page 1", #"Page 2", #"Page 3", #"Page 4", #"Page 5", #"Page 6", #"Page 7", #"Page 8"})
in
Source
我又幸运了,“Page 1 of 8”
在网站上独占一行,所以我可以使用 Power Query
快速搜索 this solution
这似乎是个好计划! 我可以学点M!
但我不想使用单独的文件,所以搜索更多后我找到了一个不同的解决方案,其中包括使用 Excel.CurrentWorkbook(){[Name="TabelName"]}[Content]
所以我结合上面得到:
Source = Excel.CurrentWorkbook(){[Name="TableName"]}[Content],
CombineTable = Table.Combine(Source[Column1])
in
CombineTable
然后我创建了一个名为 TableName
的 table,其中 ‘Page 1’
到 ‘Page 30’
向下,用 IF
语句将其包围,因此它将是空白的在该单元格中,如果它大于页数
将其放入高级编辑器
它看到 ‘Page 1’
,但无法从中生成 table
我知道有一种更简单的方法可以做到这一点,但是我的 Google-Fu 在这里让我失望了。看来这应该是一个非常简单的解决方案哈哈
如果有人能给我指明一个优雅的解决方案的方向,我将永远感激 :)
-编辑-
每个连接的代码(URL是内部业务URL,所以我只是将其替换为URL
):
let
Source = Web.Page(Web.Contents("https://URL&page=1")),
Data0 = Source{0}[Data],
#"Changed Type" = Table.TransformColumnTypes(Data0,{{"", type text}, {"Policy number", type text}, {"Creation date and time", type text}, {"Deadline", type text}, {"Case Ref", type text}, {"Lock User", type text}}),
#"Removed Bottom Rows" = Table.RemoveLastN(#"Changed Type",2),
#"Changed Type1" = Table.TransformColumnTypes(#"Removed Bottom Rows",{{"Creation date and time", type datetime}, {"Deadline", type datetime}}),
#"Removed Columns" = Table.RemoveColumns(#"Changed Type1",{""})
in
#"Removed Columns"
这是获取页码的代码:
let
Source = Web.Page(Web.Contents("https:URL&page=1")),
Data0 = Source{0}[Data],
#"Changed Type" = Table.TransformColumnTypes(Data0,{{"", type text}, {"Policy number", type text}, {"Creation date and time", type text}, {"Deadline", type text}, {"Case Ref", type text}, {"Lock User", type text}}),
#"Removed Top Rows" = Table.Skip(#"Changed Type",21),
#"Removed Other Columns" = Table.SelectColumns(#"Removed Top Rows",{"Creation date and time"}),
#"Split Column by Delimiter" = Table.SplitColumn(#"Removed Other Columns", "Creation date and time", Splitter.SplitTextByDelimiter(" ", QuoteStyle.Csv), {"Creation date and time.1", "Creation date and time.2", "Creation date and time.3", "Creation date and time.4"}),
#"Changed Type1" = Table.TransformColumnTypes(#"Split Column by Delimiter",{{"Creation date and time.1", type text}, {"Creation date and time.2", Int64.Type}, {"Creation date and time.3", type text}, {"Creation date and time.4", Int64.Type}}),
#"Removed Other Columns1" = Table.SelectColumns(#"Changed Type1",{"Creation date and time.4"}),
#"Renamed Columns" = Table.RenameColumns(#"Removed Other Columns1",{{"Creation date and time.4", "I&W - Retail - Pages"}})
in
#"Renamed Columns"
如果不访问您的实际 URL,很难对此进行测试。
但是我们可以通过生成一个页面列表将所有内容合并到一个查询中,用一个函数查询每个页面以return我们想要的数据,然后合并这些数据。
let
SourceURL = "https://URL",
LastPageNumber = (MyURL) =>
let
Source = Web.Page(Web.Contents(MyURL & "&page=1")),
WebData = Source{0}[Data],
#"Filtered Page Text" = Table.SelectRows(WebData, each Text.StartsWith([Creation date and time], "Page ")),
#"Last Page Number" = try Number.FromText(Text.AfterDelimiter(#"Filtered Page Text"{0}[Creation date and time], " ", {0, RelativePosition.FromEnd})) otherwise 8
in
#"Last Page Number",
PageNumbers = List.Numbers(1, LastPageNumber(SourceURL)),
#"Table from List" = Table.FromList(List.Transform(PageNumbers, each Number.ToText(_)), Splitter.SplitByNothing(), {"Page"}),
GetWebData = (MyURL, PageNumber) =>
let
Source = Web.Page(Web.Contents(MyURL & "&page=" & PageNumber)),
WebData = Source{0}[Data],
#"Removed Bottom Rows" = Table.RemoveLastN(WebData,2),
#"Changed Type" = Table.TransformColumnTypes(#"Removed Bottom Rows",{{"", type text}, {"Policy number", type text}, {"Creation date and time", type datetime}, {"Deadline", type datetime}, {"Case Ref", type text}, {"Lock User", type text}})
in
#"Changed Type",
#"Retrieve Web Data" = Table.AddColumn(#"Table from List", "WebData", each try GetWebData(SourceURL, [Page]) otherwise #table({""},{})),
#"Combined Web Data" = Table.Combine(#"Retrieve Web Data"[WebData])
in
#"Combined Web Data"
根据需要更改 SourceURL
值。
第一个函数 LastPageNumber
过滤 Creation date and time
列中以 "Page" 开头的值,并提取最后一个 space 之后的值 - 这为我们提供了 8 "Page 1 of 8".
现在我们可以生成从 1 到最后页码的数字列表。然后第二个函数 GetWebData
检索每个指定页码的网络数据,并将这些表 return 放入列中。
最后,我们使用 Table.Combine