使用 PHP 从网站或文本文档中提取数据并保存在数据库中
Extract Data from a website or text document using PHP and save in database
我正在构建一个地理位置应用程序。我有一个街道名称列表及其
我在以下网站 streets 上找到的坐标。这份榜单
包含 4000 多个街道名称和坐标。我正在尝试添加
列在我的数据库中。谁能告诉我如何提取这些数据
从网站或文本文档并将其插入我的数据库
table 最好使用 PHP.
数据库TABLE示例
TABLE `street_names` (
`id` int(11) NOT NULL,
`name` varchar(150) DEFAULT NULL,
`latitude` varchar(255) DEFAULT NULL,
`longitude` varchar(255) DEFAULT NULL,
`created_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
`updated_at` timestamp NULL DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1;
文本文档示例
A Kriel Street -25.69664263 28.41030434
Abraham Mogopodi Avenue -25.71338241 28.37033247
Absalome Street -25.70997386 28.3568847
Alan Paton Street -25.72122505 28.42021664
Alfred Nzo Crescent -25.6882444 28.41519928
Annah Mabusela Street -25.70656941 28.34339845
Anton Lembede Street -25.71813448 28.41874969
Aphane Nhlapo Street -25.7208474 28.38598257
Apple Close -25.71151327 28.38914898
Areyeng Street -25.72404151 28.38545561
Aseletho Street -25.71910848 28.41628606
Azikwelwa Street -25.70616386 28.40821879
Azondo Street -25.69615534 28.41117811
B Z Ndlazi Street -25.71074853 28.37073878
Badanile Avenue -25.71883255 28.42320088
Bahula Street -25.70728106 28.35488834
Baloyi Close -25.72553726 28.38641741
Bana Street -25.70942133 28.40631067
Banana Close -25.71194649 28.39090203
我认为这个正则表达式可以完成你想要的。这也假设数据格式是一致的纯文本。
(?m)^(?P<Street>(?:[A-Za-z\d]+\h)+)\h{2,}(?P<LAT>-?\d*\.\d+)\h{2,}(?P<LON>-?\d*\.\d+)$
https://regex101.com/r/ctUp0L/1/
数据点似乎被至少 2 个空格分开,所以我将其用作分隔符。这也可以用 explode
和 preg_split
.
来完成
$lines = explode(PHP_EOL, $string);
foreach($lines as $line) {
$lines_array[] = preg_split('/\h{2,}/', $line, -1, PREG_SPLIT_NO_EMPTY);
}
我正在构建一个地理位置应用程序。我有一个街道名称列表及其 我在以下网站 streets 上找到的坐标。这份榜单 包含 4000 多个街道名称和坐标。我正在尝试添加 列在我的数据库中。谁能告诉我如何提取这些数据 从网站或文本文档并将其插入我的数据库 table 最好使用 PHP.
数据库TABLE示例
TABLE `street_names` (
`id` int(11) NOT NULL,
`name` varchar(150) DEFAULT NULL,
`latitude` varchar(255) DEFAULT NULL,
`longitude` varchar(255) DEFAULT NULL,
`created_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
`updated_at` timestamp NULL DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1;
文本文档示例
A Kriel Street -25.69664263 28.41030434
Abraham Mogopodi Avenue -25.71338241 28.37033247
Absalome Street -25.70997386 28.3568847
Alan Paton Street -25.72122505 28.42021664
Alfred Nzo Crescent -25.6882444 28.41519928
Annah Mabusela Street -25.70656941 28.34339845
Anton Lembede Street -25.71813448 28.41874969
Aphane Nhlapo Street -25.7208474 28.38598257
Apple Close -25.71151327 28.38914898
Areyeng Street -25.72404151 28.38545561
Aseletho Street -25.71910848 28.41628606
Azikwelwa Street -25.70616386 28.40821879
Azondo Street -25.69615534 28.41117811
B Z Ndlazi Street -25.71074853 28.37073878
Badanile Avenue -25.71883255 28.42320088
Bahula Street -25.70728106 28.35488834
Baloyi Close -25.72553726 28.38641741
Bana Street -25.70942133 28.40631067
Banana Close -25.71194649 28.39090203
我认为这个正则表达式可以完成你想要的。这也假设数据格式是一致的纯文本。
(?m)^(?P<Street>(?:[A-Za-z\d]+\h)+)\h{2,}(?P<LAT>-?\d*\.\d+)\h{2,}(?P<LON>-?\d*\.\d+)$
https://regex101.com/r/ctUp0L/1/
数据点似乎被至少 2 个空格分开,所以我将其用作分隔符。这也可以用 explode
和 preg_split
.
$lines = explode(PHP_EOL, $string);
foreach($lines as $line) {
$lines_array[] = preg_split('/\h{2,}/', $line, -1, PREG_SPLIT_NO_EMPTY);
}