Pandas - 如何清理废料

Pandas - How To Clean Up Scrape

我的目标是访问临床试验页面,并拉出给定 table.

的最后一行

我当前的代码在提取最后一行时提取的信息比需要的多。 (见附件)

我只想提取日期(以绿色突出显示)。

import pandas as pd
import time
from selenium import webdriver
driver = webdriver.Chrome()

url='https://clinicaltrials.gov/ct2/show/NCT03328858?cond=brain+tumor&draw=2&rank=4'
driver.get(url)
time.sleep(1)

df=pd.read_html(url)[3] 
df3=df.iloc[-1]
print(df3)

因此,如果您想获得最后一个 series 的最后一个 value,您可以这样使用 .iloc[] 方法:

df.iloc[-1,-1]

或系列名称,如果您知道或确定它会是 'Unnamed: 1':

df['Unnamed: 1'].iloc[-1]

会给你:

January 31, 2020