奇怪的 len 函数(或字符串)行为
Strange len function (or string) behavior
我正在尝试使用 goquery 解析时间表内容以便稍后使用。但是我有一个问题。
我有两个功能。第一个获取 html 文档并搜索令牌 (csrfmiddlewaretoken),第二个使用此令牌发送请求并提取信息。从页面中提取所有必要的信息后,我搜索令牌以在将来的请求中使用它并存储它。
但由于某些原因,找到的令牌在到达 if len(foundCsrfToken) == 0 {
时变成了一个空字符串。如果我在语句之前打印令牌的长度,它会打印:
...
64
0
...
我已经摆脱了所有的 goroutines 以防万一。
func findCsrfMiddlewareToken(responseBody io.Reader) (string, error) {
document, err := goquery.NewDocumentFromReader(responseBody)
if err != nil {
return "", err
}
var foundCsrfToken string
document.Find("script").Each(func(_ int, scrpt *goquery.Selection) {
scriptText := scrpt.Text()
if funcDefIndex := strings.Index(scriptText, "function Filter"); funcDefIndex != -1 {
csrfTokenValueStart := strings.Index(scriptText, "csrfmiddlewaretoken: '")
offset := csrfTokenValueStart + len("csrfmiddlewaretoken: '")
foundCsrfToken = scriptText[offset : offset+csrfMiddlewareTokenLength]
}
})
if len(foundCsrfToken) == 0 {
return "", errNoCsrfMiddlewareToken
}
return foundCsrfToken, nil
}
func (parser *TimetableParser) ParseTimetable(timetableFilterInfo internal.TimetableInfo) (internal.Timetable, error) {
timetable := internal.Timetable{}
requestBody := makeFormValues(timetableFilterInfo, parser.csrfMiddlewareToken).Encode()
request, err := http.NewRequest("POST", baseUrl, strings.NewReader(requestBody))
if err != nil {
return timetable, err
}
request.Header.Add("Content-Type", "application/x-www-form-urlencoded")
request.Header.Add("Content-Length", strconv.Itoa(len(requestBody)))
request.Header.Add("Referer", baseUrl)
response, err := parser.client.Do(request)
if err != nil {
return timetable, err
}
defer response.Body.Close()
document, err := goquery.NewDocumentFromReader(response.Body)
if err != nil {
return timetable, err
}
document.Find("table#schedule").Find("tr").Each(func(rowIndex int, row *goquery.Selection) {
subjectTimeElement := row.Closest("td")
subjectTimeElement.NextAll().Each(func(columnIndex int, cell *goquery.Selection) {
subjectInfo := extractSubjectInfoFromCell(cell)
subjectInfo.Order = rowIndex
timetable.Subjects[columnIndex][rowIndex] = subjectInfo
})
})
parser.csrfMiddlewareToken, err = findCsrfMiddlewareToken(response.Body)
if err != nil {
log.Println("csrfMiddlewareToken: " + err.Error())
}
return timetable, nil
}
Go版本: go1.17.1 windows/amd64
goquery 版本: 1.7.1
我刚刚意识到出了什么问题。 io.Reader 被视为流。因此,当我从中读取一次时,它就变空了。如您所见,在收集所有必要信息并读取响应后,它被传递到第一个函数中。但它已经是空的了。
当我第一次调用 findCsrfMiddlewareToken
函数时,它照常工作并打印标记长度 (64)。但是当我第二次调用空响应时,它打印 0.
可能的解决方案:
我正在尝试使用 goquery 解析时间表内容以便稍后使用。但是我有一个问题。
我有两个功能。第一个获取 html 文档并搜索令牌 (csrfmiddlewaretoken),第二个使用此令牌发送请求并提取信息。从页面中提取所有必要的信息后,我搜索令牌以在将来的请求中使用它并存储它。
但由于某些原因,找到的令牌在到达 if len(foundCsrfToken) == 0 {
时变成了一个空字符串。如果我在语句之前打印令牌的长度,它会打印:
...
64
0
...
我已经摆脱了所有的 goroutines 以防万一。
func findCsrfMiddlewareToken(responseBody io.Reader) (string, error) {
document, err := goquery.NewDocumentFromReader(responseBody)
if err != nil {
return "", err
}
var foundCsrfToken string
document.Find("script").Each(func(_ int, scrpt *goquery.Selection) {
scriptText := scrpt.Text()
if funcDefIndex := strings.Index(scriptText, "function Filter"); funcDefIndex != -1 {
csrfTokenValueStart := strings.Index(scriptText, "csrfmiddlewaretoken: '")
offset := csrfTokenValueStart + len("csrfmiddlewaretoken: '")
foundCsrfToken = scriptText[offset : offset+csrfMiddlewareTokenLength]
}
})
if len(foundCsrfToken) == 0 {
return "", errNoCsrfMiddlewareToken
}
return foundCsrfToken, nil
}
func (parser *TimetableParser) ParseTimetable(timetableFilterInfo internal.TimetableInfo) (internal.Timetable, error) {
timetable := internal.Timetable{}
requestBody := makeFormValues(timetableFilterInfo, parser.csrfMiddlewareToken).Encode()
request, err := http.NewRequest("POST", baseUrl, strings.NewReader(requestBody))
if err != nil {
return timetable, err
}
request.Header.Add("Content-Type", "application/x-www-form-urlencoded")
request.Header.Add("Content-Length", strconv.Itoa(len(requestBody)))
request.Header.Add("Referer", baseUrl)
response, err := parser.client.Do(request)
if err != nil {
return timetable, err
}
defer response.Body.Close()
document, err := goquery.NewDocumentFromReader(response.Body)
if err != nil {
return timetable, err
}
document.Find("table#schedule").Find("tr").Each(func(rowIndex int, row *goquery.Selection) {
subjectTimeElement := row.Closest("td")
subjectTimeElement.NextAll().Each(func(columnIndex int, cell *goquery.Selection) {
subjectInfo := extractSubjectInfoFromCell(cell)
subjectInfo.Order = rowIndex
timetable.Subjects[columnIndex][rowIndex] = subjectInfo
})
})
parser.csrfMiddlewareToken, err = findCsrfMiddlewareToken(response.Body)
if err != nil {
log.Println("csrfMiddlewareToken: " + err.Error())
}
return timetable, nil
}
Go版本: go1.17.1 windows/amd64
goquery 版本: 1.7.1
我刚刚意识到出了什么问题。 io.Reader 被视为流。因此,当我从中读取一次时,它就变空了。如您所见,在收集所有必要信息并读取响应后,它被传递到第一个函数中。但它已经是空的了。
当我第一次调用 findCsrfMiddlewareToken
函数时,它照常工作并打印标记长度 (64)。但是当我第二次调用空响应时,它打印 0.
可能的解决方案: