선릉역 1번 출구
[tryhackme] Google Dorking 본문
- 검색 엔진
Crawling
- 다양한 수단을 통해 콘텐츠를 검색
- 크롤러가 URL을 방문하고 키워드들을 색인함
Google 검색은 세 단계로 작동하며, 각 단계가 모든 페이지에 적용되는 것은 아닙니다.
1. 크롤링: Google은 크롤러라는 자동화된 프로그램을 사용하여 인터넷에서 찾은 페이지로부터 텍스트, 이미지, 동영상을 다운로드합니다.
2. 색인 생성: Google은 페이지의 텍스트, 이미지, 동영상 파일을 분석하고 대규모 데이터베이스인 Google 색인에 이 정보를 저장합니다.
3. 검색결과 게재: 사용자가 Google에서 검색하면 Google에서는 사용자의 검색어와 관련된 정보를 반환합니다.
SEO(search engine optimiztion) - 검색엔진최적화
- 추상적 관점에서 검색 엔진은 색인 생성이 더 쉬운 도메인을 "우선순위"로 지정함
- 해당 도메인이 얼마나 "최적"인지 결정하는 데에는 여러 가지 요소가 있음
Robots.txt
- 검색엔진이 접근해 정보수집을 해도되는 페이지가 무엇인지, 안되는 페이지가 무엇인지 알려주는 역할의 텍스트 파일
- (장점)
- 크롤러의 과도한 크롤링 및 요청으로 인해 과부하 방지 가능
- 검색엔진 크롤러에게 사이트맵(sitemap.xml)의 위치를 제공해 웹사이트의 콘텐츠가 검색엔진에게 더 잘 발견될 수 있도록 함
- (파일 주소)
- 웹 사이트의 robots.txt는 웹사이트 URL/robots.txt가 됨
- 루트 디렉토리로부터 가장먼저 served 되는 파일로, 반드시 사이트의 루트 디렉토리에 위치해야함
- 작성 규칙
| User-agent | 내 사이트에 index가 가능한 크롤러 타입을 명시함 |
| Allow | 크롤러가 index할 수 있는 디렉토리나 파일을 명시함 |
| Disallow | 크롤러가 index할 수 없는 디렉토리나 파일을 명시함 |
| Sitemap | sitemap 위치에 대한 참조를 제공함 |
Sitemap
- site + map: 웹사이트의 지도
- 웹사이트의 구조를 크롤러가 찾기 쉽도록 정리한 XML 형식의 파일
- *크롤러가 내 웹사이트에 정보 수집을 위해 방문했다고 하더라도, 내 사이트 內 모든 웹페이지들의 내용을 충분히 가져갔다고 보장할 수는 없음 > 사이트맵은 크롤러에게 웹사이트의 구조와 목차를 설명해주고 보다 쉽게 정보를 수집해갈 수 있도록 하는 역할을 함
Google Dorking
| filetype | 파일 확장자 검색 |
| cache | 특정 URL의 google에 cache된 version 검색 |
| intitle | page title에 나타나야 하는 구절 지정 |
| 그 외... | https://bignet.tistory.com/82 |
'Project > Program' 카테고리의 다른 글
| [tryhackme] UAC bypass(1) (0) | 2023.11.07 |
|---|---|
| [tryhackme] Nmap Live Host Discovery (0) | 2023.11.07 |
| [Becoming the hacker] Low-Hanging Fruit (1) | 2023.10.22 |
| [Becoming the hacker] Efficient Discovery (0) | 2023.10.20 |
| [Becoming the hacker] Penetration Test Tools (0) | 2023.10.19 |
Comments