선릉역 1번 출구

[tryhackme] Google Dorking 본문

Project/Program

[tryhackme] Google Dorking

choideu 2023. 11. 6. 18:57

Google

- 검색 엔진

 

Crawling

- 다양한 수단을 통해 콘텐츠를 검색

- 크롤러가 URL을 방문하고 키워드들을 색인함

Google 검색은 세 단계로 작동하며, 각 단계가 모든 페이지에 적용되는 것은 아닙니다.
1. 크롤링: Google은 크롤러라는 자동화된 프로그램을 사용하여 인터넷에서 찾은 페이지로부터 텍스트, 이미지, 동영상을 다운로드합니다.
2. 색인 생성: Google은 페이지의 텍스트, 이미지, 동영상 파일을 분석하고 대규모 데이터베이스인 Google 색인에 이 정보를 저장합니다.
3. 검색결과 게재: 사용자가 Google에서 검색하면 Google에서는 사용자의 검색어와 관련된 정보를 반환합니다.

 

SEO(search engine optimiztion) - 검색엔진최적화

- 추상적 관점에서 검색 엔진은 색인 생성이 더 쉬운 도메인을 "우선순위"로 지정함

- 해당 도메인이 얼마나 "최적"인지 결정하는 데에는 여러 가지 요소가 있음

 

Robots.txt

- 검색엔진이 접근해 정보수집을 해도되는 페이지가 무엇인지, 안되는 페이지가 무엇인지 알려주는 역할의 텍스트 파일

- (장점)

  • 크롤러의 과도한 크롤링 및 요청으로 인해 과부하 방지 가능
  • 검색엔진 크롤러에게 사이트맵(sitemap.xml)의 위치를 제공해 웹사이트의 콘텐츠가 검색엔진에게 더 잘 발견될 수 있도록 함

- (파일 주소)

  • 웹 사이트의 robots.txt는 웹사이트 URL/robots.txt가 됨
  • 루트 디렉토리로부터 가장먼저 served 되는 파일로, 반드시 사이트의 루트 디렉토리에 위치해야함

- 작성 규칙

User-agent 내 사이트에 index가 가능한 크롤러 타입을 명시함
Allow 크롤러가 index할 수 있는 디렉토리나 파일을 명시함
Disallow 크롤러가 index할 수 없는 디렉토리나 파일을 명시함
Sitemap sitemap 위치에 대한 참조를 제공함

 

Sitemap

- site + map: 웹사이트의 지도

- 웹사이트의 구조를 크롤러가 찾기 쉽도록 정리한 XML 형식의 파일

- *크롤러가 내 웹사이트에 정보 수집을 위해 방문했다고 하더라도, 내 사이트 內 모든 웹페이지들의 내용을 충분히 가져갔다고 보장할 수는 없음 > 사이트맵은 크롤러에게 웹사이트의 구조와 목차를 설명해주고 보다 쉽게 정보를 수집해갈 수 있도록 하는 역할을 함

 

Google Dorking

filetype 파일 확장자 검색
cache 특정 URL의 google에 cache된 version 검색
intitle page title에 나타나야 하는 구절 지정
그 외... https://bignet.tistory.com/82
Comments