본문 바로가기
프로그래머/소프트웨어공

웹 크롤러 (crawler)

by plog 2010. 11. 19.
웹페이지를 방문하여 정보를 자동으로 수집해오는 프로그램... 스파이더, 웹수집기라고도 불리운다.

웹에서의 정보검색시스템은 정보수집, 가공 제공 세 가지 기능으로 구성된다. 
수집은 크롤러
가공은 인덱서(문서색인기)
제공은 사용자 인터페이스(UI)가 맡게 된다.

인터넷포털에서 정보검색 서비스를 제공하기 위하여 운영하는 검색엔진은
크롤러가 수 많은 웹페이지에서 수집한 다양한 정보를 검색하기 쉬운 형태로 가공한 후 색인을 만들어 서버에 보존한다.그리고 사용자가 특정 검색어를 입력하면 쿼리(query)를 통해 인덱서 서버 안에 축적되어 있는 정보를 꺼내어 검색결과를 제공하는 시스템으로 구성되어 있다.

크롤러(crawler)란 사전적으로 ‘기어가는 사람’ 또는 ‘포복동물’이라는 의미이며,거대한 인터넷 환경 웹페이지를 돌아다니며 웹문서로 부터 각종 정보들을 수집해오는 기능으로 인하여 이런 이름이 붙었다고 한다. (솔직히 사전적 의미랑 웹사이트에서 정보를 수집하는거랑 무슨 상관인지 잘 이해가 안간다 )

크롤러가 수행하는 작업을 크롤링 또는 스파이더링이라고 부른다.

참고: 웹에서 무료로 접할 수 있는 정보 검색 관련 여러  한글 논문 

'프로그래머 > 소프트웨어공' 카테고리의 다른 글

PageRank 2 (예제)  (0) 2010.12.17
PageRank 1 (개요)  (1) 2010.12.17
Software artifact란  (1) 2010.06.02
Code Inspection Tool - PMD 사용법  (0) 2010.05.31
PDCA 사이클  (0) 2010.05.25

댓글