스크립트 조사 crawler 만들기
작년 10월 달에 회사내에서 갑자기 전체 메일로 회사에서 만든 스크립트가 버전이 파편화 되있는데
적용한 사이트에서 어떤 버전이 어떤식으로 쓰이는지 모르니 전수조사를 위해 개인마다 할당 된적이 있었다.
요건은
1 |
|
위에 요건을 확인하기 위해 소스보기를 하면서 검수를 해야 되는 상황이 였다.
단순한 요건이라서 크롤링을 통해서 해결할수 있을것 같아서 크롤링 소스를 짜서 보았다.
webmagic이라는 오픈소스를 사용하여 첫번째 페이지에 링크걸린 페이지를 조사하는 크롤링코드를 작성하여 해당 작업을 마무리 지었다.