스크립트 조사 crawler 만들기

스크립트 조사 crawler 만들기

작년 10월 달에 회사내에서 갑자기 전체 메일로 회사에서 만든 스크립트가 버전이 파편화 되있는데
적용한 사이트에서 어떤 버전이 어떤식으로 쓰이는지 모르니 전수조사를 위해 개인마다 할당 된적이 있었다.

요건은

1
2
3
4
5

1. async 나 defer 사용하고 있나?
2. 스크립트 내에 scriptOnload 방식을 어떤식으로 사용하나?(예:window.onload, window.attachEvent("onload") 등등) 유형별로 분리
3. 특정 서버를 호출하는 로직이 있나?(해당 여부에따라 버전이 나누어짐)

위에 요건을 확인하기 위해 소스보기를 하면서 검수를 해야 되는 상황이 였다.
단순한 요건이라서 크롤링을 통해서 해결할수 있을것 같아서 크롤링 소스를 짜서 보았다.

webmagic이라는 오픈소스를 사용하여 첫번째 페이지에 링크걸린 페이지를 조사하는 크롤링코드를 작성하여 해당 작업을 마무리 지었다.

참조