그 때는 검색봇 이름이 'pirs'과 'pirst'였다. 그런데, 3일전에 'first'로 비슷하게 이름이 바뀌어서 접속을 했다. 기존에 User-Agent명으로 차단을 시켜두었다. 하지만, 이를 비켜간 'first'는 마구 긁어가기 시작했다. 몇 시간뒤에 차단 조치를 취하고(개인정보를 취급하지 않는 사이트임), 얼마동안 페이지를 긁어가는지 확인했다. 48시간 가까이 긁어갔다. 포털, 구글의 봇보다 무섭다.
- 사이트 운영자들은 봇이름으로 차단하는 경우가 많다. 그런데, 이름을 바꾸면 문제가 있지 않겠는가? 예를 들어 구글이나 네이버, 다음의 봇 이름이 바뀐다고 생각해봐라.
- 여전히 robots.txt는 읽지 않았다. KISA의 공지와는 다르게 검색 규칙을 따르지 않는 것이다.
- 과거에 긁어간 적이 있는 사이트는 페이지 목록이 DB화되어 있는 건가? 차단을 해도 여전히 여러 페이지를 읽어갔다.
- referer는 http://www.pirst.kr:6600/RS/PIRST_FAQ.jsp 로 남았다.
- IP대역은 61.111.15.110~61.111.15.119까지 총 10개이다. 이전의 IP 대역과 비슷하고, 검색 서버의 대수는 동일했다. KISA 모니터링 시스템에 대해서는 'KISA의 '개인정보 모니터링 시스템'에서 확인할 수 있다.
[ referer에 남겨진 http://www.pirst.kr:6600/RS/PIRST_FAQ.jsp 페이지의 공지 내용 ]
* 관련글 :
2009/12/14 - [IT이야기] - KISA, 개인정보 노출 검사 위해 웹페이지 마구잡이로 긁어가
2010/04/15 - [IT이야기] - KISA의 웹사이트 개인정보 모니터링 시스템
'IT이야기' 카테고리의 다른 글
쥐박이와 명박이 도메인 (2) | 2011.08.13 |
---|---|
Facebook의 데이터센터와 서버 (5) | 2011.04.20 |
KISA, 개인정보 노출 검사위해 웹페이지 여전히 긁어간다 (6) | 2011.03.24 |
이집트 정부의 인터넷 차단 (4) | 2011.02.01 |
좀비PC 양산체제와 DDoS 공격 (4) | 2011.01.20 |
아마존의 EC2 클러스터, 세계 슈퍼컴 중 231위 (8) | 2010.12.16 |
댓글을 달아 주세요
일반 검색과 동일한 규칙으로 검색한다네요?
2011.03.25 22:32 [ ADDR : EDIT/ DEL : REPLY ]예. 말을 그렇게 쓰여있습니다만, 적당히 지킨다가 맞을 것 같아요. '동일한 규칙'이면 'robots.txt'파일 먼저 읽고, 해당 사이트가 봇을 거부했는지 여부를 먼저 봐야 맞거든요.
2011.03.27 01:44 신고 [ ADDR : EDIT/ DEL ]그렇군요.
2011.03.30 02:59 [ ADDR : EDIT/ DEL : REPLY ]110,45,148,xxx 대역 크롤러는 거의 완장수준 같네요.
방송통신위원회 산하 한국인터넷진흥원 봇 문제있다고 봅니다.
긁어가서 뭘 어쩌겠다는건지, 간댕이가 부은건지, 할일이 그렇게도 없는지...
48시간동안 긁는 건 놀랄만합니다. ^^
2011.03.31 00:42 신고 [ ADDR : EDIT/ DEL ]어느 정도 긁어가면 개인정보 취급안하는 사이트다라는 것을 판단하도록 봇을 만들면 좋을텐데 말이죠.
ㅡ.ㅡ 흠... 개인정보 관련 수집만 하는지 알수가 없으니...
2011.03.30 17:38 [ ADDR : EDIT/ DEL : REPLY ]명분은 좋은 취지지만... 위험 하네요...
진호님 잘 지내시죠???
맞아요. 그 목적만으로 이용되는지는 알 수가 없죠. ^^
2011.03.31 00:43 신고 [ ADDR : EDIT/ DEL ]잘 지냅니다.
요즘은 그 분야 인력이 많이 부족한 것 같던데요. 사람 필요하다는 곳은 많은데, 사람은 없고. ^^