IT이야기2011. 3. 24. 21:20

그 때는 검색봇 이름이 'pirs'과 'pirst'였다. 그런데, 3일전에 'first'로 비슷하게 이름이 바뀌어서 접속을 했다. 기존에 User-Agent명으로 차단을 시켜두었다. 하지만, 이를 비켜간 'first'는 마구 긁어가기 시작했다. 몇 시간뒤에 차단 조치를 취하고(개인정보를 취급하지 않는 사이트임), 얼마동안 페이지를 긁어가는지 확인했다. 48시간 가까이 긁어갔다. 포털, 구글의 봇보다 무섭다.

  • 사이트 운영자들은 봇이름으로 차단하는 경우가 많다. 그런데, 이름을 바꾸면 문제가 있지 않겠는가? 예를 들어 구글이나 네이버, 다음의 봇 이름이 바뀐다고 생각해봐라.
  • 여전히 robots.txt는 읽지 않았다. KISA의 공지와는 다르게 검색 규칙을 따르지 않는 것이다.
  • 과거에 긁어간 적이 있는 사이트는 페이지 목록이 DB화되어 있는 건가? 차단을 해도 여전히 여러 페이지를 읽어갔다.
  • referer는 http://www.pirst.kr:6600/RS/PIRST_FAQ.jsp 로 남았다.
  • IP대역은 61.111.15.110~61.111.15.119까지 총 10개이다. 이전의 IP 대역과 비슷하고, 검색 서버의 대수는 동일했다. KISA 모니터링 시스템에 대해서는 'KISA의 '개인정보 모니터링 시스템'에서 확인할 수 있다.

[ referer에 남겨진 http://www.pirst.kr:6600/RS/PIRST_FAQ.jsp 페이지의 공지 내용 ]


사이트 운영자에게 대상 사이트임을 먼저 알리는게 우선이지, 먼저 긁어가고 불편하면 메일로 문의를 하라는 것은 순서가 바뀌것 아닌가? 요즘 개인정보노출에 대한 문제가 많다. 그래서 KISA의 취지를 이해하고, 취지도 좋다고 본다. 하지만, 좋지 않은 인상을 남기는 안타까운 순간이다.
Posted by 좋은진호

댓글을 달아 주세요

  1. 일반 검색과 동일한 규칙으로 검색한다네요?

    2011.03.25 22:32 [ ADDR : EDIT/ DEL : REPLY ]
    • 예. 말을 그렇게 쓰여있습니다만, 적당히 지킨다가 맞을 것 같아요. '동일한 규칙'이면 'robots.txt'파일 먼저 읽고, 해당 사이트가 봇을 거부했는지 여부를 먼저 봐야 맞거든요.

      2011.03.27 01:44 신고 [ ADDR : EDIT/ DEL ]
  2. 봄나물

    그렇군요.
    110,45,148,xxx 대역 크롤러는 거의 완장수준 같네요.
    방송통신위원회 산하 한국인터넷진흥원 봇 문제있다고 봅니다.
    긁어가서 뭘 어쩌겠다는건지, 간댕이가 부은건지, 할일이 그렇게도 없는지...

    2011.03.30 02:59 [ ADDR : EDIT/ DEL : REPLY ]
    • 48시간동안 긁는 건 놀랄만합니다. ^^
      어느 정도 긁어가면 개인정보 취급안하는 사이트다라는 것을 판단하도록 봇을 만들면 좋을텐데 말이죠.

      2011.03.31 00:42 신고 [ ADDR : EDIT/ DEL ]
  3. ㅡ.ㅡ 흠... 개인정보 관련 수집만 하는지 알수가 없으니...

    명분은 좋은 취지지만... 위험 하네요...

    진호님 잘 지내시죠???

    2011.03.30 17:38 [ ADDR : EDIT/ DEL : REPLY ]
    • 맞아요. 그 목적만으로 이용되는지는 알 수가 없죠. ^^

      잘 지냅니다.
      요즘은 그 분야 인력이 많이 부족한 것 같던데요. 사람 필요하다는 곳은 많은데, 사람은 없고. ^^

      2011.03.31 00:43 신고 [ ADDR : EDIT/ DEL ]