IT이야기2011. 3. 24. 21:20

그 때는 검색봇 이름이 'pirs'과 'pirst'였다. 그런데, 3일전에 'first'로 비슷하게 이름이 바뀌어서 접속을 했다. 기존에 User-Agent명으로 차단을 시켜두었다. 하지만, 이를 비켜간 'first'는 마구 긁어가기 시작했다. 몇 시간뒤에 차단 조치를 취하고(개인정보를 취급하지 않는 사이트임), 얼마동안 페이지를 긁어가는지 확인했다. 48시간 가까이 긁어갔다. 포털, 구글의 봇보다 무섭다.

  • 사이트 운영자들은 봇이름으로 차단하는 경우가 많다. 그런데, 이름을 바꾸면 문제가 있지 않겠는가? 예를 들어 구글이나 네이버, 다음의 봇 이름이 바뀐다고 생각해봐라.
  • 여전히 robots.txt는 읽지 않았다. KISA의 공지와는 다르게 검색 규칙을 따르지 않는 것이다.
  • 과거에 긁어간 적이 있는 사이트는 페이지 목록이 DB화되어 있는 건가? 차단을 해도 여전히 여러 페이지를 읽어갔다.
  • referer는 http://www.pirst.kr:6600/RS/PIRST_FAQ.jsp 로 남았다.
  • IP대역은 61.111.15.110~61.111.15.119까지 총 10개이다. 이전의 IP 대역과 비슷하고, 검색 서버의 대수는 동일했다. KISA 모니터링 시스템에 대해서는 'KISA의 '개인정보 모니터링 시스템'에서 확인할 수 있다.

[ referer에 남겨진 http://www.pirst.kr:6600/RS/PIRST_FAQ.jsp 페이지의 공지 내용 ]


사이트 운영자에게 대상 사이트임을 먼저 알리는게 우선이지, 먼저 긁어가고 불편하면 메일로 문의를 하라는 것은 순서가 바뀌것 아닌가? 요즘 개인정보노출에 대한 문제가 많다. 그래서 KISA의 취지를 이해하고, 취지도 좋다고 본다. 하지만, 좋지 않은 인상을 남기는 안타까운 순간이다.
Posted by 좋은진호

댓글을 달아 주세요

  1. 일반 검색과 동일한 규칙으로 검색한다네요?

    2011.03.25 22:32 [ ADDR : EDIT/ DEL : REPLY ]
    • 예. 말을 그렇게 쓰여있습니다만, 적당히 지킨다가 맞을 것 같아요. '동일한 규칙'이면 'robots.txt'파일 먼저 읽고, 해당 사이트가 봇을 거부했는지 여부를 먼저 봐야 맞거든요.

      2011.03.27 01:44 신고 [ ADDR : EDIT/ DEL ]
  2. 봄나물

    그렇군요.
    110,45,148,xxx 대역 크롤러는 거의 완장수준 같네요.
    방송통신위원회 산하 한국인터넷진흥원 봇 문제있다고 봅니다.
    긁어가서 뭘 어쩌겠다는건지, 간댕이가 부은건지, 할일이 그렇게도 없는지...

    2011.03.30 02:59 [ ADDR : EDIT/ DEL : REPLY ]
    • 48시간동안 긁는 건 놀랄만합니다. ^^
      어느 정도 긁어가면 개인정보 취급안하는 사이트다라는 것을 판단하도록 봇을 만들면 좋을텐데 말이죠.

      2011.03.31 00:42 신고 [ ADDR : EDIT/ DEL ]
  3. ㅡ.ㅡ 흠... 개인정보 관련 수집만 하는지 알수가 없으니...

    명분은 좋은 취지지만... 위험 하네요...

    진호님 잘 지내시죠???

    2011.03.30 17:38 [ ADDR : EDIT/ DEL : REPLY ]
    • 맞아요. 그 목적만으로 이용되는지는 알 수가 없죠. ^^

      잘 지냅니다.
      요즘은 그 분야 인력이 많이 부족한 것 같던데요. 사람 필요하다는 곳은 많은데, 사람은 없고. ^^

      2011.03.31 00:43 신고 [ ADDR : EDIT/ DEL ]

IT이야기2010. 4. 15. 01:32
최근 KISA의 '입찰공고' 중에 '2010년 웹사이트 개인정보 모니터링 사업자 선정' 제안요청서를 봤다. 개인정보 모니터링 시스템의 환경 정보가 있다.

- 10대 검색서버(OS : Redhat Ent5.0 이상)
-  3대 검증/제어/현황/확인 서버
-  1대 DB 서버 (DBMS 알티베이스)

검색서버, 즉 검색봇 용도로 10대가 마련되어 있다. 10대라면 떠오르는게 있다.

2009년 12월에 'KISA, 개인정보 노출 검사 위해 웹페이지 마구잡이로 긁어가'라는 제목으로 썼던 'KISA 개인정보 노출 대응시스템'이 있다. 그 때 검색봇인 pirs 봇의 IP가 210.97.192.140~149이거나 211.254.252.50~59등 IP개 10개다. 그리고, 당시 언론에서 '검증,확인,분석,대응'을 수행하는 시스템이라는 말을 썼는데, 제안요청서에 적혀있는 3대의 서버용도명과도 비슷하다. 이 제안서에 있는 시스템과 'KISA 개인정보 노출 대응시스템'은 같은 시스템일 것으로 추측해본다. 다른 시스템이라 하더라도, 모니터링 대상만 조금 다를 뿐 목적은 같을 것 같다.

작년말에는 대상이 6500여개 웹사이트였는데, 제안요청서에는 '약 45,000개 웹사이트 개인정보 모니터링'이라고 적혀있으니 그 대상이 확대된 모양이다.

  o 약 45,000개 웹사이트 개인정보 모니터링
   - 점검 대상 : 중앙부처, 지자체, 공사/공단, 대학교, 준용사업자, 교육기관 및 초중고 학교 웹사이트
     ※ 점검 대상은 '09년 점검대상과 KISA가 추가로 지정하는 웹사이트
   - 점검 주기 : 2주

2. 고려사항
  o 주요 준용사업자(병원,호텔,백화점 등) 및 초중고 학교로 노출점검 대상 확대
    - 약 22,000개 도메인 목록 수작업 확보 필요


다른 제안서도 봐보자.

  • 휴대전화 실시간 스팸차단리스트(M-RBL) 구축
스팸메일 차단할 때, RBL(Real-time Blackhole List)을 이용하는 경우가 많다.
제안요청서를 보니, 모바일도 스팸전화 차단을 위해 스팸메일과 비슷한 방법을 이용한다. KISA에 M-RBL 시스템(모바일 RBL시스템)을 구축해두고, 이통사에서는 rsync를 이용해서 주기적으로 M-RBL파일을 받아가는 형태이다.
  •  이해관계자별 IPv6 적용 안내서 제작 사업자 선정
2011년경 IPv4주소 할당 중지 예상에 따라 IPv6 인프라 준비를 위해서 안내서를 제작한다는 것이다.
IPv4 중지 예측에 대해서는 'IPv4, 2011년 9월 할당 중지 예측'를 읽어보길.


위 3개의 정보만으로도, KISA의 '입찰공고'를 자주 봐야할 이유가 생겼다.
1) '시스템 구성'정보를 얻을 수 있고,
2) 정책방향(그 정책이 좋은지, 나쁜지와는 상관없이)도 미리 알 수 있는 흥미로운 공간이다.


혹시 이글을 KISA등 IT 정책세우시는 분들이 한분이라도 읽을지도 모르니, 한가지 덧붙인다.

'IT이용도'에 따라 '한 사람'의 생활이 달라지지만,
'IT정책'은 '한 국가'의 IT생태계를 좌우한다는 것.

Posted by 좋은진호

댓글을 달아 주세요

  1. 우무리

    중요한 정보 감사합니다.

    2010.04.15 11:32 [ ADDR : EDIT/ DEL : REPLY ]

IT이야기2009. 12. 14. 23:51
며칠전부터 'pirs'라는 User-Agent명으로 페이지를 너무 많이 긁어가는 경우가 많았다. 어제 하루만 18000여건의 페이지 요청이 발생했다. 웹로그를 살펴봤더니 Referer중에 www.pirst.kr:6600/ 가 남아있다. html 소스를 봤더니 다음과 같은 내용이 나온다. 바로 11월말에 구축했다는 'KISA 개인정보 노출 대응체계' 사이트였다.

* Project Name :  KISA 개인정보 노출 대응체계 구축
* Source Name : header.jsp
* Description : (대응시스템)HEADER
* DATE : 2009.06.27
* Author  : OOO
* History : 2009.06.27

'다음'에서 'KISA 개인정보 노출 대응체계'를 검색하면 다수의 기사가 나온다. 그 중 '세계일보' 기사 하나만 살펴보자.
  • 방통위와 한국인터넷진흥원(KISA)은 웹사이트에서 노출되는 개인정보를 검색·대응하는 '개인정보 노출 대응시스템'을 23일 구축완료
  • 24일부터 365일·24시간 운영
  • 하루 약 6500개 웹사이트에서 개인정보 노출을 검색
  • 그동안 포털 검색을 활용, 웹사이트에서 주민등록번호만 노출됐는지 검색했으나 이번 상황실 운영을 계기로 신용카드번호·계좌번호 등 9개 개인정보 노출을 검색

'개인정보 노출 대응시스템' 무엇이 문제인가.

  1. 대상이 6500여개 웹사이트이다. 개인정보 자체를 취급하지 않는 사이트는 대상에서 제외해야 하는데, 취급 유무 판단은 하지 않는 것으로 보인다. 개인정보가 없는 사이트도 저 'pirs', 'pirst' 봇이 방문을 했기 때문이다.
  2. 하루에 18000여 페이지를 긁어갔다. 문이 열렸다고, 신발자국 내면서 집안 구석구석 먼지하나까지 확인한 것이 아닌가. 그 것도 주인도 모르게 말이다. 목적이 분명하다면 대상 사이트에는 미리 알려줘야하는 것이 옳다.
  3. robots.txt는 전혀 읽지 않는다. 봇(bot)의 기본 룰을 따르지 않는 것이다. 모든 페이지의 개인정보를 확인해야한다는 이유로 robots.txt을 따르지 않는 것으로 보인다. 그러나 비공개가 필요한 페이지를 제외하게 pirs 봇에 맞게 robots.txt을 설정할 수도 있는데, 이 걸 완전히 무시한 것이다.
  4. 모니터링한 대상 사이트의 웹페이지를 개인정보 노출에만 이용할지는 의문스럽다. 페이지 전체를 긁어가는 형태이기 때문이다. 저인망식으로 웹페이지를 마구잡이 긁어가서 감시한다면  웹생태계를 파괴하는 일이 될 수도 있다. 현 정부에서 규제와 감시가 강화됐기 때문에 의심하게 된다.

만약 개인정보를 취급하지 않는 곳이라면, KISA에 제외요청할 수 있겠지만 2가지 방법 중에 한가지 방법으로 차단조치를 취할 수도 있다.

1.  웹서버 설정에 User-Agent명으로 차단 (403 페이지로 처리)

SetEnvIfNoCase User-Agent   "pirs"   notaccept
SetEnvIfNoCase User-Agent   "pirst"  notaccept

<Location "/">
    Order allow,deny
    Allow from all
    Deny  from env=notaccept
</Location>


2. 방화벽에서 봇 IP를 차단

pirs 봇은 210.97.192.140~210.97.192.149 에서 접속했다. 방화벽에서 210.97.192.0/24 대역 전체를 또는 해당 IP만 차단한다.
pirst 봇은 61.111.15.10 과 61.111.15.20, 61.111.15.30 에서 접속했다. pirst봇은 한 두 페이지 정도만 요청이 이뤄졌다. 이 3개 IP는 차단전에 좀 더 지켜보고 요청이 많다면 차단 처리하는게 좋을 듯.

* 관련글 :

2010/04/15 - [IT이야기] - KISA의 웹사이트 개인정보 모니터링 시스템
2011/03/24 - [IT이야기] - KISA, 개인정보 노출 검사위해 웹페이지 여전히 긁어간다

Posted by 좋은진호

댓글을 달아 주세요

  1. 어느 기사에서 봤던가요? 구글이 심하게 긁는다고 하더니 저쪽은 더한가 봅니다?

    2009.12.14 23:58 신고 [ ADDR : EDIT/ DEL : REPLY ]
  2. 제 블로그는 긁지도 않는 것 같은데요. 워낙 관심받을 블로그가 아니라서 그런듯 하네요.

    2009.12.15 02:55 [ ADDR : EDIT/ DEL : REPLY ]
  3. 좋은 정보 얻어갑니다. 너무 오랜만이지요?
    곧 기숙사를 떠나 집으로 내려가게 됩니다. 집에선 포트가 막혀있지 않으니 다시 찾아뵐 수 있을 듯 합니다. ^^

    2009.12.15 09:18 [ ADDR : EDIT/ DEL : REPLY ]
    • 아~ 방학해서 가시는건가요?
      룬룬님과 얘기 못 나눈지도 한두달은 된 것 같네요. 이제 자주 뵐 수 있으니 다행입니다. ^^

      2009.12.15 21:06 신고 [ ADDR : EDIT/ DEL ]
  4. 어짜피 개인정보를 긁어갈 수많은 봇들도 robots.txt따위는 무시해주기 때문에 ㄷㄷㄷ;;;
    결국 독은 독으로 잡는다는 건가요?;;; 좀 당황스럽긴 합니다... 제가 관리하는 사이트에서도 pirs봇이 자주
    떠서 당황했었다는.... 제 입장에서는 긁어간 내용을 KISA에서 악의적으로 사용하지 않는다면야 굳이 막을 이유는 없을듯 합니다만...

    그렇지만.... 3초마다 크롤링은 좀 심했군요 ㄷㄷ

    좋은 정보 감사합니다~

    2009.12.15 23:27 [ ADDR : EDIT/ DEL : REPLY ]
    • KISA에서 웹취약점 분석을 위해 여러 사이트를 스캐닝하고 있습니다만, 이 취약점 스캐닝은 적절한 수준에서 스캐닝을 했거든요.
      그런데 이번건은 과했습니다. 3초간격으로 긁어가니 한눈에 확 들어왔죠. ^^

      개인정보 노출 유무 검사를 하는 목적은 좋습니다. 그런데 사이트의 개인정보 취급 여부를 먼저 파악하고, 대상사이트를 선정한 뒤, 검사 주기 조정 등이 필요 할 듯 싶어요.

      2009.12.16 00:51 신고 [ ADDR : EDIT/ DEL ]
  5. ㅡ.ㅡ 험... 프로젝트건 뭐건... 진행하기 전에 개념부터 탑재를 하고 시작을 해야되요...

    2009.12.21 09:21 [ ADDR : EDIT/ DEL : REPLY ]
    • 오랜만입니다. 삐꾸강아쥐님.
      개인정보 유출을 최대한 막아보겠다는 목적을 위해, 예의 갖추는 것을 잠시 잊은 듯 합니다. 차차 개선되기를 바래야죠. ^^

      2009.12.22 04:59 신고 [ ADDR : EDIT/ DEL ]
  6. pirs가 그런 봇이었군요;;
    오늘 로그를 보고 있는데; 처음 보는 User-Agent가 계속 찍히는데 거의 도배수준이라 이게 뭔가 싶었는데... 차단해야 겠습니다.
    그런데 제 홈피에 들어온 봇은 아이피가 좀 달라요; (유동 IP아닐까요?;;)
    제 홈피에 들어온 봇의 아이피를 다 적어보면 이렇습니다.. 지금 들어오고 있는 놈들인데.. 이전에 어떤 아이피로 들어왔었는지도 모르겠네요 ~.~; 찝찝해요;
    211.254.252.59
    211.254.252.58
    211.254.252.57
    211.254.252.56
    211.254.252.55
    211.254.252.54
    211.254.252.53
    211.254.252.52
    211.254.252.51
    211.254.252.50

    2009.12.22 15:26 [ ADDR : EDIT/ DEL : REPLY ]
  7. 나그네^^

    안녕하세요. ^^
    1번에 웹서버 설정에 User-Agent명으로 차단이라는 리눅스 서버의 설정이 있습니다만,
    윈도우 웹서버의 경우 이와 동일하게 처리 할 수 있는 방법이 있을런지요?
    감사합니다.

    2010.01.03 11:19 [ ADDR : EDIT/ DEL : REPLY ]
  8. 알 수 없는 사용자

    그러고보니 KISA에서 전에 메일이 한번 날라왔었네요..
    왠지 좀 이상하더라 싶더니 ㅠㅠ

    2010.01.12 13:10 [ ADDR : EDIT/ DEL : REPLY ]
  9. robots.txt 무시하고 외국 웹 사이트까지 뒤지고 다니면 국격에 꽤나 치명적일텐데 말이죠...

    2010.01.13 13:43 신고 [ ADDR : EDIT/ DEL : REPLY ]
    • 외국 웹사이트까지 뒤지는지는 모르겠네요. 대상 사이트가 많다보니깐, 외국 서버에 있는 한글 사이트가 포함될 수도 있긴하겠네요.

      그리고, 이제는 PIRST에 대해 불편한 점에 대해서는 문의가 가능하게 페이지도 알리고 있습니다. 웹로그 referer에 다음과 같이 찍히는 경우가 있거든요.

      http://www.pirst.kr:6600/RS/PIRST_FAQ.jsp

      2010.01.14 00:19 신고 [ ADDR : EDIT/ DEL ]