사내에 토스 출신 개발자와 이야기를 하다
필자의 첫 회사 업무와 겹치는 크롤링에 대해서 이야기를 나누게 되었다.
IP 주소란?
•
IP 주소는 인터넷에서 개인을 식별하는 “신분증” 같은 역할을 한다.
•
이를 통해 위치, 방문 사이트, 구매 내역 등 다양한 정보를 추적할 수 있다.
•
정부, 광고업체, 기업들은 이를 활용해 광고 타겟팅, 데이터 분석, 수사 등을 진행한다.
익명성을 위한 방법 (Proxy vs VPN)
프록시(Proxy)
여러개의 서버가 하나의 프록시 서버에 접근하여, 같은 요청에 대한 캐시에 저장된 데이터를 보내줌으로써 속도를 빠르게 함
하지만 요즘은 익명성을 위하거나 해킹 방지를 위한 목적으로 사용
•
"대리"의 의미로, 인터넷과 관련해서 쓰이는 경우, 특히 내부 네트워크에서 인터넷 접속을 할 때에, 빠른 액세스나 안전한 통신등을 확보하기 위한 중계서버를 "프록시 서버"라고 일컫는다.
◦
프록시(Proxy)는 포워드 프록시와 리버스 프록시로 나뉘어져, 기본적으로 포워드 프록시는 클라이언트쪽, 리버스 프록시는 서버쪽의 설정을 한다.
•
중간 서버가 대신 요청을 보내 내 IP를 감추는 방식
•
작동 방식
◦
내가 웹사이트(예: 네이버)에 접속할 때, 프록시 서버를 통해 접속하면 내 IP 대신 프록시 서버의 IP가 노출된다.
•
활용 예시
◦
해외 사이트 차단 우회 (예: 한국에서만 볼 수 있는 콘텐츠를 해외에서 볼 때)
◦
회사, 학교 등에서 특정 웹사이트 차단을 우회할 때
•
단점
◦
프록시는 보안 기능이 약하고, 단순히 IP를 숨기는 역할만 한다.
◦
데이터가 암호화되지 않기 때문에 해킹 위험이 있다.
VPN (Virtual Private Network)
프록시와 비슷하게 내가 무엇을 하는지 암호화하여 숨기는 기능 보다도, 외부에서 회사 내부 네트워크로 안전하게 접속할 수 있게 도와주는 역할이었으나, 내 정보와 흔적을 숨기고 정부의 규제를 우회하기 위해서 많이 사용됨
•
프록시와 비슷하지만, 데이터가 암호화되어 더욱 안전한 방식
•
작동 방식
◦
내 인터넷 연결이 VPN 서버를 거쳐 암호화되어 전달된다.
◦
네이버 등 웹사이트에는 VPN 서버의 IP만 보이고, 내 실제 IP는 감춰진다.
•
장점
◦
데이터 암호화: 중간에서 가로채도 내용을 해독하기 어렵다.
▪
익명성이 거의 보장이 되나, VPN 업체에서 로그를 저장하여 개인정보를 팔거나 기록을 남기고, VPN 사용 자체가 감지될 수 있음
◦
위치 숨기기 가능: 러시아, 미국, 독일 등 다른 국가의 IP를 이용해 특정 국가에서만 접근 가능한 콘텐츠를 볼 수 있다.
•
단점
◦
무료 VPN의 경우 보안 위험 (로그 저장 가능성, 속도 저하, 광고 포함 등)
▪
익명성이 거의
◦
일부 국가는 VPN 사용을 금지하고 있음
결론 (VPN vs Proxy)
프록시(Proxy) | VPN | |
IP 숨기기 | O | O |
데이터 암호화 | X | O |
보안 수준 | 낮음 | 높음 |
속도 | 빠름 | 느림 |
무료 사용 가능 여부 | 가능 (위험성 존재) | 가능 (속도 저하, 보안 이슈) |
완전한 익명성 보장 | X (쉽게 추적 가능) | X (로그 기록 여부에 따라 다름) |
크롤링 할 대상 사이트에서 어떻게 구성되어 있는지 정확하게 알고 대응하려면 시간이 걸리긴 하겠지만, 대량 크롤링 시에는, 회전형 프록시(Rotating Proxy)나 프록시 풀 사용이 권장된다고 한다.
회전형 프록시 및 프록시 풀을 활용한 크롤링 예시를 하나 만들어 보고싶다는 생각이 든다..!