아무리 직관이 뛰어난 트레이더라도, 시장이 계속해서 예측 가능한 방향으로만 움직여주지는 않습니다.
결국 살아남는 건, 감에 의존하지 않고 검증된 기준에 따라 움직이는 사람들입니다.
그래서 필요한 게 바로 명확한 전략 수립이고,
그것을 반복 가능하고 흔들림 없이 실행해 주는 시스템 트레이딩입니다.
하지만 시스템을 만든다고 끝이 아닙니다.
그것이 과거 시장에서도 실제로 작동했는지를 검증하는 과정,
즉 백테스트가 뒤따라야 합니다.
문제는 여기서 시작됩니다.
백테스트에 필요한 가격 데이터를 구하는 것 자체가 어려운 일이기 때문이죠.
그래서 이번 글에서는 백테스트를 위해 필요한 가격 데이터를 구하는 방법에 대해 소개해드리겠습니다.
가상화폐 가격 데이터를 확보하는 방법은 다양합니다.
대표적으로 Binance에서 직접 운영하는 공식 API나
하루 단위로 정리된 CSV 파일을 제공하는 Binance Data 저장소(data.binance.vision)도 있습니다.
하지만 Binance API는 사용하려면 코드를 만들어야 하기에 접근성이 떨어지며, 일정 시간 동안 받을 수 있는 데이터의 양이 정해져 있어 많은 데이터를 확보하려면 굉장히 긴 시간이 걸립니다.
또, Binance Data 저장소는 유실된 데이터의 양이 너무 많아 정상적으로 백테스트를 할 수 있는 환경이 아닙니다.
그래서 이번 글에서는 누구나 쉽게 접근할 수 있는 Kaggle 데이터셋을 활용한
가장 간단하고 실용적인 데이터 수집 방법을 중심으로 소개하겠습니다.
Kaggle을 통한 가상화폐 데이터 수집 방법
1. 접속 및 가입하기
먼저 https://www.kaggle.com 에 접속해 주세요.
접속하시면 우측 상단에 register가 있을 텐데, 이걸 클릭해 주신 후, 간단하게 구글로 로그인해 주시면 됩니다.
2. 데이터 검색하기
자신의 전략에 따라 다른 데이터가 필요하므로 직접 검색하는 방법을 알려드리고, 가장 보편적으로 사용할 수 있는 데이터셋도 공유해 드리겠습니다.
로그인을 하면 이런 화면이 가장 먼저 뜰 텐데, 여기서 search를 누른 후, 원하는 데이터에 대해 영어로 검색해 주세요.
예시로 비트코인 가격 데이터를 검색해 보겠습니다.
저희가 필요로 하는 건 Dataset이므로, Dataset을 클릭해 주세요.
그럼 데이터 자료만 모아서 볼 수 있습니다.
여기서 저희가 주목해야 할 것은 기간 필터와 Relevance/Date 설정입니다.
먼저 좌측에 있는 기간 필터는 말 그대로 최근 90일, 이번 주, 오늘 업로드된 데이터만 볼 수 있는 기능입니다.
Relevance/Date 설정은 연관성 정렬/ 최신순 정렬입니다. 과거 데이터만으로 백테스트를 하고 싶은 게 아니라면 이 두 기능을 활용해 최근 데이터를 다운로드하는 것이 중요합니다.
저는 최신순 정렬로 바꿔 가장 최근의 비트코인 데이터에 접근해 보겠습니다.
3. 데이터 확인 & 다운로드
원하는 데이터셋을 클릭했다면 이런 창이 뜰 텐데, 여기서 주목해야 할 내용은 크게 세 가지입니다.
1. Download
이걸 눌러서 다운로드할 수 있으며, 다운로드하는 방법은 직접 다운로드와 API(약간의 코딩 필요)를 통한 방법이 있습니다. 여기서는 간단하게 직접 다운로드만 다루겠습니다.
이거 눌러서 받으시면 됩니다.
2. About Dataset(설명)
이 데이터가 무슨 데이터인지 적어놓은 설명란입니다.
이 데이터셋에서는 15분, 1시간, 4시간, 1일 봉이 있으며, 2018년부터 2025년까지의 데이터를 다루고 있고, 매일 자동으로 업데이트되는 데이터를 제공한다고 적혀있네요.
3. 데이터 예시
조금 더 내리면 이런 예시를 볼 수 있습니다. 데이터가 정확히 어떤 구성요소를 가지고 있으며, 내가 필요한 데이터가 맞는지 직접 다운로드하지 않고도 확인할 수 있기에 반드시 확인하고 다운로드해 주세요.
화살표로 가리킨 버튼을 클릭하시면 전체화면으로 볼 수 있습니다.
Binance에 상장된(상장되었던) 모든 가상화폐 데이터 구하기
특정 코인이 아닌 시장 전체를 대상으로 백테스트를 하고 싶다면, 아래의 링크로 이동해서 데이터를 받아주세요.
https://www.kaggle.com/datasets/andreidiaconescu/binancepricedata
All Binance USDT Trading Pairs – Price Data
OHLCV for all USDT pairs, multiple timeframes, updated weekly. 🚀📈
www.kaggle.com
2017년 8월 17일부터 2025년 2월 19일까지 바이낸스 선물 시장에 상장된, 상장되었던 모든 가상화폐 데이터(약 570개)를 모아놓은 데이터셋입니다. 최근에 업데이트가 중단되어 3개월간의 데이터가 없지만, 이 데이터셋이 가장 광범위하다고 생각해 소개하게 되었습니다.
데이터를 모았다는 건, 이제 실험할 준비가 끝났다는 뜻입니다.
지금부터 여러분은 백테스트를 통해 과거의 시장을 상대로 전략을 시험해 볼 수 있습니다.
다음 글에서는 이 데이터를 활용해
RSI, 이동평균선, 분할 익절 같은 요소들을 적용해 가며
실제 매매 전략을 어떻게 구현하고 평가할 수 있는지
한 단계씩 보여드릴 예정입니다.