본문 바로가기
카테고리 없음

챗GPT로 프로그래밍 경험하기 (3편) : 데이터 분석하기

by Rachel 2024. 8. 17.
반응형

챗GPT에 분석할 파일을 넣고 역할을 부여하면서 데이터 분석을 요청을 한다면 원하는 내용을 쉽게 얻을 수 있습니다. 이번 글에서는 챗GPT로 데이터 분석하는 방법을 살펴보겠습니다. 자세한 프롬프트도 함께 첨부했으니 실습해 봅시다. 챗GPT로 간단한 코드는 작성할 수 있지만 요청이 복잡해질수록 코드 오류의 가능성도 증가합니다. 따라서 데이터 사이언스 분야를 제대로 공부해보고 싶은 사람이라면 직접 프로그래밍을 할 수 있어야 합니다. 챗GPT는 하나의 보조 도구로 활용하면서, 원하는 결과를 얻을 수 있게 프롬프트를 작성하고 코드 오류를 직접 수정해보세요. 

챗GPT로-프로그래밍-경험하기-3편-데이터-분석하기
챗GPT로 프로그래밍 경험하기 (3편) : 데이터 분석하기

 

 

1.  데이터 분석하기 

우선 챗GPT에 접속해주세요. 성능이 좋을수록 GPT 답변의 퀄리티도 좋아지니 가능하다면 유료 구독을 통해 챗GPT-4o 모델을 사용하시는 걸 추천합니다. 이번에도 프롬프트를 보면서 실습을 해보도록 하겠습니다. 우선 챗GPT에게 역할을 부여하고, 사용할 데이터셋에 대한 안내를 해주는 것이 필요합니다. 본격적으로 파일을 보여주기 전에, 데이터셋의 다섯 줄 정도를 미리 알려주면 좋은 답변을 얻는 데 도움이 됩니다. csv 파일의 첫 줄은 주로 데이터셋의 열을 나타내므로 이 데이터셋에 어떤 내용이 있는지를 보여줍니다.

이번 실습 파일은 한국드라마 TOP 100에 대한 내용이므로 컬럼값에 [드라마 제목, 방영 시작한 연도, 방영 기간, 방영 요일] 등이 있습니다. 두 번째 줄부터 실제 드라마에 어떤 것들이 있는지 살펴볼 수 있습니다. 처음에 이 데이터 셋을 가지고 어떤 분석을 할지 막막할 수도 있습니다. 이럴 때도 챗GPT에게 어떤 분석을 하면 좋겠냐고 물어볼 수 있습니다. 그럼 몇 가지 아이디어를 줍니다. 이 때 우리는 어떤 드라마 장르가 인기인 지도 파악할 수 있고, 새로운 드라마의 성공 가능성을 예측하는 프로그램도 만들 수 있고, 어떤 배우가 가장 인기가 많았는지 분석을 할 수도 있습니다.  

[프롬프트 예시]

1. 역할 부여
당신은 데이터 사이언티스트입니다. 제 부탁대로 파이썬 코드를 작성해주세요. 

2. 데이터셋 설명
한국 top 100 드라마에 대한 데이터셋입니다. 이 내용은 'top100_kdrama.csv' 파일을 열람하면 됩니다. 
파일의 처음부터 다섯 번째 줄까지 보여드리겠습니다. (파일에서 5줄까지 복사해서 하단에 붙여넣습니다.)
csv 파일의 첫 줄을 보고 데이터셋에 어떤 컬럼값이 있는지 블릿포인트 형식으로 알려주세요. 

3. 데이터 분석 요청 
드라마 장르별 인기도를 파악하기 위한 파이썬 코드를 작성해주세요.

- Genre 컬럼에 여러 장르가 ","로 구분되어 있으니 장르를 묶어서 보지 않고 나눠서 분석해주세요. 
- 같은 장르가 중복으로 나올 수 있으니, 장르의 제목에 띄어쓰기를 제거하고 중복된 값을 제거하고 보여주세요. 
- 상위 5개 장르를 시각적 그래프로 표현해주세요.
- 이 목록에 가장 자주 등장하는 출연진 상위 10명을 보여주는 코드도 작성해주세요.
- 상위 10명의 배우들이 어떤 드라마에 출연했는지 볼 수 있는 코드를 작성해주세요. 

 


이후 데이터 사이언스에서 가장 많이 사용하는 주피터 노트북을 실행해 봅시다. 주피터 노트북이 없다면, google colab 사이트에서 코드를 구현할 수 있습니다. 챗GPT가 작성한 분석 코드를 붙여넣습니다. 코드를 실행하면 한국 드라마 중에서 인기 있는 장르 5가지를 보여줍니다.
다만, 원래 파일에서 장르 부분에 여러 가지가 함께 작성되어 있기 때문에, 순위에 이것저것 섞여서 나오는 걸 확인할 수 있습니다. 이때, 챗GPT에게 장르를 개별적으로 인식해 달라고 부탁할 수 있습니다.

그리고 작성하다보면 drama 장르가 2번 노출이 되는데, 띄어쓰기의 유무에 따라 장르를 다르게 인식한다는 점을 알 수 있습니다. 따라서 이 두 가지가 사실은 같은 장르라는 걸 챗GPT에게 이야기해줘야 합니다. 장르 데이터에 공백을 제거해 달라는 코드도 따로 요청하도록 합니다. 

챗GPT가-작성한-파이썬-분석-코드
챗GPT가 작성한 파이썬 분석 코드
주피터-노트북에-챗GPT-코드-실행하기
주피터 노트북에 챗GPT 코드 실행하기



이런 식으로 다양한 관점을 적용해서 데이터를 다양하게 분석할 수 있고, 여기에 머신러닝 기법을 활용하면 미래에 유행할 것 같은 장르나 인기 배우를 추천해달라고 요청할 수도 있습니다. 구체적이고 쓸모 있는 프롬프트, 챗GPT의 코드의 오류도 수정하면서 할 수 있습니다. 

 

 

※ 해당 글은 코드잇(codeit)의 [챗GPT로 프로그래밍 경험하기] 강의 내용에서 참고하여 작성하였습니다. 

반응형