AI로 과학 문제를 만들어도 되나요?

날짜

2026/05/11

안녕하세요, 사이언스플랫 콘텐츠팀 김정빈입니다. 저는 중·고등 과학 문항을 제작하고 있고, 최근 몇 달은 콘텐츠 제작의 한 조각씩을 AI에게 넘겨주며 지내고 있어요. 오늘은 그 과정을 조금 나눠보려고 합니다. 요즘은 SNS만 열어도 AI로 만든 콘텐츠가 쏟아져 나와요. 업무 시간도 줄고, 다양한 시도도 할 수 있다고들 하죠. 그럴 때마다 저도 같은 생각을 했습니다. “AI는 잘 모르지만, 과학 문제는 정말 많이 만들고 싶다”고요.가능하면 똑같은 작업을 반복하는 시간은 줄이고, 대신 문항의 질을 고민하는 데 시간을 더 쓰고 싶거든요. 혹시 너무 일 안 하려는 사람처럼 보일까 싶기도 하지만, 사실 같은 작업을 수천 번 해본 사람이라면 이 마음이 어떤 건지 한 번쯤 느껴봤을 거예요.

AI를 어떻게 믿지?

사실 처음 콘텐츠 담당자가 됐을 때부터 AI를 써보고 싶은 마음은 있었어요. 그런데 쉽지 않았습니다. 과학 콘텐츠에서 제일 중요한 건 정확성이거든요. AI를 그냥 쓰기 어려운 이유는 두 가지였어요. 먼저 할루시네이션. 개념 하나가 어긋나면 상당히 큰 타격을 입는 과학 분야에서 너무 큰 문제였어요. 두 번째는 교육 과정과 범위 정합성. 중학교 1학년 과정에 나오지 않는 용어를 문제나 해설에 AI가 태연하게 집어 넣어버리면, 그 문항은 좋은 문항이 될 수 없어요. 제가 다루고 싶은 범위와, AI가 활용하는 범위가 언제나 같지는 않더라고요. 그래서 저는 "과학 콘텐츠는 100% 사람이 만들 수밖에 없다."고 생각했습니다.

그런데, 회사가 AI 교육을 지원해요.

프리윌린은 직무 관련 지원이 참 잘 되어 있는 곳이에요. 외부 박람회나 교육 참여 복지도 꾸준히 열려 있고요. 그러던 중 구성원들 사이에서 AI에 대한 관심이 부쩍 높아졌습니다. 정보를 자유롭게 주고받는 슬랙 채널도 생겼고, 관련 온라인 강의도 여러 쌤들과 함께 들었습니다. 그전까지 제가 AI를 쓴다는 건 챗GPT에 질문을 던지거나 사진 보정을 부탁하는 정도가 전부였거든요. 그런데 교육을 듣고 나니 AI의 세계가 생각보다 훨씬 넓다는 걸 알게 됐습니다. 그 자리에서 처음 이름을 들은 툴도 많았고, 그 기간 가입한 툴만 열 개가 훌쩍 넘었으니까요. 하지만 막상 업무에 적용하는 건 또 다른 문제였습니다. 고민하던 차에 동료 쌤의 제안으로 둘이서 매일 오전 “AI 탐구”라는 작은 스터디를 시작했습니다. 새로 알게 된 툴들을 함께 써보고, 각자 업무에 어떻게 녹일 수 있을지 이야기를 나누는 시간이었죠. 한번은 스터디를 함께하던 쌤이 AI 도구 제작 과정의 비용에 대해 슬랙에 질문을 올린 적이 있어요. 그런데 1분 만에 CEO인 기성 쌤이 이런 답글을 달았습니다.

"법카 결제 방법에 등록해놓고 편하게 맘껏 쓰세요. 혹시 비용 때문에 작업 효율이 떨어지거나 번거로우면 그건 선 결제하고 나중에 후처리해도 좋아요. 작업 효율과 생산성이 제일 중요하니 AI 관련 비용은 팍팍 쓰셔도 돼요."

모두가 볼 수 있는 슬랙방에 망설임 없이 바로 달린 답글이었어요. "비용 걱정 말고 써라"는 거, 이거 드라마 속 회장님들 멘트 아닌가요? 이후 사내에서 열린 바이브코딩 교육 세션에도 참여하면서, "과학 콘텐츠는 100% 사람이 만들어야 한다"는 저의 확신도 그쯤 흔들리기 시작했습니다. 물론 무작정 AI에 의존하는 건 여전히 위험하다고 생각합니다. 하지만 어쩌면 제가 AI를 제대로 쓰는 법을 모르고 있었을 뿐일지도 모르겠다는 생각이 들더라고요. '무조건 안 돼'가 아니라 '어떻게 잘 쓸까'를 고민하게 된 변곡점이었습니다.

첫 번째 성공 경험: NotebookLM

가장 먼저 써본 툴은 NotebookLM이었어요. 특히 마음에 든 건 “제가 직접 업로드한 자료 안에서만 답을 찾아준다”는 점이었습니다. 단순히 답만 툭 던져주는 게 아니라, 답변마다 자료의 어느 부분에서 가져온 정보인지 레퍼런스까지 꼼꼼하게 표시해 주었습니다. 제가 그동안 걱정하던 할루시네이션 문제도 이 방식에선 크게 줄어들었습니다. AI가 상상해서 만들어내는 답이 아니라, 제가 넣어둔 자료 안에서만 움직이니까요. 덕분에 개념 확인 문제 초안을 잡거나, 제가 만든 문항에 과학적 오류가 없는지 교차 검증할 때 유용하게 썼어요. 처음으로 AI가 제 업무에 믿을 수 있는 방식으로 들어온 순간이었습니다.

답변마다 근거 자료가 연결되어, 출처를 확인하며 활용할 수 있었어요.

10% 자동화로는 아쉬워

그런데 NotebookLM만으로는 뭔가 부족했습니다. AI에게 넘긴 건 전체 업무의 10% 남짓이었고, 나머지 90%는 여전히 저와 콘텐츠팀 쌤들의 손을 직접 거쳐야 했거든요. 그래도 콘텐츠 제작의 아주 작은 조각이라도 AI를 활용해 보니 “어, 이게 되네?” 싶은 순간이 오더라고요. 그러자 욕심이 나기 시작했습니다. 이 비중을 20%, 30%까지 더 늘려보고 싶어졌거든요. 단순 작업을 AI에게 더 많이 넘길 수 있다면, 그만큼 확보되는 시간을 문항의 질을 고민하고 검수를 꼼꼼히 하는 데 쓸 수 있을 테니까요. 무엇보다 우리 팀 쌤들의 소중한 시간과 손가락(?)도 조금은 아껴주고 싶었고요.

첫 번째 도구: 선지 조합형 문항 생성기

가장 처음 만든 건 선지 조합형 문항 자동 생성 도구였어요. 과학 문항은 "맞다/틀리다"로 판단할 수 있는 문장이 많이 쓰여요. 이런 문장들을 조합해 ‘<보기>에서 모두 고르시오’ 같은 합답형 문항이 만들어지죠. 구조 자체는 단순하지만 이걸 수천 번 반복하다 보면 손도, 집중력도 금방 바닥이 납니다. 짧고 쉬운 작업일수록 오히려 지치기 쉬운 반복이었고, 그래서 이 반복 조합 작업만 AI에게 넘기기로 했어요. 처음엔 GPT에게 머릿속 내용을 설명하며 “이런 걸 만들고 싶은데 어떻게 해야 해?”부터 물었어요. 받은 파이썬 코드를 VS Code에 옮겨 적고, 안 되면 통째로 다시 써달라고 했죠. 코드를 저장도 안 하고 터미널에서 실행해놓고 왜 안 돌아가는지 몰라서 끙끙거리기도 했어요. Ctrl+S는 항상 중요하더라고요. 다만 만들면서 가장 고민한 건 속도보다 퀄리티였어요. 기계적으로 많이 뽑아낼 수는 있어도, 선지끼리 비슷하거나 뻔한 조합이 섞이면 콘텐츠 신뢰도가 떨어지거든요. 그래서 AI가 아무렇게나 조합하지 못하도록 몇 가지 품질 기준도 걸어뒀습니다. 처음 결과물이 화면에 떠오르던 장면이 아직 기억나요. 생성 시작 버튼을 누르니 수많은 문항이 순식간에 완성되어 있었거든요. 제가 막연하게 설명한 조건들도 의외로 잘 반영되어 있었고, "뭐가 되니까 너무 신기하다"는 감각이 그다음 도전까지 밀어주는 동력이 됐어요. 저희 팀 쌤들이 바로 테스트해 보면서 다양한 자료를 이용한 피드백을 줬고, 그 자리에서 고쳐가며 조금씩 더 단단하게 다듬을 수 있었습니다. 저 혼자 끙끙대며 만든 게 아니라, 같이 쓰고 같이 다듬은 ‘우리 팀의 도구’가 된 거예요.

동일한 자료를 바탕으로 서로 다른 조합형 문항 자동 생성 결과

두 번째 도구: 중·고등 과학 유사문제 생성기

앞서 만든 생성기가 "이미 있는 자료를 재조립"만 해주었다면, 이번엔 한 걸음 더 나아가고 싶었어요. 기존에 제작한 문항과 교재에서 다루는 이론 내용을 참고해, 특정 단원·개념에 맞는 유사 문제를 실제로 만들어 주는 거죠. 이 도구는 문항을 처음부터 새로 만드는 용도가 아니에요. 사람이 설계한 원본 문항을 기반으로 비슷한 유형을 변형해 제안해 주는 역할을 합니다. 수학 교육에서 오래 쓰여 온 "쌍둥이 문제"의 원리를 그대로 따르되, 제안 단계만 자동화한 거라고 보시면 돼요. 사용 흐름은 단순해요. 기존 문항을 고르고 조건을 입력하면, 변형된 초안이 파일이 만들어집니다. 처음엔 고등 통합과학용으로 만들었는데, 쓰다 보니 중등에서도 통할 것 같아 중등까지 범위를 확장했어요. 물론 이렇게 만들어진 콘텐츠는 아직 사용할 수 없어요. 콘텐츠팀 쌤들이 과학적 오류, 교육 과정 정합성, 과학적 표현 등을 하나하나 검토하고 수정하거나 폐기하는 과정을 거칩니다. 사람의 손을 거치는 건 여전히, 그리고 아주 중요해요. 하지만 아무것도 없는 상태에서 새로 만드는 것보다는, AI가 만든 초안을 받아 검수하고 다듬는 방법이 훨씬 효율적이었어요. AI는 우리 팀의 생산 속도를 높여주는 좋은 ‘보조 일손’인 셈이죠. 이런 활용 방식이 자리 잡으면서 AI에게 넘기는 반복 작업의 비중도 자연스럽게 20%, 30%로 올라갔습니다.

기존 문제 화면

생성 조건 설정 화면

잠깐, 이런 것도 이젠 AI로

이쯤 되니 아주 작은 단순 반복 작업들도 하나둘 눈에 들어오기 시작했습니다. 이미 제작된 2만 개가 넘는 문항에 필드 이름을 일일이 채워야 하는 작업이 있었거든요. 한 문항에 4개씩, 도합 8만 번 이상의 수정 작업이 필요한 일이었죠. 예전 같으면 시작하기도 전에 한숨부터 나왔을 텐데, 이번엔 큰 고민 없이 일괄 변경 도구를 만들 수 있었습니다.

AI와 함께하니 과정은 놀라울 정도로 빨랐어요. 코드를 짜는 데 20분, 작동이 잘 되는지 검토하는 데 10분, 그리고 2만 개의 문항을 처리하는 건 딱 10분이면 충분했습니다. 며칠은 꼬박 매달려야 할 뻔한 단순 반복 작업이 1시간도 안 되는 사이에 끝나버린 거죠. 예전 같으면 "이걸 언제 다 하나..." 싶어 마음부터 무겁게 가다듬어야 했던 작업들도, 이제는 “일단 한번 해보자!” 하는 마음이 먼저 생기게 되는 것 같아요.

AI와 함께 일한다는 것

"과학 콘텐츠는 100% 사람이 만들어야 한다"고 믿었던 제가, 어느새 AI를 옆에 두고 일하고 있습니다. 단순히 속도가 빨라진 것도 좋지만, 저는 시야의 변화가 더 크게 다가와요. 반복 작업에 쓰던 시간이 줄어드니 업무에 대한 심리적 부담이 한결 가벼워졌거든요. 이제는 새로운 반복 작업을 마주해도 한숨부터 쉬기보다 "도구로 해결해볼까?" 하는 마음이 먼저 듭니다. 그리고 그만큼 확보된 에너지는 문항의 질을 깊게 고민하는 데 쏟고 있고요. 물론 AI가 모든 걸 해결해주지는 않습니다. 특히 교육 콘텐츠는 사람이 판단하고 책임져야 하는 영역이 아주 많아요. 하지만 적어도 제게 AI는 “함께 일하는 꽤 괜찮은 동료이자 도구”가 되었습니다. 사실 저는 아직도 개발을 잘 모르고, 코딩은 여전히 어렵기만 합니다. 하지만 제가 하는 일에서 무엇이 불편하고 어떤 개선이 필요한지는 그 누구보다 잘 알고 있어요. 그래서 그 해결 방안도 제가 가장 잘 찾을 수 있다고 믿습니다. 요즘은 우리 콘텐츠팀 쌤들의 시간과 손가락을 아껴줄 새로운 방법을 계속 고민하고 있어요. 그 고민의 과정에 AI를 어떻게 잘 ‘굴릴지’ 연구하면서요.