🔎 검색엔진과 자연어 처리 속 수학
『수학의 아름다움』 고교 수학·세특 수행평가 연계 가이드
통계 언어 모델, 마르코프 과정, 정보 엔트로피, 그래프, 벡터, 행렬과 확률 알고리듬을 고교 수학 및 정보 교과와 연결한다.
이 책에서 말하는 아름다움은 화려한 공식보다 복잡한 언어와 웹 문제를 단순한 확률·벡터·행렬·그래프로 바꾸는 데 있다. 수행평가에서도 작은 문서 자료를 직접 수치화하고 알고리듬의 결과를 검증하는 방식이 가장 적합하다.
책의 특징과 활용 방향
수행평가 핵심완성된 검색엔진이나 AI를 사용하는 것이 아니라, 작은 문서 집합에서 빈도·확률·벡터·행렬을 직접 계산해 원리를 재현하고 오분류 또는 오검색 원인을 분석한다.
고교 수학 단원 연계 지도
| 책의 내용 | 연계 과목·단원 | 연계 방식 | 수행평가 확장 아이디어 |
|---|---|---|---|
| 문자·숫자와 정보의 표현 | 공통수학1 수와 연산 정보 자료 표현 | 융합 연계 서로 다른 기호로 같은 정보 부호화 | 십진수·이진수·문자 코드의 정보 표현 효율 비교 |
| 통계 언어 모델 | 확률과 통계 조건부확률 | 직접 연계 앞 단어가 주어졌을 때 다음 단어의 확률 | 짧은 글에서 단어 전이표를 만들고 문장 생성 |
| 형태소 분석 | 집합 분류 정보 자연어 처리 | 융합 연계 문장을 의미 단위로 분리하고 가능한 분석 비교 | 띄어쓰기 없는 문장의 분리 경우와 최적 해석 규칙 탐구 |
| 은닉 마르코프 모형 | 확률과 통계 조건부확률 대수 행렬 | 확장 연계 보이지 않는 상태와 관측값의 확률 연결 | 날씨-행동 모형의 상태전이표와 관측확률 계산 |
| 정보 엔트로피 | 확률과 통계 확률 대수 로그 | 확장 연계 불확실성의 양을 확률과 로그로 측정 | 동전·주사위·문자 분포의 엔트로피 비교 |
| 상호정보량과 중의성 | 확률과 통계 조건부확률 | 확장 연계 두 단어가 함께 나타날 때 얻는 정보량 | 단어 쌍 빈도로 문맥 관련성 비교 |
| 불 대수와 검색 조건 | 공통수학2 명제·집합 정보 논리연산 | 직접 연계 AND·OR·NOT과 집합의 교집합·합집합·여집합 | 문서 색인을 만들고 복합 검색 결과 계산 |
| 웹 크롤러와 그래프 이론 | 공통수학1 경우의 수 정보 그래프 | 확장 연계 웹페이지를 점, 링크를 방향 있는 선으로 표현 | 작은 웹 구조에서 탐색 순서와 방문 누락 비교 |
| 페이지랭크 | 공통수학1 행렬 대수 수열 | 확장 연계 링크를 따라 이동하는 확률과 반복 계산 | 5개 페이지의 전이행렬을 만들어 순위가 안정되는 과정 관찰 |
| TF-IDF 검색 가중치 | 대수 로그함수 확률과 통계 빈도 | 직접 연계 문서 내 빈도와 전체 희귀도를 결합 | 문서별 핵심어 점수를 직접 계산해 검색 순위 비교 |
| 동적계획법과 내비게이션 | 수열 점화식 정보 알고리듬 | 융합 연계 큰 문제를 작은 최적 문제로 분해 | 격자 최단경로 수와 최소비용을 점화식으로 계산 |
| 코사인 유사도와 뉴스 분류 | 기하 벡터·내적 | 직접 연계 문서를 벡터로 보고 각도로 유사성 측정 | 단어 빈도 벡터로 기사 세 편의 유사도 비교 |
| 텍스트-어휘 행렬 | 공통수학1 행렬 | 직접 연계 행은 문서, 열은 단어, 성분은 빈도 | 학급 문서의 빈도행렬을 만들고 행·열의 의미 해석 |
| 특잇값 분해와 차원 축소 | 행렬 자료 표현 | 확장 연계 핵심 구조만 남겨 자료를 단순화 | 완전한 계산 대신 문서 행렬의 자주 함께 등장하는 단어 묶음 탐색 |
| 정보 지문과 스팸 탐지 | 확률과 통계 빈도·확률 | 융합 연계 문서의 통계적 특징으로 복제·스팸 판별 | 정상·스팸 문장의 단어 분포를 비교해 분류 기준 설계 |
| 암호와 정보이론 | 공통수학1 나머지·경우의 수 정보 암호 | 확장 연계 불확실성과 키 공간으로 보안성 판단 | 치환암호의 키 경우의 수와 문자 빈도 공격 실험 |
| 최대 엔트로피 모델 | 확률과 통계 확률분포 | 확장 연계 알려진 조건 외에는 가장 편향이 적은 분포 선택 | 평균만 주어진 간단한 경우 가능한 분포 비교 |
| 블룸 필터와 오인식 | 확률과 통계 확률 정보 자료구조 | 융합 연계 저장 공간을 줄이는 대신 거짓양성 허용 | 작은 비트 배열 모형으로 오인식률 실험 |
| 베이지안 네트워크 | 확률과 통계 조건부확률 | 확장 연계 원인·관측 관계를 확률 그래프로 표현 | 날씨·우산·지면 상태의 확률 네트워크 구성 |
| 로지스틱 회귀와 광고 | 대수 지수함수 확률과 통계 회귀 | 확장 연계 입력값을 0~1 확률로 변환 | S자 함수의 매개변수 변화와 구매확률 그래프 분석 |
| 분할정복·맵리듀스 | 수열 재귀 정보 알고리듬 | 융합 연계 큰 자료를 나누어 병렬 처리 후 결합 | 문서 단어 수 세기를 여러 묶음으로 나눠 합산 |
| 인공신경망과 행렬 연산 | 공통수학1 행렬 함수 합성함수 | 확장 연계 선형결합과 활성함수의 반복 | 입력 두 개·출력 하나인 단순 뉴런 계산표 만들기 |
세특·수행평가 추천 주제 6선
조건부확률로 다음 단어 예측하기
확률과 통계 · 자연어 처리
- 짧은 글의 연속 단어 빈도 조사
- P(다음 단어|현재 단어) 계산
- 자료가 적을 때 문장이 어색해지는 이유 분석
TF-IDF로 문서의 핵심어 찾기
로그함수·통계 · 검색
- 문서별 단어 빈도 계산
- 흔한 단어와 희귀 단어의 가중치 비교
- 직접 선정한 핵심어와 알고리듬 결과 비교
코사인으로 뉴스 유사도 측정하기
기하 · 벡터와 내적
- 기사를 단어 빈도 벡터로 표현
- 코사인 유사도 계산
- 문서 길이와 유사도 관계 분석
행렬로 웹페이지 순위 계산하기
공통수학1 행렬 · 그래프
- 작은 링크 네트워크 제작
- 전이행렬 반복 곱셈
- 링크 수와 연결 위치가 순위에 미치는 영향 분석
정보 엔트로피는 무엇을 측정하는가
확률·로그 · 정보이론
- 공정·편향 동전의 불확실성 비교
- 문자 분포에 따른 정보량 계산
- 압축 가능성과 분포의 관계 설명
블룸 필터는 왜 틀릴 수 있는가
확률과 통계·정보
- 작은 비트 배열과 해시 규칙 설계
- 항목을 추가하며 거짓양성 측정
- 공간 절약과 정확성의 trade-off 분석
수행평가로 발전시키는 방법
① 말뭉치 분석형
짧은 기사·문학 작품·학생 글에서 단어 빈도, 연속 단어 확률, 핵심어를 계산한다.
② 벡터·행렬형
문서와 링크를 행렬로 표현하고 곱셈·내적의 결과를 실제 의미로 해석한다.
③ 알고리듬 재현형
페이지랭크, 허프먼 부호, 블룸 필터 등의 축소 모형을 손계산 또는 간단한 코드로 재현한다.
④ 효율 비교형
정확도, 계산량, 저장 공간, 오인식률 중 둘 이상의 기준을 표와 그래프로 비교한다.
권장 탐구 흐름
정보 문제 선택
자료 수치화
수학 모델 적용
결과 검증
효율·오류·개선
예시: 뉴스 분류 탐구스포츠 기사와 과학 기사 각 5편을 선택하여 자주 등장하는 단어 8~10개를 정한다. 각 기사를 단어 빈도 벡터로 표현하고 새로운 기사와 두 분야의 대표 벡터 사이 코사인 유사도를 계산한다. 분류가 틀린 기사에서 어떤 단어가 영향을 주었는지 분석하고 불용어 제거 전후를 비교한다.
세특과 연결하는 방법
세특에는 AI 용어를 많이 사용한 사실보다 언어 자료를 확률·벡터·행렬로 바꾸고 알고리듬의 결과를 해석한 과정이 드러나야 한다.
세특 기록에 적합한 활동 서술 예시『수학의 아름다움』의 뉴스 분류 사례를 기하의 벡터 단원과 연결하여 스포츠·과학 기사에서 추출한 단어 빈도를 벡터로 표현함. 벡터의 내적과 크기를 이용해 코사인 유사도를 계산하고 새로운 기사를 분류함. 불용어 포함 여부에 따라 분류 결과가 달라짐을 확인하고 특징 선택이 알고리듬 성능에 미치는 영향을 분석함.
피해야 할 서술검색엔진과 인공지능에는 행렬과 확률이 사용된다는 사실을 조사하고 수학의 아름다움을 느꼈다.
수행평가 평가 기준 제안
| 평가 요소 | 배점 | 우수 기준 |
|---|---|---|
| 교과 연계성 | 20점 | 자연어·검색 사례를 확률·로그·벡터·행렬과 정확히 연결함 |
| 자료 구성 | 20점 | 문서 선정, 단어 기준, 빈도행렬 등 자료 처리 과정을 명확히 제시함 |
| 계산·알고리듬 | 25점 | 직접 확률, 가중치, 유사도 또는 반복 연산을 수행함 |
| 검증과 한계 | 20점 | 오분류·오인식과 효율을 분석하고 개선 방법을 제안함 |
| 표현과 출처 | 15점 | 표·행렬·그래프가 명확하고 문서 및 책의 출처를 표시함 |
과목·진로별 추천 로드맵
- 고1 공통수학1: 텍스트-어휘 행렬, 페이지랭크 전이행렬, 단순 뉴런의 행렬 계산을 선택한다.
- 고1 공통수학2: 불 대수와 집합, 함수로 본 입력·출력, 검색 조건의 명제 논리를 탐구한다.
- 대수: TF-IDF의 로그, 마르코프 연쇄의 점화 관계, 로지스틱 함수의 S자 그래프를 분석한다.
- 확률과 통계: 언어 모델, 엔트로피, 베이지안 네트워크, 블룸 필터의 오인식 확률을 탐구한다.
- 기하: 단어·문서 벡터의 거리와 코사인 유사도를 중심으로 분류 문제를 다룬다.
- 컴퓨터·AI 진로: 검색, 문서 분류, 스팸 탐지 중 하나를 선택해 축소 알고리듬을 구현하고 성능을 평가한다.
- 언어·미디어 진로: 단어 빈도, 문맥 중의성, 검색 순위가 정보 노출에 미치는 영향을 분석한다.
- 수학 진로: 단순한 모델이 복잡한 문제를 해결하는 이유와 추상화·일반화의 역할을 탐구한다.
주제 선정과 작성 시 주의점
- 책 전체의 AI 기술을 나열하지 말고 한 알고리듬과 한 수학 개념을 중심으로 선택한다.
- 특잇값 분해·조건부 무작위장·신경망 전체를 설명하려 하지 말고 고교 수학으로 계산 가능한 축소 모형을 사용한다.
- 코딩 결과만 제출하지 말고 입력 자료, 계산식, 반복 규칙, 출력 의미를 표나 흐름도로 제시한다.
- 문서 분류 자료는 저작권과 개인정보에 유의하고 공개된 짧은 글이나 직접 작성한 문장을 사용한다.
- 높은 정확도만 강조하지 말고 오분류 사례와 데이터 편향을 함께 분석한다.
- ‘간단함이 아름답다’는 말을 무조건 단순한 모델이 좋다는 뜻으로 해석하지 말고 정확성과 효율 사이의 균형을 평가한다.
이 책을 활용한 좋은 탐구는 검색엔진의 기능을 소개하는 일이 아니라, 언어가 어떻게 숫자가 되고 그 숫자가 어떻게 검색과 판단으로 이어지는지를 직접 계산하는 일이다.
기반 자료
- 우쥔, 『수학의 아름다움』 — 자연어 처리, 정보이론, 검색엔진, 그래프, 벡터, 행렬, 확률 모형 및 알고리듬 관련 장.
- 2022 개정 고등학교 수학 교육과정의 공통수학·대수·확률과 통계·기하 및 정보 교과와 연계하여 구성함.
'세특독서자료 > 수학' 카테고리의 다른 글
| 수학이 일상에서 이렇게 쓸모있을 줄이야 (0) | 2026.06.24 |
|---|---|
| 수학의 힘 (0) | 2026.06.24 |
| 수학의 쓸모 (0) | 2026.06.24 |
| 수학의 기쁨 혹은 가능성 (0) | 2026.06.24 |
| 수학의 이유 (0) | 2026.06.24 |
이 글을 공유하기





