• 요약파일의 특징

    • 해시함수를 기반으로 한 단어기반의 색인구조
    • 비트형태의 요약기호(signature) 사용
    • 데이타가 정적인 경우(변하지 않는) 경우 주로 사용된다.

      • 예: 법률, DNS, 도서관, 광디스크
    • 여과(filtering)하는 작용을 한다.

      • 적합하지 않는 문서를 빠르게 걸러 내는데 사용.
    • 저장공간이 작다.

      • 색인어당 수 비트(bit)만 사용하기 때문
      • 색인어크기의 약 10%만 추가적으로 사용
    • 탐색시간이 데이타의 그 크기에 선형비례한다.

      • 데이타의 크기가 소,중형에 알맞다.
    • 중첩기호법

      • 문헌요약은 문헌에 포함된 단어의 요약을 OR 연산하여 생성한다.
    • 대부분의 경우 역파일 보다 성능이 안 좋다.

      • 업데이트는 매우 빠르다.
      • 허위드롭이 발생할 경우 이에 대한 처리 때문에 느리다.

        • 최종 후보 문서마다 패턴탐색을 하므로

 

  • 허위드롭(허위적중, false drop)

    • 문헌요약과 단어요약을 비교했을 때 포함(matching)되는 것으로 판단되지만, 실제로는 포함되지 않는 경우
    • 허위드롭가능성 Fd = 2-m

      • m(단어당 비트 수)가 커질 수록, 허위드롭 가능성은 낮아진다.
      • F=단어당 총 비트수 (요약을 표시하는데 쓰이는 총 비트수)
      • m = 단어당 비트 수 ( F개의 비트중 1이 세팅된 개수, m < F )
      • 허위드롭가능성을 줄이기 위해 문헌을 일정 단어개수 단위의 논리블럭으로 나눈다.

        • 많은 단어의 요약을 AND 하면, 대부분이 1로 세팅되어 허위드롭 가능성이 높아지므로

 

 

 

  • 단어의 부분검색을 하기 위한 방법

    • 모든 부분별로 색인을 생성한다.

      • 예: free -> fr, re ee 이런식으로 나눠서 각각 색인어로 지정

 

 

  • 요약파일의 처리과정

    1. 단어요약 생성

      • B개의 비트중 m개를 무작위로 1로 세팅함
      • 단어마다 다른 bit 배열로 생성
    2. 문헌요약(signature file)  생성

      • 문헌안에 포함된 단어의 요약을 OR 연산.
    3. 질의요약 생성

      • 질의안에 포함된 단어의 요약을 OR 연산.
    4. 문헌요약과 질의요약 비교(matching)

      • W & B = W
      • 질의요약과 문헌요약을 &연산을 하여 비트마스크(bit mask)생성
      • 비트마스크가 질의요약과 같다면, 해당 문헌이 질의어를 포함하고 있다고 추정가능 
    5. 허위드롭 탐지

      • 위와 같은 경우 D3 는 적합하지 않는 문서이므로, 따로 처리
      • 실제로 매칭된 모든 문서를 순차적으로 비교해야 함.

 

 

  • 순차요약파일

 

 

 

  • 순차요약파일의 개선 방안
  • 압축: 요약파일의 저장공간을 줄임
  • 수직분할: 주기억장치의 저장효율 개선

    • 컬럼별로 분할하여 필요한 컬럼에 해당되는 파일만 주기억장치로 저장
  • 수평분할: 탐색 개선
    • 비슷한 요약을 그룹핑

 

  • 요약파일의 분류

    • 분할안함: 순차요약파일 그대로 사용

      • 압축안함

        • 순차요약파일(SSF, Sequential Signature File)
      • 압축

        • 실행길이 부호화
        • 비트블럭 압축(BC, Bit-Block Compress)
        • 가변 비트블럭 압축(VBC, Variable Bit-Block Compress)
    • 수직분할

      • 압축안함

        • 비트분할 요약파일(BSSF)
        • 향상된 비트분할 요약파일(B'SSF)
        • 프레임분할 요약파일(FSSF)
        • 일반화된 프레임분할 요약파일(GFSSF)
      • 압축

        • CBS
        • DCBS
        • NFD
    • 수평분할

      • 데이타독립적 분할

        • Gustafson의 방법
        • 분할요약파일
      • 데이타의존적 분할

        • 2단계 요약팡리
        • S-트리

 

 

  • 순차요약파일의 압축

    • 유한한 허프만 코드

      • 실행길이 부호화
      • 1사이의 연속된 0의 개수 나열
    • 비트-블럭 압축(BC, Bit-Block Compression)

      • 순차요약파일과 같은 크기의 공간을 사용했을 때, 순차요약파일보다 허위드롭 가능성이 더 작다.
      • 비트-블럭의 크기가 고정이다.

        • 비트-블럭: 문헌요약안에
      • 부분 I: 1의 존재여부
      • 부분 II: 1의 개수 에서 마지막 비트만 0으로 표시
      • 부분 III: 1의 위치
      • 그림 4.6에서 압축된 최종결과=  01011 1000 00111000

 

 

  • 가변 비트-블럭 압축(VBC, Variable Bit-Block Compression)

    • 문헌요약에  1의 빈도에 따라 비트-블럭을 다르게 설정

 

  • 수직분할

    • 탐색속도 개선. 주기억장치의 저장효율 개선
    • BSSF, B'SSF

      • 비트단위로 분할
      • 분할과정
      • 검색과정

        • 질의 단어의 요약의 "1"비트 위치를 확인

          • 예: free( 001 000 110 010) 이라면, 확인할 비트는 3,7,8,11번째
        • 위의 모든 비트가 1인 문헌에 대해 검색
      • 삽입과정

        • 요약의 총비트 F 만큼 디스크 랜덤접근하여 기록
        • 각비트별로 분할되어 있기 때문에 지우고 다시쓰는 (rewrite)는 불필요
    • FSSF(프레임-슬라이스)

      • 문헌요약을 프레임단위로 나누고, 프레임단위로 단어요약이 저장되도록 함

        • 프레임단위로 파일을 나눔으로써 디스크 랜덤접근 수를 줄임
      • 분할과정


      • 검색과정

        • 질의 단어당 1프레임만 확인하여 질의요약과 같은지 확인한다.
      • 삽입과정

        • 총 프레임개수 만큼 디스크를 접근한다.

          •  예: 요약이 총 2프레임이면 2번 접근한다.

 

  • 수평분할

    •  탐색시간을 O(N)보다 빠르게 함.

      • 문헌요약에 대한 해싱함수를 만들어, 문헌을 그룹화

         


Posted by BAGE
  • 접두 B+트리의 특징

    • 갱신비용이 작고, 탐색시간이 빠름
    • 저장공간 많이 소모
    • 구현이 어려움
    • 텍스트 색인에 사용

 

  • 접두 B+트리의 구조

    • 키: 다음 레벨의 키와 구분되는 최소의 문자들(단어의 일부, 접두어)
    • 잎노드: 단어 저장

      • 단어(알파벳)
      • 빈도
      • 포스팅위치

 


Posted by BAGE
  • 역파일의 특징

    • 단어번호, 문헌번호에 대해서 순서대로 정렬한다.

      1. 단어번호에 대한 정렬은 질의어(검색어)와 연관된 문서집합을 찾는데 사용
      2. 문헌번호에 대한 정렬은 검색어가 여러 단어일 경우, 각각의 단어에 대한 문서집합 간의 연산(merging)을 위해 필요함
    • 구현은 쉽다.
    • 업데이트가 어렵다.

      • 정렬된 상태를 유지해야하므로

 

  • 역파일의 구성 = 렉시콘 + 포스팅렉시콘 파일 (lexicon, 색인어 목록, 사전)

      • 색인어
      • 문서빈도(총 빈도, 포스팅 개수)
      • 포스팅위치
    • 포스팅 파일 (문헌정보 파일)

      • 문헌식별자(문서ID, 문헌번호) 목록
      • 문헌내의 단어 위치(선택사항)

        • 근접연산시에만 사용
        • 블럭, 단어, 글자단위 위치
      • 문헌내의 단어 빈도(선택사항)

 

  • 역파일 구성 예


 

  • 렉시콘에 포함되지 않는 글자 또는 단어

    • 불용어 목록: 관사,전치사등
    • 색인될 필요가 없는 문자열: 숫자등
    • 단어 구분의 규칙이 되는 문자: 공백, 마침표등

 

  • 렉시콘 파일용 구조체

    • 정렬된 배열
    • 접두 B+트리
    • 접두 B트리
    • 트라이

      • 패트리샤트리
    • 해시
    • 여러 구조체의 조합
 

 

  • 포스팅 파일용 구조체

    • 연결리스트

      • 임시포스팅파일에 사용
    • 배열

      • 정적포스팅파일에 사용

 

  • 역파일 생성 방법
Posted by BAGE
시맨틱웹
카테고리 컴퓨터/IT
지은이 DEAN ALLEMANG (사이텍미디어, 2008년)
상세보기


시맨틱검색 프로젝트를 하면서 읽었던 책이다.
예제가 많아서 비교적 이해하기 쉽다.
다만 저자가 너무 깊은 원론에 대해서 이해시키려는 부분이 있는데 그 부분은 넘어가도 좋을 듯 싶다.
Posted by BAGE
학교 문법론 (개정판)
카테고리 인문
지은이 이관규 (월인, 2007년)
상세보기

형태소 분석기를 만들면서 옆에 두었던 책이다.
주위에 자연어처리 전공하는 사람이 없다면... 이 책이 필요할 듯
Posted by BAGE
국어 형태 단위의 의미와 단어 형성
카테고리 인문
지은이 황화상 (월인, 2001년)
상세보기


내용이 어려워서 아직 못 봤다.
기본적인 단어와 의미의 개념을 이해하고.. (기호학 같은)
그 이후에 한 번 볼 만한 책인 것 같다.
Posted by BAGE
한국어와 정보
카테고리 인문
지은이 황화상 (박이정, 2006년)
상세보기



평가
한국어 형태소 분석과 정보검색 - 2002, 강승식 책에 비하여, 간결하게 설명되어 있다.
하지만 깊은 내용을 이해할 수 없고, 이 책에 설명된 내용으로 형태소 분석기를 만들기에는 매우 부족하다.

Posted by BAGE
구글을 지탱하는 기술
카테고리 컴퓨터/IT
지은이 니시다 케이스케 (멘토르, 2008년)
상세보기


평가

- 구글논문을 중심으로 분산처리기술, 운용비절감, 회사철학등을 배울 수 있다 (구글 논문이 어렵다면, 이 책을 보면 된다.)
- 세부 기술에 대해서 예시가 제각각이어서 전체구조를 한눈에 보는데 어려움이 있다.

관련글
- [박혜웅] 구글을 지탱하는 기술 요약


Posted by BAGE
C로 쓴 자료구조론 (2판)
카테고리 컴퓨터/IT
지은이 HOROWITZ (교보문고, 2008년)
상세보기


PDF(한글): 출처불명

ch01 기본개념.pdf
ch02 배열.pdf
ch03 스택과 큐.pdf
ch04 연결리스트.pdf
ch05 트리.pdf
ch06 그래프.pdf
ch07 정렬.pdf
ch08 해싱.pdf
ch09 우선순위 큐.pdf
ch10 이원탐색트리.pdf
ch11 다원탐색트리.pdf
ch12 디지털탐색.pdf



목차

더보기

Posted by BAGE
Christopher D. Manning - Stanford University
Prabhakar Raghavan - Yahoo! Research
Hinrich Schutze - University of Stuttgart





PDF(영어) 2008년판
[2008] irbookprint.pdf


평가
- 검색엔진 전체를 바라보는데는 큰 도움이 되는 책
- 대학 교재라는 한계로 구현에 이르는 상세한 내용이 부족
- 확률모델과 같은 실용적이지 않은 기술들에 일부 장이 할애된 점에서는 아쉽다
http://insidesearch.tistory.com/entry/스탠포드-대학에서-사용하는-정보검색-교재
원제가 "An Introduction to Information Retrieval"인 이 책은 3명의 저자가 2002년 가을학기와 2003년 겨울학기에 스탠포드에서 "
정보검색과 정보추출" 강의를 하면서 정리한 내용을 캠브리지 대학 출판사와 출판한 것으로 PDF 버전으로 공개되어 무료로 다운받을 수 있다.2008년에 책으로 출간될 예정이지만 다운로드 페이지에는 출간 후에도 이 PDF 파일들을 유지하겠다고 되어 있어 특히나 매력적이다. 검색엔진과 맞물려 많이 사용되는 분류기술들에 대한 소개와 웹 크롤링과 인덱싱에 대한 기술도 소개하고 있어 전체를 바라보는데는 큰 도움이 되는 책이다. 반면에 대학 교재라는 한계로 구현에 이르는 상세한 내용이 부족하고 확률모델과 같은 실용적이지 않은 기술들에 일부 장이 할애된 점에서는 아쉽다.

Posted by BAGE

집단지성 프로그래밍
카테고리 컴퓨터/IT
지은이 토비 세가란 (한빛미디어, 2008년)
상세보기

평가

- 통계, python, 블로그, 검색서비스에 대한 기초 지식이 필요하다.
- 데이터마이닝을 공부하기 전에, 이 책으로 입문하면 매우 좋을 듯.
- 12장 요약과 부록의 수학공식만 보아도 데이터마이닝의 기초를 이해할 수 있는 좋은 책

관련글
- [박혜웅] 기본 수학 공식 (작성중)
- [박혜웅] collaborative filtering (협업 필터링)


목차

더보기

Posted by BAGE
데이터 마이닝
카테고리 컴퓨터/IT
지은이 TAN (인피니티북스, 2007년)
상세보기



평가
- 초보자에게 내용이 너무 어렵다. 정석수학부터 먼저 공부해야 할 듯
- 대학교 교재용이므로 바이블로는 좋다.

목차

더보기

Posted by BAGE
C C++로 배우는 자료구조론
카테고리 컴퓨터/IT
지은이 주우석 (한빛미디어, 2005년)
상세보기

평가
- C/C++에 대한 기본지식이 필요하다.
- 컴퓨터전공자에게 적합하며, 정리도 잘 되어있고 설명도 깔끔하다.
- 대학교 2학년 강의 교재로 사용되고 있다.

http://book.naver.com/bookdb/book_detail.php?bid=1224253&menu=nview&mode=unfold&sort=best&point=&page=1&find=off&display_seq=1088771
전공을 다시 공부하게 되어서 여러 전공 서적들을 살펴봤지만 이책 만큼 정확하고 알기 쉽고 이해하기 쉽게 설명한 책은 보지 못했다. 일부 겉핥기식 이론 정리만 해논 책들에 비해 이책을 완벽하게 이해하게 된다면 여러분은 자료구조부터 알고리즘까지 어느정도 고수가 되어 있다고 생각해도 가히 무방하리라 생각이 든다. 다른 책에서 딱딱하고 다 아는 사실과 틀에 박히고 오래된 구식적인 얘기들로 가득해서 불만인 분이 있다면
이 책을 반드시 한번 읽어보기 바란다.

PDF(한글): 출처불명

- 대학교에서 "자료구조" "알고리즘" 에 대한 수업을 들은 기억이 있었다면, PPT만 읽어도 쉽게 정리가 된다.
01장_객체지향_방법론.pdf
02장_추상자료형.pdf
03장_포인터,_배열,_구조체.pdf
04장_재귀호출.pdf
05장_리스트.pdf
06장_스택.pdf
07장_큐.pdf
08장_알고리즘과_효율.pdf
09장_정렬_알고리즘.pdf
10장_트리.pdf
11장_우선순위_큐.pdf
12장_탐색_알고리즘.pdf
13장_균형_탐색트리.pdf
14장_그래프_알고리즘.pdf
15장_알고리즘의_설계.pdf


목차

더보기

Posted by BAGE
C언어로 쉽게 풀어쓴 자료구조
카테고리 컴퓨터/IT
지은이 천인국 (생능, 2005년)
상세보기


PDF(한글): 출처불명
- 많은 그림과 쉬운 예제때문에 초보용으로 최고이다.
- 하지만, 깊숙한 내용을 이해하기에는 설명이 부족하다.
ds01.pdf
ds02.pdf
ds03.pdf
ds04.pdf
ds05.pdf
ds06.pdf
ds07.pdf
ds08.pdf
ds09.pdf
ds10.pdf
ds11.pdf
ds12.pdf



목차

더보기

Posted by BAGE
Grossman, David A./ Frieder, Ophir
Kluwer Academic Pub
2005.01.31





평가
- 그림이 많아서 좋고, 표가 많아서 좋다.
http://www.freesearch.pe.kr/562
눈에 띄게 달라진건 2판이 Cross-Language Retrieval Syatem, p2p Retrieval Syatem 등의 업계에서 관심을 두고 있는 검색에 대한 챕터가 추가된 부분과, 검색모델 부분에서는 Language Model 부분이 추가가 되었다.
물론 자세한 내용을 기대하긴 힘들고, 나름 맛배기를 보여주는 것만으로도 책에 점수를 많이 주고 싶다. 물론 그곳에 굉장한 관심이 있으면 관련 문건을 찾아보면 될테니까.(가이드 라인 정도 만으로도 훌륭하다.)


PDF(영어): 출처불명
- 왜? 인지부터 시작해서 설명한다. 간결하고 전개 순서도 부드럽다.
- 물론 수업용 자료이므로.. 이것만으로 자습하기는 힘들듯 하다.
Boolean-VectorSpace-07.pdf
Efficiency-Compression-07.pdf
Efficiency-Indexing-07.pdf
Efficiency-IndexPrunning-QueryThresholding-07.pdf
Evaluation-07.pdf
LanguageModel-07.pdf
Parser-07.pdf
PassageBased-Retrieval-05.pdf
Probablistic-07.pdf
QueryExpansion-RF-07.pdf
WorldWideWeb-07.pdf
Posted by BAGE
한국어 형태소 분석과 정보검색
카테고리 인문
지은이 강승식 (홍릉과학출판사, 2002년)
상세보기

평가
- 기초적인 한국어 문법에 대한 사전지식이 요구됨
- 한국어 형태소분석에 대한 책중 가장 충실한 내용.

PDF(한글): 출처불명
01. KLP 개요.pdf
02. 한국어의 특성.pdf
03. 한글코드.pdf
04. 코드변환과 인코딩.pdf
05. 어절빈도조사.pdf
07. 품사체계와 어절 유형.pdf
08. 한국어의 음절특성.pdf
09. 형태소 분석 개요.pdf
10. 형태소 분석기의 구조.pdf
11. 형태소 분석 방법론.pdf
12. 한국어 형태소분석 기법.pdf
13. 형태소 분석과 후보생성.pdf
14. 조사-어미의 음절 특성.pdf
15. 선어말어미.pdf
16. 불규칙 용언.pdf
17. 전자사전.pdf
18. 품사 표지.pdf
19. 형태소 분석기의 구현.pdf
20. 중의성 해결.pdf
22. 자동색인.pdf
23. 용어가중치 부여.pdf
25. 수사어절.pdf
26. 자동띄어쓰기-1.pdf
26. 자동띄어쓰기-2.pdf
27. 가격연산자.pdf
28. 자동전환.pdf
30. KLP 방법론-1.pdf
30. KLP 방법론-2.pdf
31. 웹정보검색.pdf
34. Thesaurus.pdf
35. 문서분류.pdf
36. 클러스터링-1.pdf
36. 클러스터링-2.pdf
37. 정보추출-Coreference.pdf
38. NLP상용화.pdf


관련링크
- 형태소분석기 데모: http://nlp.kookmin.ac.kr/demo/index.html
- 한국어 형태소 분석기와 한국어 분석 모듈: http://nlp.kookmin.ac.kr/HAM/kor/index.html

관련글
- [박혜웅] 국문학 용어 정리


목차

더보기






Posted by BAGE
최신정보검색론
카테고리 컴퓨터/IT
지은이 BAEZA YATES 외 (홍릉과학출판사, 2001년)
상세보기

PDF(한글): 출처불명
01.pdf
02.pdf
03.pdf
04.pdf
05.pdf
06.pdf
07.pdf
08.pdf
09.pdf
10.pdf
11.pdf
12.pdf
13.pdf
14.pdf
15.pdf


평가

- 정보검색에 대한 전반적인 내용을 설명하고 있음.
- 대학용 수업교재로 활용되고 있음


목차

더보기

Posted by BAGE