7. Extracting Information from Text www.nltk.org 우리가 무언가에 대해 궁금해 하고, 질문에 대한 해답을 찾으려고 하면 이는 이미 답변이 존재하는 경우가 많다. 매일매일 수 천, 수 만 개의 자연어 텍스트가 증가하고 있으나 자연어의 복잡성은 그 텍스트의 정보에 접근하는 것을 어렵게 만들 수 있다. 이번 단원의 목표는 아래 세 질문에 대한 답을 찾는 것이다. 1. 구조화되지 않은 텍스트에서 구조화된 데이터 (예 : 표)를 추출하는 시스템을 구축할 수 있을까? 2. 텍스트에 설명된 객체(데이터 집합 ; Entity)와 관계(relationship)를 식별할 수 있는 강력한 방법은 무엇인가? 3. 어떤 말뭉치(corpus)가 이 작업에 적합하며, 모델을 훈련시키고 평가하는..
Python으로 자연어처리 진행하기 NLTK NLTK는 Nature Language ToolKit의 약자이며, 이 라이브러리는 NLP를 위한 많은 말뭉치, 어휘 자원 등의 기능을 제공한다. 여기서 말뭉치(corpus)란 자연어 분석 작업을 위해 만든 샘플 문서 집합을 의미한다. 위와 같은 방법으로 nltk를 import 해준 후 말뭉치 자료를 다운로드하기 위한 명령을 실행한다. import nltk #import NLTK Library nltk.download("book") from nltk.book import * book에 포함된 type 중 하나의 이름을 넣으면 해당 타입의 제목이 출력된다. text1 해당 실습에서는 저작권이 말소된 문학작품을 포함하는 gutenberg 말뭉치를 샘플로 활용한다. ..
NLP 실습을 위해 Google Colab을 사용. 누구나 브라우저를 통해 파이썬 코드를 실행할 수 있으며 특별한 설정 없이 호스트된 주피터 노트북 서비스를 사용할 수 있기에 코랩을 활용합니다. (무엇보다 무료...) How to Use? 1. 구글 계정 생성, 이미 있는 경우 구글 드라이브(https://drive.google.com/)로 이동. 2. 드라이브에 원하는 이름으로 폴더를 생성한 후 좌측의 새로 만들기 > 더보기 > 연결할 앱 더보기 클릭 3. 'colab'을 검색한 후 해당 app을 설치해줍니다. 4. 설치가 완료되면 우측 상단의 설정으로 들어가 앱관리 > colab 기본값으로 사용 체크 5. 이후 이전에 만들었던 폴더에 들어가 우클릭(혹은 새로 만들기) > 더보기 > Google Col..
✏️ ABOUT NLP NLP(Natural Language Processing)는 무엇일까? Natural Langage?인간에 의해 말해지는 모든 종류의 언어들을 '자연어'라 일컫는다. (예 - 한국어, 영어, 중국어) 굳이 자연어라 명명할 필요가 있나? → 기계에서 사용되는 언어와 인간이 쓰는 언어에 구분을 두기 위해 정의. NLP는 컴퓨터와 인간 사이의 상호작용을 의미한다. 따라서 NLP의 궁극적 목표는 기계를 사용해 문서의 내용을, 문맥상 의미를 포함하여 해석하고 이해하는 것이다. 연구분야- Multidisciplinary(다학적) : 언어학, 인지과학,심리학, 철학 등 - Within CS : 형식 언어 이론, 기계 학습, 인간-컴퓨터 상호작용 등 컴퓨터는 Input 정보의 의미를 이해하려고 ..