카테고리 없음
[파이썬] NLTK / pyNLTK가 "언어별로"(즉, 영어가 아닌 경우) 작동 할 수 있습니까?
필살기쓰세요
2020. 12. 29. 17:50
코드 / 설정의 변경 사항으로 무엇을 언급하고 있는지 잘 모르겠습니다. NLTK는 대부분 기계 학습에 의존하며 일반적으로 "설정"은 훈련 데이터에서 추출됩니다.
POS 태깅과 관련하여 결과 및 태깅은 사용 / 훈련하는 태거에 따라 달라집니다. 자신 만의 훈련을하려면 물론 스페인어 / 폴란드어 훈련 데이터가 필요합니다. 이것들을 찾기 어려울 수있는 이유는 공개적으로 사용할 수있는 금 표준 자료가 없기 때문입니다. 이를 수행하는 도구가 있지만 이것은 파이썬 용이 아닙니다 ( http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ ).
nltk.tokenize.punkt.PunktSentenceTokenizer 토크 나이 저는이 문서 ( http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485 ) 에서 자세한 내용을 확인할 수있는 다국어 문장 경계에 따라 문장을 토큰 화합니다. .
출처
https://stackoverflow.com/questions/1900596