knn 알고리즘 예제

k의 최선의 선택은 데이터에 따라 달라집니다. 일반적으로 k값이 클수록 노이즈가 분류에 미치는 영향을 줄일 수 있지만[5] 클래스 간의 경계가 덜 구별됩니다. 좋은 k는 다양한 추론 적 기술에 의해 선택 될 수있다 (하이퍼 매개 변수 최적화 참조). 클래스가 가장 가까운 학습 샘플의 클래스(예: k = 1일)의 클래스로 예측되는 특수 한 경우를 가장 가까운 인접 알고리즘이라고 합니다. 정확도! 우리는 scikit-learn의 알고리즘만큼 뛰어나지만 아마도 효율성이 낮습니다. 의 값으로 다시 시도해 보겠습니다. IndexError: 목록 인덱스 범위를 벗어난 오류가 발생합니다. 실제로 K는 학습 데이터 집합의 관측값 수보다 더 많은 이웃을 가질 수 없기 때문에 임의로 커질 수 없습니다. 따라서 이러한 오류에 대해 보호하기 위해 코드를 수정해 보겠습니다.

try를 사용 하 여 다음 코드를 작성할 수 있습니다. KNN 알고리즘의 명백한 단점 중 하나는 업계 환경에서 비실용적인 계산 비용이 많이 드는 테스트 단계입니다. KNN과 매우 빠른 테스트 단계이기는 하지만 긴 훈련 단계를 가진 보다 정교한 신경망 사이의 엄격한 이분법을 참고하십시오. 또한 KNN은 왜곡된 클래스 분포로 인해 어려움을 겪을 수 있습니다. 예를 들어, 특정 클래스가 학습 집합에서 매우 빈번한 경우 새 예제의 과반수 투표를 지배하는 경향이 있습니다(큰 숫자 = 더 일반적). 마지막으로, 가장 가까운 이웃과 가장 먼 이웃 사이에 차이가 거의 없기 때문에 높은 차원 의 데이터로 KNN의 정확도가 심각하게 저하될 수 있습니다. 또한 각 행은 일반적으로 예제, 관찰 또는 데이터 포인트라고 하며 각 열(레이블/종속 변수 제외)은 예측 변수, 차원, 독립 변수 또는 피쳐라고 합니다. 위의 이미지에서 대부분의 경우 유사한 데이터 요소가 서로 가깝습니다. KNN 알고리즘은 알고리즘이 유용할 만큼 충분히 사실이라는 가정에 달려 있습니다. KNN은 우리가 어린 시절에 배웠을 수도 있는 일부 수학과 유사성(거리, 근접성 또는 근접성이라고도 함)의 개념을 캡처하여 그래프의 점 사이의 거리를 계산합니다.

교차 유효성 검사를 사용하여 찾은 최적의 K로 알고리즘을 실행해 보겠습니다. 연속 변수에 일반적으로 사용되는 거리 메트릭은 유클리드 거리입니다. 텍스트 분류와 같은 불연속 변수의 경우 겹치는 메트릭(또는 해밍 거리)과 같은 다른 메트릭을 사용할 수 있습니다. 유전자 발현 마이크로어레이 데이터의 맥락에서, 예를 들어, k-NN은 Pearson 및 Spearman과 같은 상관계수와 함께 메트릭으로 채택되었다. [3] 종종 거리 메트릭을 큰 마진 가장 가까운 이웃 또는 이웃 요소 분석과 같은 특수 알고리즘으로 학습하는 경우 k-NN의 분류 정확도를 크게 향상시킬 수 있습니다. 회귀 문제는 출력으로 실제 숫자(소수점이 있는 숫자)를 가합니다. 예를 들어 아래 표의 데이터를 사용하여 높이를 고려하여 다른 사람의 체중을 추정할 수 있습니다. 잠시 상상해 보십시오.

우리는 MoviesXb 웹 사이트를 탐색, 가상의 IMDB 스핀 오프, 우리는 게시물을 발생. 우리는 우리가 그것을보고 싶어 확실하지 않지만, 그 장르는 우리를 호기심; 우리는 다른 유사한 영화에 대한 호기심. 우리는 «더 좋아»섹션으로 스크롤하여 MoviesXb가 만들 수있는 권장 사항을 확인하고 알고리즘 기어가 회전하기 시작합니다. 아래 데이터는 정리된 데이터가 어떤 모양인지를 예로 들 수 있습니다. 이 데이터에는 7개 장르의 각 영화에 대한 데이터와 IMDB 등급을 포함하여 30개의 영화가 포함되어 있습니다.

  • Información

    • Últimas Entradas

      가우스 법칙 예제

      k의 최선의 선택은 데이터에 따라 달라집니다. 일반적으로 k값이…

      피벗 예제

      k의 최선의 선택은 데이터에 따라 달라집니다. 일반적으로 k값이…

      페르미 추정 예제

      k의 최선의 선택은 데이터에 따라 달라집니다. 일반적으로 k값이…