반응형

AI 10

[NLP(자연어 처리)] 영화 리뷰 데이터 분석과 시각화: TensorFlow, Pandas, Matplotlib 등

영화 리뷰 데이터를 로드하고, 전처리 및 시각화하는 과정을 보여드리겠습니다. 목표TensorFlow, Pandas, Matplotlib 등의 라이브러리를 사용하여 데이터를 처리IMDb 데이터셋을 사용하여 긍정 및 부정 리뷰를 분석하고, 데이터의 분포와 특성을 파악 1. 데이터 로드먼저, 필요한 라이브러리를 임포트합니다.import osimport reimport pandas as pdimport tensorflow as tffrom tensorflow.keras import utils os: 디렉토리 작업re: 정규 표현식pandas: 데이터 조작tensorflow와 tensorflow.keras.utils: 데이터 다운로드 및 로드 IMDb 영화 리뷰 데이터셋을 다운로드하고 압축을 해제합니다.data_..

AI/NLP 2024.05.23

[NLP(자연어 처리)] 검색 엔진을 위한 TF-IDF와 Similarity 연산

검색 엔진을 위한 TF-IDF와 Similarity 연산검색 엔진의 핵심은 사용자가 입력한 문장과 유사한 문서를 찾아내는 것입니다. 이를 위해 TF-IDF와 Similarity 연산을 조합하여 활용합니다. TF-IDF란?TF-IDF(Term Frequency-Inverse Document Frequency)는 문서 내 단어의 중요도를 나타내는 통계적 수치입니다.Term Frequency(TF): 특정 단어가 문서 내에 얼마나 자주 등장하는지 측정합니다.Inverse Document Frequency(IDF): 단어가 전체 문서에서 얼마나 흔하지 않은지를 측정합니다.TF-IDF를 사용한 키워드 추출예를 들어, 1000개의 문서에서 각 문서당 10개의 키워드를 TF-IDF로 추출한다고 가정해봅시다. 새로운 ..

AI/NLP 2024.05.22

What is ResNet-50?

스마트폰이 사진에서 애완 동물을 즉시 인식하거나 소셜 미디어 피드에 이전에 좋아했던 것과 유사한 이미지가 표시될 때 화면 뒤에서 무슨 일이 일어나는지 궁금해 한 적이 있나요? 이 현상의 상당 부분은 딥러닝 아키텍처에 있습니다. 이러한 아키텍처 중 하나를 ResNet-50이라고 합니다. ResNet-50은 영상 분류에 탁월한 Convolutional Neural Network (CNN)입니다. 이건 마치 사진을 나누고, 그 안에 있는 물체와 장면을 식별하고, 그에 따라 분류할 수 있는 고도로 훈련된 이미지 분석가와 같습니다. 이번 게시물에서는 ResNet-50의 내부 작동 방식을 자세히 살펴보고 이미지 분류 및 컴퓨터 비전 분야에 어떻게 영향을 끼쳤는지 살펴봅니다. What is ResNet-50? Res..

AI/Computer Vision 2024.03.29

What is Mean Average Precision (mAP) in Object Detection? (feat. Confusion matrices, Precision(정밀도), Recall(재현율))

이번 게시물에서는 평균 정밀도(mAP)가 계산되는 방법과 mAP가 객체 감지 모델에서 선호되는 메트릭이 된 이유에 대해 설명해보겠습니다. What is Object Detection? 평균 평균 정밀도를 계산하는 방법을 고려하기 전에 먼저 측정 중인 작업을 명확하게 정의하겠습니다. 객체 감지 모델은 이미지에서 관련 객체의 존재를 식별하고 이러한 객체를 관련 클래스로 분류하려고 합니다. 예를 들어, 의료 영상에서 혈류의 적혈구(RBC), 백혈구(WBC) 및 혈소판의 수를 계산할 수 있기를 원한다고 합시다. 이 작업을 자동으로 수행하려면 각 개체를 인식하고 올바르게 분류하도록 개체 감지 모델을 학습시켜야 합니다. (이미지 감지를 위한 두 가지 모델 EfficientDet과 YOLOv3를 사용해 비교하겠습니다..

AI/Computer Vision 2024.03.28

Overfitting in Machine Learning and Computer Vision (기계 학습에서 과적합 방지하는 방법)

Overfitting(과적합)은 모델이 학습 데이터에 정확히 핏 되는 경우입니다. 학습한 머신러닝 모델이 새로운 데이터와 보이지 않는 데이터를 이해하는 대신 학습 데이터에 과도하게 적합할 때 모델의 품질이 악화됩니다. 과적합이 발생할 수 있는 몇 가지 이유가 있으며 다양한 최신 기술을 적용하여 이러한 원인에 대응하는 것이 도움이 될 수 있습니다. 오늘 게시글에서는 과적합, 과적합의 일반적인 이유, 머신러닝 모델에서 과적합 감지 및 머신러닝 모델 학습에서 과적합을 방지하기 위한 몇 가지 사례를 알려드리겠습니다. 과적합이란? 과적합이 발생하는 방식 과적합을 감지하는 방법 과적합을 방지하는 방법 What is Overfitting? Overfitting(과적합)은 모델이 학습 데이터에 정확히 핏되는 경우입니다..

AI/Computer Vision 2024.03.27

What is an Activation Function? (활성화 함수 선택 전략: Binary step/Linear/Sigmoid/tanh/ReLU/Softmax)

활성화 함수는 딥러닝에서 신경망이 제대로 작동하는 데 매우 중요하며, 이미지 분류 및 언어 번역과 같은 작업에 필요합니다. 이러한 함수는 딥러닝 모델 출력값의 정확도를 결정하는 데 중요한 역할을 합니다. 또한 신경망의 수렴 능력과 속도에 큰 영향을 미칩니다. 활성화 함수가 없다면 딥러닝의 이러한 복잡한 작업을 처리하기가 어려울 것입니다. 이 게시물에서는 다음 사항에 대해 다룰 것입니다. 활성화 함수란 무엇인가? 활성화 함수를 사용하는 이유는? 활성화 함수의 주요 유형 What is an Activation Function? 활성화 함수는 신경망에 대한 입력에 따라 뉴런을 활성화해야 하는지 여부를 결정합니다. 이러한 함수는 수학 연산을 사용하여 입력이 예측에 중요한지 여부를 결정합니다. 입력이 중요하다고 ..

AI/Computer Vision 2024.03.27

Multimodal Models and Computer Vision (다양한 데이터 유형을 통한 멀티모달 딥러닝)

최근 몇 년 동안 기계 학습 분야는 이미지 인식에서 자연어 처리에 이르기까지 다양한 문제 유형에서 상당한 발전을 이루었습니다. 그러나 이러한 모델의 대부분은 이미지, 텍스트 또는 음성과 같은 단일 양식의 데이터에서 작동합니다. 반면, 실제 데이터는 이미지 및 텍스트, 비디오 및 오디오 또는 여러 소스의 센서 데이터와 같은 여러 양식에서 제공되는 경우가 많습니다. 이 문제를 해결하기 위해 연구원들은 여러 양식의 데이터를 처리할 수 있는 멀티모달 머신러닝 모델을 개발하여 지능형 시스템의 새로운 가능성을 열었습니다. 이번 게시물에서는 멀티모달 머신러닝의 챌린지들을 살펴보고, 멀티모달 컴퓨터 비전 문제를 해결하는 데 사용되는 다양한 아키텍처와 기술에 살펴볼게요. What is Multimodal Deep Lea..

AI/Computer Vision 2024.03.26

How to Label Image Data for Computer Vision Models (컴퓨터 비전에서의 이미지 라벨링 전략)

What is image labeling? 이미지 라벨링이란 이미지 내의 특정 객체나 특징을 주석으로 표시하는 것입니다. 이미지 라벨은 컴퓨터 비전 모델이 이미지 내의 특정 객체를 식별하는 방법을 학습하도록 돕습니다. 예를 들어, 항공 이미지 셋에서 모든 나무를 주석으로 표시할 수 있습니다. 이러한 라벨은 모델이 나무가 무엇인지 이해하는 데 도움이 됩니다. 이미지 라벨링은 다양한 주석 도구를 사용하여 수행할 수 있습니다. 이러한 주석 도구를 사용하면 객체 주위에 특정 경계를 그릴 수 있습니다. 이러한 경계는 "바운딩 박스"라고 불립니다. 각 바운딩 박스에는 모델이 서로 다른 객체를 구별할 수 있도록 라벨이 지정됩니다. 예를 들어, 모든 나무는 "나무"로 라벨이 지정될 수 있으며, 모든 집은 "집"으로 주..

AI/Computer Vision 2024.03.26

[AI] 머신러닝 알고리즘(2): Ensemble 기법, XGBoost, LightGBM

Ensemble (앙상블): 여러 개의 분류기를 결합하여 보다 정확한 예측을 얻는 머신러닝 기법입니다. 이를 통해 약한 모델을 조합하여 높은 예측 정확도를 달성할 수 있으며, 적절한 Hyperparameter 튜닝이 필요합니다. ​ Ensemble 기법 Boosting: 이전 학습에 대하여 잘못 예측된 데이터에 가중치를 부여하여 오차를 보완하는 방식으로, 대표 모델로 XGBoost, LightGBM이 있습니다. 순차적인 학습을 통해 오차를 보완하지만 학습 시간이 길 수 있습니다. Stacking: 여러 모델이 예측한 결과 데이터를 기반으로 최종 예측을 수행하는 방식입니다. 이를 통해 성능은 향상될 수 있지만 과대적합을 유발할 수 있습니다. Weighted Blending: 각 모델의 예측값에 가중치를 곱..

AI/Machine Learning 2023.11.19

[AI] 머신러닝 알고리즘(1): Linear Regression, Logistic Regression, KNN, Decision Tree, Random Forest

머신러닝 주요 알고리즘 scikit-learn: 가장 인기 있는 머신러닝 패키지로, 다양한 머신러닝 알고리즘이 내장되어 있습니다. ​ 머신러닝 주요 알고리즘 분류 ​ 회귀 (Regression) 예시: 선형 회귀 (Linear Regression) 코드 예시 from sklearn.linear_model import LinearRegression model = LinearRegression() ​ 분류 (Classification) 예시: 로지스틱 회귀 (Logistic Regression) 코드 예시 from sklearn.linear_model import LogisticRegression model = LogisticRegression() ​ 회귀와 분류 모두 가능 결정 트리 (Decision Tr..

AI/Machine Learning 2023.11.19
반응형