본문 바로가기

ReactFileStructure

(42)
문서 임베딩 Hugging Face 의 sentence-transformers 라이브러리를 사용하여 문서를 벡터로 변화문서의 의미를 벡터화하여 질의응답 시스템에서 유사한 문서를 빠르게 검색할 수 있게 한다.라이브러리 설치와 함께pip install sentence-transformers기존 keras 제거 후 tf-keras 의 설치, 호환성 문제tensorflow 의 재설치  from sentence_transformers import SentenceTransformerfrom sklearn.metrics.pairwise import cosine_similarity# 문서 리스트 준비list_of_documents = [ "This is the first document. It contains informat..
LLM을 연동한 내외부 문서 기반 질의 응답 시스템 개발 주요 개발 단계1. 문서 수집 및 처리내, 외부 문서 수집,문서 유형에 맞게 텍스트 전처리 수행2. 문서 임베딩 및 검색 엔진벡터 임베딩 : 문서 내용을 벡터로 변환하여 유사도 검색에 활용 - 임베딩 모델을 사용해야 해검색 엔진 통합 : 벡터 기반 검색 엔진의 사용으로 질문에 맞는 문서나 문장 검색3. LLM 과 문서 연동질의응답 시스템 : 사용자가 입력한 질문을 LLM 에 전달하고, 문서에서 추출한 정보를 바탕으로 응답 생성질문을 문서 임베딩과 비교해 관련 문서를 추출, 그 문서에서 답을 찾아 LLM 이 더 자연스러운 답을 생성하도록 한다.이를 위해 Retrieval-Augmented Generation, RAG 방식 또는 Hybrid Search 방식을 사용할 수 있다. RAG 는 검색된 문서의 정보..
경진대회 가설 로지스틱 시그모이드 함수를 사용한다고 가정,0과 1 사이의 값이 나오고, 0.5 threshold 를 기준으로 0과 1로 분류함,이 때의 학습,  훈련 데이터에 대한 정확도가 존재, 잘못 분류한 데이터 중 시그모이드 함수의 결괏값 z 에 대해 |z| - 0.5 가 가장 큰, z 값을 찾는다.|z| - 0.5 = a 라고 할 때,0.5 - a ~ 0.5 + a 사이의 시그모이드 함수값이 나오는 데이터, x~ 에 대해선 모델이 정확하게 분류할 수 없다. 0.5 - a 임의의 연산은 학습 데이터의 생존자 비율에 대한 가중치가 존재,1이 생존일 경우 랜덤한 수(0~100)의 생성과, 생존자 비율(0 ~ 1)을 곱한 값을 z~(0 ~ 1) 에 곱한 값, z*(0 ~ 1) 을 통한 분류를 시행해보자.
UP_DOWN 문제와 구글 입사 문제 (계란 떨어트리기), 확률론으로의 해석 특정 범위 사이의 정수를 맞추는 문제에서 처음 정답을 맞출 확률은 1/100,up, down 의 힌트가 반복되면서 맞출 확률의 증가, 이를 log 함수를 통해 표현할 수 있다.사용자가 최적의 알고리즘을 사용하여 정답을 맞춘다고 가정할 때 고민할 수 있는 점으로 정답인지 확인하는 과정의 if, else if , else 문의 위치를 최적화 할 수 있을 것이다. 실행되는 코드의 라인 수를 최소화 한다는 아이디어에서 시작 숫자 맞추기 가장 먼저 사용자가 최적의 알고리즘을 통해 정답을 맞출 경우 최소 실행 횟수의 계산, 중간값의 정리를 사용하여  특정 숫자 : m, 반복 횟수 : n, 에서 m / 2^n 의 값이 1보다 작아지는 n 의 값이 최소 횟수이다.예제에서 m = 100 이므로2^n 의 값이 100 보다..
모델 모듈 개발(2) - 케라스에서의 레이어, model 클래스에서의 layer의 역할과 실제 layer 의 위치, 역할 keras 의 layer 속성에 직접 값을 저장하는 것이 불가능하게 설계된 것은,layer 속성이 모델의 레이어들을 읽기 전용으로 제공하도록 하기 위함대신, 레이어들이 모델에 추가되거나 모델이 생성될 때 Keras 내부의 다른 메커니즘에 의해 레이어들이 관리되고 저장된다. init 메서드에서의 레이어 정의모델을 생성할 때, __init__ 메서드에서 레이어들이 정의된다.이러한 레이어들은 클래스의 인스턴스 속성으로 저장된다.레이어 자동 수집모델의 모든 속성을 자동으로 검ㄱ사하고 Layer 클래스의 서브클래스인 모든 속성을 수집한다.이러한 수집과정은 모델이 빌드될 때 자동으로 이루어진다.이 수집된 레이어들은 flatten_layers 메서드에서 사용되며, 이를 통해 layers 속성에 포함될 레이어 리스트가..
mini project 수집된 데이터 확인 2024.08.10 - [부트캠프 과정] - 미니 프로젝트 2 - 데이터 수집 미니 프로젝트 2 - 데이터 수집제주 관광객 입도 현황 데이터 획득 https://www.data.go.kr/data/3083546/fileData.do 제주특별자치도_내국인관광객현황_20240213제주특별자치도를 방문하는 내국인 관광객의 형태별(개별/패키지), 목적별(레teach-meaning.tistory.com수집 데이터 확인region_data                 (2020.01. ~ 2024.04.)weather_traffic_data   (2018.01. ~ 2020.04.)tourist_data                 (2016.01. ~ 2024.06.)keyword_data             ..
미니 프로젝트 2 - 데이터 수집 제주 관광객 입도 현황 데이터 획득 https://www.data.go.kr/data/3083546/fileData.do 제주특별자치도_내국인관광객현황_20240213제주특별자치도를 방문하는 내국인 관광객의 형태별(개별/패키지), 목적별(레저/휴양/친지방문) 입도현황 정보를 제공합니다.www.data.go.kr 데이터 확인형태, 목적별 내, 외국인의 제주도 입도 현황 확인 가능,파일 이름을 통해 년도별 폴더 생성, 분류 - sort_data_folder.py# 데이터 정렬, 폴더 생성, 년도별 파일 구분import osimport shutil# 현재 작업 디렉토리를 기준으로 상대 경로 설정folder_path = os.path.join(os.getcwd(), 'num_jeju_tourist')# 폴더 내..
리눅스 컴퓨터 운영체제 중 하나, 생산제 운영체제서비스들이 리눅스 os 에서 작동할 확률이 크다... 먼 솔 이 여윈도우를 통해 생산제를 만들기 어렵다.  리눅스 구조리눅스 디렉토리 구조리눅스 사용법이미지 다운로드, 컨테이너 생성, 실행리눅스는 계정에 부여되어 있는 권한에 따라 사용할 수 있는 명령어들이 엄격하게 관리된다. whoami 명령어를 통한 사용자 확인apt-get update - 최신 목록 갱신apt-get upgrade - 갱신된 최신 패키지 업그레이드apt-get dist-upgrade - 의존성 체크 apt-get install -y ( 다 yes )l - link, 바로가기 표시, 색상 차이, 경로 확인d - directory 폴더 - : 파일 cd 명령어를 이용한 파일, 폴더 이동, 상대 경..