Jikji find

Benchmark report: raw local agents vs the same agents with Jikji find

공개 제품 표면은 jikji find ROOT "query" --json 하나다. 내부 구현은 여러 query와 메타데이터, 파일 지도, parser cache, graph route, local index의 top-k를 후보 slate로 합치지만, 보고서에는 레거시 실험명을 노출하지 않는다.

Headline fullset

HippoCamp Fullset 551 cases. Jikji find improves Hit@1 and Hit@10 while reducing calls and time by the requested 10-30x range. Token and cost savings are larger in this run.

Hit@10.6697 -> 0.7949
LLM calls6,420 -> 551
Wall time520분 -> 19분
Total tokens21.30M -> 0.25M

왜 호출과 토큰이 줄고 정확도는 올라가는가

Jikji find의 절약은 “검색을 덜 한다”가 아니라, agent가 매번 하던 탐색 준비를 root 단위로 미리 끝내기 때문에 나온다.

사전 파싱

PDF, HWP/HWPX, Office, text, subtitles, HTML, archive, opt-in media OCR/ASR 본문을 미리 캐시해 검색 시 파싱 비용을 없앤다.

파일 탐색 지도

folder profile, file card, duplicate hint, route row가 경로 나열과 폴더 훑기를 대체한다.

Fielded index

경로, 파일명, 폴더, 확장자, 본문, 메타데이터, deterministic semantic terms를 따로 점수화한다.

LLM Wiki

각 파일에서 추출한 정보를 grounded Markdown source page로 압축해 agent가 큰 원본 대신 짧은 evidence를 먼저 읽는다.

Knowledge graph

source, folder, term, intent, duplicate graph와 graph_routes를 미리 만들어 의미/관계 단서를 후보 라우팅에 쓴다.

RAG-style retrieval

Jikji는 로컬 wiki/graph/context를 검색에 쓰지만, 기본 코어는 벡터DB·임베딩·클라우드 RAG 없이 동작한다.

벤치마크별 LLM 사용량 장부

실제 에이전트를 실행한 행만 포함한다. 비용은 입력 $0.30/1M, 출력 $2.50/1M, 환율 1,380 KRW/USD 기준 추정치다. 시간이 원시 산출물에 없던 미디어 OCR/ASR 행은 not recorded로 남긴다.

BenchmarkAgent modeCasesHit@1Hit@10LLM callsInput tokensOutput tokensTotal tokensSecondsCost KRW
HippoCamp Fullraw Hermes5510.66970.77866,42019,799,3621,496,91621,296,27831,231.88313,361원
HippoCamp FullJikji find5510.79490.7949551228,68417,632246,3161,164.186156원
Media OCR/ASRraw Hermes100.00000.000031192,86829,232222,100not recorded181원
Media OCR/ASRJikji find101.00001.00001091,2177,18198,398not recorded63원
Hard KOGL extremeraw Hermes40.50000.500028165,24018,410183,650415.4132원
Hard KOGL extremeJikji find41.00001.0000432,1202,11034,23063.221원
Hard KOGL local 600raw Hermes4n/a0.750024141,80016,100157,900366.3114원
Hard KOGL local 600Jikji find4n/a1.0000848,2004,30052,500157.035원
Hard KOGL 180 v3raw Hermes80.87500.875048280,40031,600312,000570.1225원
Hard KOGL 180 v3Jikji find81.00001.00001696,5009,800106,300330.474원
Korean publicdata XLSXraw Hermes180.77780.833398492,00055,300547,300784.0394원
Korean publicdata XLSXJikji find180.94441.000036198,00022,100220,100522.9158원
Workspace-Bench-Literaw Hermes61.00001.000032156,00019,200175,200249.5131원
Workspace-Bench-LiteJikji find60.83331.00001262,0007,10069,100203.750원
EDiTh PDF smokeraw Hermes3n/a1.00001894,20011,100105,300152.877원
EDiTh PDF smokeJikji find3n/a1.0000632,1003,40035,500120.925원
MIRACL-VISIONraw agent80.87501.000042210,00024,500234,500382.4171원
MIRACL-VISIONJikji find80.87501.00001894,00010,500104,500188.075원
Workspace-Bench-Lite는 작은 6-case sanity row에서 Hit@1이 raw보다 낮아 headline이 아니다. 공개 headline은 raw보다 정확도 하한을 지키는 HippoCamp Fullset이다.

벤치마크 데이터 예시

각 벤치마크는 “이 질문에 답하려면 어느 파일을 찾아야 하는가?”를 JSONL 한 줄로 채점한다.

HippoCamp Full
{
  "id": "hippocamp_factual_retention-0001",
  "scenario": "hippocamp_factual_retention",
  "query": "A client asked whether a potential franchisee is allowed to share confidential Tazza Caffe information with their employees...",
  "expected_paths": ["contractnli/Tazza-CAFFE-Confidentiality-Agreement.pdf"]
}
Media OCR/ASR
{
  "id": "media-aud-05",
  "scenario": "audio_asr",
  "query": "What score did the Aurora plant annual safety audit receive?",
  "expected_paths": ["clip_05.wav"]
}
Korean publicdata XLSX
{
  "id": "publicdata-xlsx-014",
  "scenario": "spreadsheet_lookup",
  "query": "전남 지역 읍면동별 농가 수 통계가 들어있는 엑셀 파일",
  "expected_paths": ["attachments/전남_농가_읍면동_통계.xlsx"]
}
Workspace-Bench-Lite
{
  "id": "workspacebench-006",
  "scenario": "source_file_support",
  "query": "Find the source file that defines the retry behavior for the task runner.",
  "expected_paths": ["src/task_runner/retry.ts"]
}
MIRACL-VISION
{
  "id": "miracl-ko-031",
  "scenario": "wiki_passage",
  "query": "올림픽 마라톤 거리가 42.195km로 확정된 경위는?",
  "expected_paths": ["docs/ko/article_39675028.md"]
}

결정론적 진단 벤치

아래 행은 LLM 호출이 없는 검색 레이어 회귀 신호다. 실제 에이전트 비용 장부가 아니므로 usage ledger와 분리한다.

BenchmarkModeCasesHit@1Hit@10MRRSeconds
Realistic Downloadsraw2040.39710.50000.441698.7
Realistic DownloadsJikji find2040.94611.00000.9692102.3
Hard KOGL extreme testraw1440.04860.15970.07076.30
Hard KOGL extreme testJikji find1440.67360.95830.782629.49
MIRACL-VISION markdownraw lexical800.58750.77500.6634n/a
MIRACL-VISION markdownJikji find800.83750.98750.9073n/a
BEIR ArguAna markdownraw2000.00000.13000.0340n/a
BEIR ArguAna markdownJikji find2000.00000.54500.1740n/a
BEIR NFCorpus markdownraw2000.31000.58000.3940n/a
BEIR NFCorpus markdownJikji find2000.35000.63500.4510n/a