인사이트 스칼라는 무료인가요?

네, 인사이트 스칼라는 무료로 시작할 수 있습니다. 14가지 도구 모두 이용 가능하며, 하루 5회 AI 분석과 최대 2개 논문 프로젝트를 무료로 제공합니다.

어떤 AI 모델을 사용하나요?

인사이트 스칼라는 OpenAI GPT-4o-mini를 사용합니다. 피어리뷰 시뮬레이션, 문법 교정, 연구 분석 등 모든 AI 기능에 적용됩니다.

논문 검색은 무료인가요?

네. OpenAlex 데이터베이스를 통해 전 세계 학술 논문을 무료로 제한 없이 검색할 수 있습니다.

AI 피어리뷰는 어떻게 작동하나요?

3명의 AI 리뷰어(방법론 전문가, 구조 비평가, 글쓰기 전문가)가 독립적으로 논문을 평가한 후, 서로 토론하여 합의된 판정과 구체적인 개선 제안을 제공합니다.

내 연구 데이터는 안전한가요?

모든 데이터는 암호화되어 Supabase에 저장되며 Row Level Security가 적용됩니다. 논문은 본인과 초대한 팀원만 열람 가능합니다.

석사 논문 작성에도 도움이 되나요?

네, 석사·박사 학위 논문은 물론 학술지 투고 논문까지 모든 유형의 학술 논문 작성을 지원합니다. 주제 탐색부터 최종 투고까지 6단계 워크플로우를 제공합니다.

전체 예시 리뷰

자연어 처리 / 임상 정보학 · 타겟: Journal of the American Medical Informatics Association (JAMIA)

자동 의료 코딩을 위한 미세조정 대규모 언어 모델: 비교 평가

판정: Minor Revision

명확한 결과 보고와 적절한 기준선을 갖춘 기술적으로 탄탄한 논문. 두 명의 심사자는 마이너 리비전을, 한 명은 수락 전에 추가 에러 분석을 요구한다. 방법은 건전하고, 데이터셋은 표준이며, 향상폭은 크지 않지만 실재한다. 주요 쟁점은 일반화 주장, 계산 비용 보고, 희귀 코드에 대한 하위 그룹 분석 부재이다.

심사 대상 초록

본 연구는 퇴원 요약으로부터 ICD-10 코드를 자동 부여하기 위해 세 개의 오픈소스 대규모 언어 모델(Llama-3-8B, Mistral-7B, BioMedLM)을 MIMIC-IV-ICD 데이터셋으로 미세조정한다. 가장 빈도가 높은 상위 50개 코드에서 우리의 최상 모델은 micro-F1 0.74를 달성하여 CNN 기준선보다 6.2점 높은 성능을 보인다. 병원 청구 업무에서 코더의 업무 부담 경감 관점에서의 함의를 논의한다.

우선순위 수정 사항

1
에러 분석
논문은 집계 F1만 보고하고 모델이 어디서 실패하는지 분석하지 않는다. 어떤 코드 계열에서? 어떤 퇴원 요약 길이에서?
다음을 포함한 에러 분석 섹션을 추가하세요. (a) 상위 다섯 ICD 챕터별 F1, (b) 입력 길이 대비 성능, (c) 전문가 논평을 곁들인 대표 실패 사례 다섯 건.
2
희귀 코드 성능
상위 50개 코드 평가는 실제 운영상의 과제를 가린다 — 코더들이 실제로 도움을 필요로 하는 롱테일 희귀 코드 말이다.
훈련 데이터에서 100회 미만 등장하는 코드에 대한 평가 슬라이스를 추가하세요. micro-F1과 함께 macro-F1을 보고하여 불균형을 드러내세요.
3
계산 비용
논문은 훈련 시간, 추론 지연, GPU 메모리 사용량을 누락하고 있는데, 이는 어떤 병원 정보학 팀이라도 가장 먼저 물을 세 가지 질문이다.
실제 훈련 시간, 배치 크기 1과 16에서의 추론 지연, 최대 VRAM을 보고하는 표를 추가하세요. 사용한 특정 GPU도 명시하세요.

심사자 상세

심사자 A

방법론·통계 심사자

Minor Revision8/10

강점

· CNN과 기존 SOTA 트랜스포머를 포함한 강력한 기준선
· 투명한 하이퍼파라미터 보고
· 재현성 진술과 코드 공개 약속

약점

· 보고된 F1에 부트스트랩 신뢰구간이 없음
· 단일 랜덤 시드 — 분산 추정치 없음
· 집계 F1만 있고 챕터별 내역이 없음

저자에게 보내는 한 마디

기술적으로 유능한 작업이다. CNN 기준선 대비 6.2점 향상은 의미가 있고 방법론은 깔끔하다. 주 요청은 보고된 숫자의 엄밀성이다 — 최상 모델을 최소 세 개의 랜덤 시드로 다시 돌려 평균 ± 표준편차를 보고하라. 이 정도 차이에서 단일 시드 F1은 저널 게재 근거로 부족하다. 이 추가와 리뷰어 C가 요청한 챕터별 내역까지 들어오면, 이 논문은 수락 가능하다.

심사자 B

이론·프레이밍 심사자

Minor Revision7/10

강점

· 엔지니어링 기여로서 정직하게 프레이밍됨
· 임상 적용 가능성을 과장하지 않음
· 관련 연구 섹션이 포괄적이고 최신

약점

· 초록의 “코더 업무 부담 경감” 프레이밍이 이 논문의 실제 기여는 아님
· MIMIC-IV와 다른 병원 시스템 사이의 분포 이동에 관한 논의 부재

저자에게 보내는 한 마디

“코더 업무 부담” 프레이밍은 초록에서는 크게 일하지만, 논문의 나머지 부분에서는 거의 쓰이지 않는다. 실제 기여는 특정 ICD-10 과제에 대한 세 개의 오픈소스 LLM 벤치마크 비교다. 그것만으로도 충분히 좋은 기여이며, 게재를 위해 운영상 프레이밍이 필요하지 않다. 초록을 논문이 실제로 하는 일에 맞춰 부드럽게 조정하고, 논의에 한 단락을 추가해 MIMIC-IV가 단일 기관 데이터셋이며 도메인 적응 없이는 결과가 전이되지 않음을 인정하는 것을 권한다.

심사자 C

응용·임상 심사자

Major Revision6/10

강점

· 현실적인 평가 데이터셋 사용
· 병원이 실제 배포 가능한 오픈소스 모델을 고려

약점

· 상위 50개 코드는 생산성 이득이 있는 지점이 아니다 — 코더의 처리량을 잡아먹는 것은 롱테일이다
· 비용/이익 논의 부재: 컴퓨트 비용 대 코더 시간 비용
· 실제 운영에서 모델이 어디서 실패할지 이해하기 위한 에러 분석이 없음

저자에게 보내는 한 마디

임상 운영 쪽 독자로서 이 작업에 관심이 있지만, 더 많은 운영 기반 없이는 수락을 권할 수 없다. 상위 50개 ICD 코드는 훈련된 코더가 1분 안에 부여하는 코드들이며, 코더를 실제로 늦추는 코드는 미세조정 모델이 일반적으로 무너지는 특정·희귀 코드들이다. 희귀 코드 평가를 추가해 달라. 또한 현실적인 병원 중 추론 지연과 컴퓨트 비용을 모르고 모델을 배포할 수 있는 곳은 없으니, 그 수치를 반드시 추가해 달라. 저자들이 모델이 롱테일에서 유용한 일을 한다는 것을 증명하면 이 논문은 강한 논문이 된다. 현재 상태로는 흥미로운 벤치마크 논문이지만, 초록이 주장하는 응용적 주장에는 닿지 못한다.

내 원고로 실행해 보세요

초고를 붙여넣고 타겟 저널을 고르세요. 해당 저널에 맞춰 보정된 세 명의 심사자 페르소나가 1분 안에 위와 같은 리뷰를 만들어냅니다.

피어 리뷰 시작 →

자동 의료 코딩을 위한 미세조정 대규모 언어 모델: 비교 평가

판정: Minor Revision

심사 대상 초록

본 연구는 퇴원 요약으로부터 ICD-10 코드를 자동 부여하기 위해 세 개의 오픈소스 대규모 언어 모델(Llama-3-8B, Mistral-7B, BioMedLM)을 MIMIC-IV-ICD 데이터셋으로 미세조정한다. 가장 빈도가 높은 상위 50개 코드에서 우리의 최상 모델은 micro-F1 0.74를 달성하여 CNN 기준선보다 6.2점 높은 성능을 보인다. 병원 청구 업무에서 코더의 업무 부담 경감 관점에서의 함의를 논의한다.

우선순위 수정 사항

에러 분석

논문은 집계 F1만 보고하고 모델이 어디서 실패하는지 분석하지 않는다. 어떤 코드 계열에서? 어떤 퇴원 요약 길이에서?

다음을 포함한 에러 분석 섹션을 추가하세요. (a) 상위 다섯 ICD 챕터별 F1, (b) 입력 길이 대비 성능, (c) 전문가 논평을 곁들인 대표 실패 사례 다섯 건.

희귀 코드 성능

상위 50개 코드 평가는 실제 운영상의 과제를 가린다 — 코더들이 실제로 도움을 필요로 하는 롱테일 희귀 코드 말이다.

훈련 데이터에서 100회 미만 등장하는 코드에 대한 평가 슬라이스를 추가하세요. micro-F1과 함께 macro-F1을 보고하여 불균형을 드러내세요.

계산 비용

논문은 훈련 시간, 추론 지연, GPU 메모리 사용량을 누락하고 있는데, 이는 어떤 병원 정보학 팀이라도 가장 먼저 물을 세 가지 질문이다.

실제 훈련 시간, 배치 크기 1과 16에서의 추론 지연, 최대 VRAM을 보고하는 표를 추가하세요. 사용한 특정 GPU도 명시하세요.

심사자 상세

심사자 A

방법론·통계 심사자

Minor Revision8/10

강점

· CNN과 기존 SOTA 트랜스포머를 포함한 강력한 기준선
· 투명한 하이퍼파라미터 보고
· 재현성 진술과 코드 공개 약속

약점

· 보고된 F1에 부트스트랩 신뢰구간이 없음
· 단일 랜덤 시드 — 분산 추정치 없음
· 집계 F1만 있고 챕터별 내역이 없음

저자에게 보내는 한 마디

심사자 B

이론·프레이밍 심사자

Minor Revision7/10

강점

· 엔지니어링 기여로서 정직하게 프레이밍됨
· 임상 적용 가능성을 과장하지 않음
· 관련 연구 섹션이 포괄적이고 최신

약점

· 초록의 “코더 업무 부담 경감” 프레이밍이 이 논문의 실제 기여는 아님
· MIMIC-IV와 다른 병원 시스템 사이의 분포 이동에 관한 논의 부재

저자에게 보내는 한 마디

심사자 C

응용·임상 심사자

Major Revision6/10

강점

· 현실적인 평가 데이터셋 사용
· 병원이 실제 배포 가능한 오픈소스 모델을 고려

약점

· 상위 50개 코드는 생산성 이득이 있는 지점이 아니다 — 코더의 처리량을 잡아먹는 것은 롱테일이다
· 비용/이익 논의 부재: 컴퓨트 비용 대 코더 시간 비용
· 실제 운영에서 모델이 어디서 실패할지 이해하기 위한 에러 분석이 없음

저자에게 보내는 한 마디