본문 바로가기
트렌드 이슈 · 토픽

Google의 검색 알고리즘에 관한 내부 문서가 유출, 구글의 거짓이 들통

by 두우우부 2024. 5. 30.
반응형

 
 
Google의 직원에 의해 데이터 및, API 및 모듈 처리에 익숙해지는 데 사용되는 총 2500 페이지 이상의 내부 문서  「Google API Content Warehouse」 가 유출되었습니다. 이에 따라 Google이 검색 사용자의 정보나 Chrome의 데이터 등을 어떻게 이용하고 있었는지 등의 실태가 밝혀졌습니다. 내용을 조사한 SEO(검색엔진 최적화) 업계 관계자는 포함된 정보가 대부분 2024년 3월 시점의 상당히 새로운 것으로 보고 있습니다.

An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them - SparkToro

An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them - SparkToro

On Sunday, May 5th, I received an email from a person claiming to have access to a massive leak of API documentation from inside Google’s Search division.

sparktoro.com


Secrets from the Algorithm: Google Search's Internal Engineering Documentation Has Leaked

Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked

Learn what you always wish you knew about Google's algorithms.

ipullrank.com


HUGE Google Search document leak reveals inner workings of ranking algorithm

HUGE Google Search document leak reveals inner workings of ranking algorithm

The documents reveal how Google Search is using, or has used, clicks, links, content, entities, Chrome data and more for ranking.

searchengineland.com


이번에 유출된 내부 문서는 웹사이트 해석 툴을 개발 · 제공하고 있는 SparkToro의 랜드 피쉬킨 씨가 '익명의 관계자'와 공유하고 공개한 것. 내용의 대부분은 2024년 3월 시점의 최신 정보라고 확인되었습니다.

반응형

피쉬킨 씨와 정보를 공유한 '익명의 관계자'는 마케팅 대행사 EA Eagle Digital의 Erfan Azimi CEO라고 자신의 입으로 밝혔습니다.

Erfan Azimi: Leaked Google Ranking Factors (Public Statement) - Rand Fishkin, Mike King - YouTube

이 내부 문서는, 2024년 3월 13일에 GitHub에서  「yoshi-code-bot」 이라는 봇에 의해 공개 리포지토리에 투고된 것으로, 오동작에 의해  「의도적인 정보 누설이 일어났다」 라기보다는  「우연히 공개되고 있던 정보가 발견된 것」 이 아닌가 하는 지적이 있습니다.

 


검색엔진이 검색결과를 어떤 순서로 표시하는지에 대한 알고리즘이 어떻게 작동하는지는 SEO(search engine optimization : 검색엔진 최적화)에 매우 중요합니다. 2023년에 러시아 최대의 검색 엔진 「Yandex」 의 소스 코드가 유출되었을 때는, Yandex의 검색 결과에 Google과 유사한 점이 많기 때문에, Google의 SEO에 있어서도 참고가 되는 정보라고 화제가 되었습니다.


이 방대한 문서의 일부를 정리하면 다음과 같이 되어 있다는 것.

・문서에는 2596개의 모듈, 1만 4014개의 속성에 대한 설명이 있다.

・검색 결과 표시 랭킹에 고려되는 요소에 대한 기술이 있지만, 어느 요소가 어떻게 가중치로 되는지에 대한 구체적인 기술은 없음.

・콘텐츠는「링크처가 타깃과 일치하지 않음」, 「SERP(검색 결과 표시)에 유저가 불만을 나타냄」, 「제품 리뷰」, 「로케이션(위치)」, 「완전 일치 도메인」, 「포르노」등의 요소가 페이지 랭크를 낮춘다.

・Google은 과거에 색인한 페이지의 모든 변경점을 기록하고 있지만, 링크 분석 시에는 최근 20회의 변경 이력 밖에 참조하지 않는다.

・'페이지 랭크'는 Google 랭크에서 여전히 중요한 위치를 차지한다.

・Google은 'badClicks', 'goodClicks', 'lastLongestClicks', 'unsquashedClicks' 등 다양한 측정값으로 클릭수를 측정하고 있으며 성과로 이어진 클릭이 중요.

・긴 콘텐츠는 버려질 수 있지만 짧은 콘텐츠에는 독창성에 따라 0에서 512까지의 점수가 주어진다.

・건강이나 뉴스 등, 이른바「YMYL(Your Money Your Life)」콘텐츠에도 스코어가 주어진다.

・검색 순위의 상위에 가기 위해서는 브랜드가 무엇보다 중요.

・Google은 콘텐츠 작성자에 대한 정보를 저장하고, 특정 문서의 저자인지 여부를 결정하려 한다.

・2011년의 팬더 업데이트 후에 그 존재를 시사하면서도 부정하고 있던 'siteAuthority'를 이용하고 있다.

・검색 순위에 Chrome 데이터를 사용하는 'ChromeInTotal'이라는 모듈이 있다.

・선거와 신형 코로나(COVID)에 관한 특정 도메인을 화이트리스트에 등록한 것을 나타내는 'isElectionAuthority', 'isCovidLocalAuthority' 모듈이 존재.

・소규모 사이트나 블로그를 위한 'smallPersonalSite' 모듈이 존재하지만 랭킹의 가중치 중에서 어느 정도의 위치에 있는지는 불명.

・'titlematchScore'라는 기능으로 페이지 타이틀과 내용의 쿼리가 어느 정도 일치하고 있는지 측정하고 있다고 생각됨.


Google
은 지금까지 "페이지 순위에 Chrome 데이터를 사용하지 않았다"라고 설명해 왔지만 실제로는 위에서 설명한 것처럼 Chrome 데이터를 사용하는 모듈이 존재했기 때문에, 킹 씨는 "거짓말을 했다고 하기에는 좀 심한 것 같지만, 이 경우에 사용할 수 있는 유일한 표현이긴 하다."라고 코멘트.


이 내부 문서에 대한 의견을 거부했던 Google이 마침내 진짜임을 인정했습니다.

Google confirms the leaked Search documents are real - The Verge

Google confirms the leaked Search documents are real

The confirmation comes after Google refused to comment.

www.theverge.com

반응형