Home Communication FAQ

Communication

검색을 이용하시면 보다 빠르게 답변을 찾을 수 있습니다.
찾으시는 문의내용이 없다면 'Q&A' 게시판을 이용하시기 바랍니다.

  • Q기능 포털사이트 각 채널 1,000건 이상 데이터 수집하기
    • A

      안녕하세요. 텍스톰 관리자입니다.


      포털사이트와 SNS 트위터의 경우 데이터량이 1,000건 이상이여도 채널별로 1,000건의 데이터만 수집이 가능합니다. 이러한 경우는 대부분 기간을 길게 설정할 경우 해당 기간의 데이터량이 많아져 해당 포털사이트에서 제공하는 최대 링크수가 1,000건이므로 최대 1,000건만 수집 가능하게 됩니다.


      따라서 이 문제를 해결하기 위해서는 기간을 나누어 수집을 하시면 됩니다.

      기간을 나누어 수집하는 방법에는 두 가지 방법이 있습니다.


      1. 수집단위를 사용하여 수집


      예를 들어 일 단위로 수집 할 경우 수집할 경우 한달을 하루 단위로 잘라서 검색한 뒤 데이터 수집하게 됩니다.

      쉽게 말해서 하루에 네이버 블로그 데이터가 300건씩 있다고 가정하면 일주일 기간을 수집 기간으로 설정하면 2,100 건의 데이터량이 발생하게 됩니다. 그리고 수집단위를 미사용으로 할 경우 1,000건의 데이터를 수집하게 됩니다. 하지만 수집 단위를 일단위로 할 경우 하루씩 검색을 끊어서 수집하기 때문에 2,100건의 데이터가 모두 수집 됩니다.


      수집단위를 모든 채널에 사용 할 수 있는 것은 아니고 채널명 중 진하게 표시된 채널명만 수집단위를 설정 가능합니다.



      2. 수집단위 미사용 방법

      수집 단위 미사용 시에는 사용자가 직접 기간을 나누어 해당 키워드로 반복적으로 수집해야합니다. 이렇게 할 경우 수집이 완료되면 수집된 데이터를 합쳐서 다시 텍스톰에 올려야 하므로 용량이 중복으로 사용 될 수 있습니다. 따라서 위의 수집단위를 사용하는 것을 추천해드립니다.

  • Q기능 수집할 데이터의 용량 확인방법
    • A

      안녕하세요. 텍스톰 관리자입니다.


      텍스톰을 처음 사용하시는 분들이 자주 문의하시는 내용으로

      “수집하려는 데이터의 용량은 어느 정도일까?” 의 문의가 많이 오는 편입니다.


      문의에 대하여 답변을 해드리면 기본적으로 텍스톰은 요약수집을 주로 사용합니다. 원문수집의 경우 광고성 데이터와 저작권 문제가 발생할 소지가 있고, 다양한 사이트가 존재하여 사용을 자제하는 편입니다. 따라서 요약수집을 기준으로 설명해드리겠습니다.


      가장 많이 사용하는 네이버 데이터 수집의 경우 데이터 1건당 약 600byte 용량을 필요로 합니다. 이것을 MB 단위로 계산을 해보시면 1MB로 1700건의 데이터를 수집 할 수 있습니다.

      자신의 데이터 건수를 확인하는 방법은 네이버 검색을 기준으로 설명해드리겠습니다.

      네이버포털에 접속 후 수집 키워드를 검색합니다. 그 후 아래 상세검색 탭에서



      위의 그림과 같이 데이터 수집기간을 설정한 뒤 적용하기를 클릭합니다.


      다음으로 데이터를 수집할 채널(블로그, 카페, 뉴스 등)을 클릭합니다. 클릭하시면 아래와 같이 데이터의 건수가 나타나게 됩니다. 따라서 해당 데이터 건수를 각 채널별로 합산하여 위의 건당 데이터 용량으로 수집 데이터의 용량을 계산하시면 되겠습니다.



      네이버 외 구글, 다음의 경우도 위와 유사한 방법으로 데이터량을 알 수 있습니다.

      ※ 주의사항

      (1) : 페이스북과 트위터의 경우 데이터 정책으로 인해 수집기간이 약 7일 가량으로 제한적일 수 있습니다.

      (2) : 데이터 수집 시 한 번에 수집할 수 있는 최대 데이터 건수는 채널(블로그, 카페, 뉴스 등)의

      1,000건만 수집 가능합니다. 예를 들어 데이터 수집 기간이 1년으로 했을 경우 포털에서 데이터 건수가 2만으로 떠도 데이터는 1,000건만 수집됩니다.

  • Q기능 데이터 수집 가능 기간
    • A

      안녕하세요. 텍스톰 관리자 입니다.


      포털사이트와 SNS를 구분하여 설명해드리겠습니다.


      1) 우선 SNS의 경우 일주일 기간의 데이터 밖에 수집하질 못합니다.


      페이스북과 트위터의 데이터 정책으로 인하여 API를 사용하여 수집할 경우

      기간을 최근 일주일 데이터만 수집이 가능합니다.


      2) 포털사이트의 경우 해당 포털 사이트마다 기간지정이 달라지게 됩니다.


      네이버: 1990년도까지 기간 지정이 가능, 텍스톰에서 1990년도까지 수집 가능

      다음: 1990년까지 지정가능, 다음 포털에서는 검색 리스트가 안보이지만 텍스톰에서는 1990년도

      데이터까지 데이터 수집 가능



      텍스톰의 수집하는 데이터 수집은 포털 사이트에서 제공하는 데이터를 기준으로 하므로
      우선 수집하고자 하는 키워드를 포털 사이트에서 검색하여 확인 한 뒤 해당 키워드를
      텍스톰에서 사용하면 자신이 수집하려는 데이터를 미리 알고 수집할 수 있습니다.