R로 pdf 파일에서 데이터 추출

Hayk

pdf 파일에서 데이터 (테이블)를 추출하여 데이터 프레임으로 저장하려고합니다.

library(pdftools)
library(tabulizerjars)
library(tabulizer)
library(tidyverse)


f <- file.path("D:/Araratbank/Statement USD-pages-1.pdf")

#using pdf tools package

text <- pdf_text(f)

text
#> [1] "                                                                                                                                                              ´ ³ÝϳÛÇÝ ·³Õï ÝÇù +\r\n                                                                                                                                                                         γï³ñáÕ`\r\n                                                                                                                                îå»ó` سñ·³ñÛ³Ý ²Ýݳ èáµ»ñïÇF226 17/12/19 13:45:39\r\n                                                           ø²Ôì²Ìø ´²ÜβÚÆÜ Ð²ÞìÆò\r\n                                                         ïñ³Ù³¹ñÙ³Ý ³Ùë³ÃÇíÁ         17/12/19 13:46:16\r\n    ´ ³ÝÏ                                                     AM24149, ÚáõÝǵ³ÝÏ äñÇí» Ù³ëݳ×ÛáõÕ\r\n    Ð³×³Ë áñ¹Ç ³Ýáõ ÝÁ/³Ýí ³Ýáõ ÙÁ                            §²¸²ØÆàôئ êäÀ\r\n    гë ó»                                                    вڲêî²Ü ºñ¨³Ý èáõµÇÝÛ³Ýó ÷áÕ. 21/3-19\r\n    г׳Õáñ¹Ç Ñ ³ßí Ç Ñ ³Ù³ñÁ/² ñÅáõ ÛÃÁ                      24149000206001                 USD\r\n    ø³Õí ³ÍùÇ Ñ ³Ù³ñ\r\n    Ü ³Ë áñ¹ ù³Õí ³ÍùÇ Ó¨³í áñÙ³Ý ³Ùë ³ÃÇí                    01/09/19\r\n    êϽµÝ³Ï³Ý Ùݳóáñ¹                                         01/09/19    CR   USD         358,048.19\r\n    F226                                                                                                                                                                  --1\r\n²Ùë ³ÃÇí     ö ³ë ï ³ÃÕÃÇ    ö ³ë ï ³ÃÕÃÇ  ¶ áõ Ù³ñ      DB/ êï ³óáÕÇ/ ì׳ñáÕÇ       êï ³óáÕÇ/ ì׳ñáÕÇ          êï ³óáÕÇ/ í ׳ñáÕÇ                      Ü å³ï ³ÏÁ\r\n                Ñ ³Ù³ñ     Ñ ÕÙ³Ý Ñ ³Ù³ñÁ                 CR   Ñ ³ßí Ç Ñ ³Ù³ñ         ³Ýáõ ÝÁ/³Ýí ³Ýáõ ÙÁ               µ³ÝÏ\r\n                                                                                 PEPSICO HOLDINGS LLC          BLICRUMM / HSBC BANK     INVOICE 03/00362660-19 DD 07.08.19A CC. TO\r\n 02/09/19  190902021464049 190902049382049       7,336.83 DB   38410000000213      141580,RU SSIA,MOSCOW              (RR) OOO           CONTRACT N PS/AD 001/02-18D D 14.02.18\r\n                                                                                   SANDORA LTD         57262,    CITIUAUK / CITIBANK   INV 32015 DD 06.08.19 ACC. TO CONT RACT N\r\n 02/09/19  190902021461049 190902049391049      12,260.20 DB   38410000000213     UKRAINA, N IKOLAEVSKAYA             (UKRAINE)            S-19-3972 DD 01.06.2019 FOR NATURAL\r\n                                                                                        JSC PERMALKO,         AVTBRUMMXXX / URALSIB          INVOICE 255 DD 03.09.19 ACC. TO C\r\n 03/09/19  190903041599049 190903047747049      20,082.24 DB   38410000000213       RUSSIA,614990,G.PERM,             BANK OAO            ONTRACT N282-15 DTD. 16.09.2015 FO R\r\n                                                                                       OOO RODNIK I K         AVTBRUMMXXX / URALSIB       INVOICES 184-190 DD 20.08.19 ACC . TO\r\n 03/09/19  190903041597049 190903047761049      93,139.20 DB   38410000000213       RUSSIA,MOSKOVSKA YA               BANK OAO              CONTRACT N62-M DD 10.05.2016F OR\r\n                                                                                   GLOBAL SPIRITS GROUP MUNIUA22 / TASCOMBANK               INVOICES 18,19 DD 23.08.19 ACC. TOC\r\n 03/09/19  190903041591049 190903047819049      41,015.88 DB   38410000000213     LLC         12 VYACHESLAV     JSC (FORMERLY BANK         ONTRACT N 06/2019-A DD 13.07.19 FOR\r\n                                                                                    ABRAHAM JACOBI- THE        RZBAATWW RAIFFEISEN\r\n 04/09/19  ASW07394/040919 190904088136000      14,307.58 CR   38410000000197        BEER STORE 3-22 S.Y.     BANK INTERNATIONAL AG\r\n                                                                                   M.D. AVIATION SERVICES      RZBAATWW RAIFFEISEN             INV:03092019      DATE 03/09/19\r\n 04/09/19  ASW97492/030919 190904088137000      14,371.58 CR   38410000000197        LTD 30 SHD. GOSHEN       BANK INTERNATIONAL AG\r\n                                                                                   GLOBAL SPIRITS GROUP MUNIUA22 / TASCOMBANK INVOICE 12 DD 09.08.19 ACC. TO CONT RACT\r\n 05/09/19  190905032684049 190905035088049         300.00 DB   38410000000213     LLC         12 VYACHESLAV     JSC (FORMERLY BANK       N 06/2019-A DD 13.07.19 FOR AD VERTISING\r\n                                                                                      LLC WORLD TRADE            BAGAGE22 / BANK OF    INVOICE 809 DD 27.08.19 ACC TO CON TRACT\r\n 05/09/19  190905032676049 190905035147049       6,160.00 DB   38410000000213        COMPANY        GEORGI            GEORGIA           N 071218 DD 07/12/18 FOR TRAN SPORTATION\r\n´³ÝϳÛÇÝ ·³ÕïÝÇù*\r\n                                                                                1\r\n"


#using tabulizer package

statement <- extract_tables(
  file   = f, 
  method = "decide")

str(statement)
#> List of 1
#>  $ : chr [1:20, 1:9] "2Ã\231ë3ÃÇí" "" "" "02/09/19" ...

statement
#> [[1]]
#>       [,1]           [,2]                [,3]                  
#>  [1,] "2Ã\231ë3ÃÇí" "ö 3ëï3ÃÕÃÇ" "ö 3ëï3ÃÕÃÇ"   
#>  [2,] ""             "Ñ3Ã\2313ñ"          "ÑÕÃ\2313Ã\235 Ñ3Ã\2313ñÃ\201"
#>  [3,] ""             ""                  ""                    
#>  [4,] "02/09/19"     "190902021464049"   "190902049382049"     
#>  [5,] ""             ""                  ""                    
#>  [6,] "02/09/19"     "190902021461049"   "190902049391049"     
#>  [7,] ""             ""                  ""                    
#>  [8,] "03/09/19"     "190903041599049"   "190903047747049"     
#>  [9,] ""             ""                  ""                    
#> [10,] "03/09/19"     "190903041597049"   "190903047761049"     
#> [11,] ""             ""                  ""                    
#> [12,] "03/09/19"     "190903041591049"   "190903047819049"     
#> [13,] ""             ""                  ""                    
#> [14,] "04/09/19"     "ASW07394/040919"   "190904088136000"     
#> [15,] ""             ""                  ""                    
#> [16,] "04/09/19"     "ASW97492/030919"   "190904088137000"     
#> [17,] ""             ""                  ""                    
#> [18,] "05/09/19"     "190905032684049"   "190905035088049"     
#> [19,] ""             ""                  ""                    
#> [20,] "05/09/19"     "190905032676049"   "190905035147049"     
#>       [,4]               [,5] [,6]                         
#>  [1,] "¶ áõÃ\2313ñ DB/" ""   "êï3óáÕÇ/ì×3ñáÕÇ"
#>  [2,] ""                 "CR" "Ñ3ᡀ Ñ3Ã\2313ñ"         
#>  [3,] ""                 ""   ""                           
#>  [4,] "7,336.83"         "DB" "38410000000213"             
#>  [5,] ""                 ""   ""                           
#>  [6,] "12,260.20"        "DB" "38410000000213"             
#>  [7,] ""                 ""   ""                           
#>  [8,] "20,082.24"        "DB" "38410000000213"             
#>  [9,] ""                 ""   ""                           
#> [10,] "93,139.20"        "DB" "38410000000213"             
#> [11,] ""                 ""   ""                           
#> [12,] "41,015.88"        "DB" "38410000000213"             
#> [13,] ""                 ""   ""                           
#> [14,] "14,307.58"        "CR" "38410000000197"             
#> [15,] ""                 ""   ""                           
#> [16,] "14,371.58"        "CR" "38410000000197"             
#> [17,] ""                 ""   ""                           
#> [18,] "300.00"           "DB" "38410000000213"             
#> [19,] ""                 ""   ""                           
#> [20,] "6,160.00"         "DB" "38410000000213"             
#>       [,7]                           [,8]                         
#>  [1,] "êï3óáÕÇ/ì×3ñáÕÇ"  "êï3óáÕÇ/í×3ñáÕÇ"
#>  [2,] "3Ã\235áõÃ\235Ã\201/3Ã\235í3Ã\235áõÃ\231Ã\201" "μ3Ã\235Ã\217"                    
#>  [3,] "PEPSICO HOLDINGS LLC"         "BLICRUMM / HSBC BANK"       
#>  [4,] "141580,RU SSIA,MOSCOW"        "(RR) OOO"                   
#>  [5,] "SANDORA LTD57262,"            "CITIUAUK / CITIBANK"        
#>  [6,] "UKRAINA, N IKOLAEVSKAYA"      "(UKRAINE)"                  
#>  [7,] "JSC PERMALKO,"                "AVTBRUMMXXX / URALSIB"      
#>  [8,] "RUSSIA,614990,G.PERM,"        "BANK OAO"                   
#>  [9,] "OOO RODNIK I K"               "AVTBRUMMXXX / URALSIB"      
#> [10,] "RUSSIA,MOSKOVSKA YA"          "BANK OAO"                   
#> [11,] "GLOBAL SPIRITS GROUP"         "MUNIUA22 / TASCOMBANK"      
#> [12,] "LLC12 VYACHESLAV"             "JSC (FORMERLY BANK"         
#> [13,] "ABRAHAM JACOBI- THE"          "RZBAATWW RAIFFEISEN"        
#> [14,] "BEER STORE 3-22 S.Y."         "BANK INTERNATIONAL AG"      
#> [15,] "M.D. AVIATION SERVICES"       "RZBAATWW RAIFFEISEN"        
#> [16,] "LTD 30 SHD. GOSHEN"           "BANK INTERNATIONAL AG"      
#> [17,] "GLOBAL SPIRITS GROUP"         "MUNIUA22 / TASCOMBANK"      
#> [18,] "LLC12 VYACHESLAV"             "JSC (FORMERLY BANK"         
#> [19,] "LLC WORLD TRADE"              "BAGAGE22 / BANK OF"         
#> [20,] "COMPANYGEORGI"                "GEORGIA"                    
#>       [,9]                                        
#>  [1,] "Üå3ï3Ã\217Ã\201"                              
#>  [2,] ""                                          
#>  [3,] "INVOICE 03/00362660-19 DD 07.08.19A CC. TO"
#>  [4,] "CONTRACT N  PS/AD 001/02-18D D 14.02.18"   
#>  [5,] "INV 32015  DD 06.08.19 ACC. TO CONT RACT N"
#>  [6,] "S-19-3972  DD 01.06.2019 FOR  NATURAL"     
#>  [7,] "INVOICE 255  DD 03.09.19  ACC. TO C"       
#>  [8,] "ONTRACT N282-15  DTD. 16.09.2015 FO R"     
#>  [9,] "INVOICES  184-190  DD 20.08.19  ACC . TO"  
#> [10,] "CONTRACT N62-M  DD 10.05.2016F OR"         
#> [11,] "INVOICES 18,19 DD 23.08.19 ACC. TOC"       
#> [12,] "ONTRACT N 06/2019-A DD 13.07.19 FOR"       
#> [13,] ""                                          
#> [14,] ""                                          
#> [15,] "INV:03092019DATE 03/09/19"                 
#> [16,] ""                                          
#> [17,] "INVOICE 12 DD 09.08.19 ACC. TO CONT RACT"  
#> [18,] "N 06/2019-A DD 13.07.19 FOR AD VERTISING"  
#> [19,] "INVOICE 809  DD 27.08.19 ACC TO CON TRACT" 
#> [20,] "N 071218 DD 07/12/18 FOR TRAN SPORTATION"

reprex 패키지 (v0.3.0)로 2020-01-07에 생성됨

두 옵션 모두 구조화되지 않고 지저분한 데이터의 긴 행을 반환합니다. pdf 파일에서 이러한 유형의 데이터를 추출하는 다른 방법이 있습니까 (테이블을 데이터 프레임으로 가져 오기 위해) 또는 이러한 데이터를 정리하고 정리해야합니까? 여기에서 파일을 찾을 수 있습니다. 명세서 USD

앨런 카메론

두 가지 옵션은 가능하지만 어려운 텍스트를 직접 정리하거나 pdftools 패키지 를 사용해 보는 입니다. 이를 위해서는 API가입 해야합니다 . pdftables를 사용하면 더 빠른 결과를 얻을 수 있지만 변환 할 수있는 PDF 수에 제한이 있습니다. 처리 할 문서가 많은 경우를 사용하여 페이지에있는 모든 요소의 위치를 ​​가져 오는 것이 더 쉬울 수 있습니다 pdftools::pdf_data.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

UIPath에서 PDF로 데이터 추출

분류에서Dev

Java에서 ODT에서 PDF로 데이터 추출

분류에서Dev

Python에서 파일에서 파일로 데이터 추출

분류에서Dev

파일에서 다른 파일로 데이터 추출

분류에서Dev

pdf 파일에서 R로 데이터 가져 오기

분류에서Dev

JSON 파일에서 CSV로 데이터 추출

분류에서Dev

rss 파일에서 추출한 데이터를 simplexml로 수정

분류에서Dev

.txt 파일에서 특정 패턴으로 데이터 추출

분류에서Dev

로그 파일에서 데이터를 추출하는 방법

분류에서Dev

텍스트 파일에서 CSV로 데이터 추출

분류에서Dev

로그 파일에서 데이터 추출

분류에서Dev

Bash 스크립트로 파일에서 데이터 추출

분류에서Dev

R을 사용하여 동일한 형식의 여러 페이지 pdf 파일에서 특정 구조화 된 데이터 추출

분류에서Dev

PHP로 PDF에서 이미지 추출

분류에서Dev

Python으로 파일에서 데이터 추출 및 새 파일 작성

분류에서Dev

PDF 파일 (일종)에서 표 형식 데이터를 추출하는 솔루션

분류에서Dev

txt 파일에서 데이터 추출

분류에서Dev

두 파일에서 데이터 추출

분류에서Dev

파일 Unix에서 데이터 추출

분류에서Dev

.seg 파일에서 데이터 추출

분류에서Dev

R SurvFit에서 데이터 추출

분류에서Dev

PDF 파일에서 변수로 값 추출

분류에서Dev

VBA로 행에서 데이터 추출

분류에서Dev

R을 사용하여 여러 Excel 파일에서 데이터 추출

분류에서Dev

R : 창 기능을 사용하여 csv 파일에서 데이터 추출

분류에서Dev

PDF 파일에서 이미지를 추출하는 방법

분류에서Dev

단일 데이터 열에서 다른 벡터 추출 (R)

분류에서Dev

c 프로그래밍-파일에서 데이터 문자열 추출

분류에서Dev

정규식으로 텍스트 파일에서 데이터 추출

Related 관련 기사

  1. 1

    UIPath에서 PDF로 데이터 추출

  2. 2

    Java에서 ODT에서 PDF로 데이터 추출

  3. 3

    Python에서 파일에서 파일로 데이터 추출

  4. 4

    파일에서 다른 파일로 데이터 추출

  5. 5

    pdf 파일에서 R로 데이터 가져 오기

  6. 6

    JSON 파일에서 CSV로 데이터 추출

  7. 7

    rss 파일에서 추출한 데이터를 simplexml로 수정

  8. 8

    .txt 파일에서 특정 패턴으로 데이터 추출

  9. 9

    로그 파일에서 데이터를 추출하는 방법

  10. 10

    텍스트 파일에서 CSV로 데이터 추출

  11. 11

    로그 파일에서 데이터 추출

  12. 12

    Bash 스크립트로 파일에서 데이터 추출

  13. 13

    R을 사용하여 동일한 형식의 여러 페이지 pdf 파일에서 특정 구조화 된 데이터 추출

  14. 14

    PHP로 PDF에서 이미지 추출

  15. 15

    Python으로 파일에서 데이터 추출 및 새 파일 작성

  16. 16

    PDF 파일 (일종)에서 표 형식 데이터를 추출하는 솔루션

  17. 17

    txt 파일에서 데이터 추출

  18. 18

    두 파일에서 데이터 추출

  19. 19

    파일 Unix에서 데이터 추출

  20. 20

    .seg 파일에서 데이터 추출

  21. 21

    R SurvFit에서 데이터 추출

  22. 22

    PDF 파일에서 변수로 값 추출

  23. 23

    VBA로 행에서 데이터 추출

  24. 24

    R을 사용하여 여러 Excel 파일에서 데이터 추출

  25. 25

    R : 창 기능을 사용하여 csv 파일에서 데이터 추출

  26. 26

    PDF 파일에서 이미지를 추출하는 방법

  27. 27

    단일 데이터 열에서 다른 벡터 추출 (R)

  28. 28

    c 프로그래밍-파일에서 데이터 문자열 추출

  29. 29

    정규식으로 텍스트 파일에서 데이터 추출

뜨겁다태그

보관