scinote-web/app/services/spreadsheet_parser.rb

# frozen_string_literal: true

class SpreadsheetParser
  # Based on file's extension opens file (used for importing)
  def self.open_spreadsheet(file)
    file_path = file.path
    filename = if file.class.name.split('::')[-1] == 'UploadedFile'
                 file.original_filename
               else
                 File.basename(file.path)
               end

    case File.extname(filename)
    when '.csv'
      Roo::CSV.new(file_path, extension: :csv)
    when '.tsv'
      Roo::CSV.new(file_path, csv_options: { col_sep: "\t" })
    when '.txt'
      # This assumption is based purely on biologist's habits
      Roo::CSV.new(file_path, csv_options: { col_sep: "\t" })
    when '.xlsx'
      Roo::Excelx.new(file_path)
    else
      raise TypeError
    end
  end

  def self.spreadsheet_enumerator(sheet)
    if sheet.is_a?(Roo::CSV)
      sheet
    elsif sheet.is_a?(Roo::Excelx)
      sheet.each_row_streaming(pad_cells: true)
    else
      sheet.rows
    end
  end

  def self.first_two_rows(sheet, date_format: nil)
    rows = spreadsheet_enumerator(sheet)
    header = []
    columns = []
    rows.take(2).each_with_index do |row_values, i|
      row = parse_row(row_values, sheet, header: i.zero?, date_format: date_format)
      if row && i.zero?
        header = row
      else
        columns = row
      end
    end

    return header, columns
  end

  def self.parse_row(row, sheet, header: false, date_format: nil)
    if sheet.is_a?(Roo::Excelx) && !header
      row.map do |cell|
        if cell.is_a?(Roo::Excelx::Cell::Number) && cell.format == 'General'
          cell&.value&.to_d
        elsif date_format && cell&.value.is_a?(Date)
          cell&.value&.strftime(date_format)
        else
          cell&.formatted_value
        end
      end
    else
      row.map(&:to_s)
    end
  end

  def self.duplicate_ids(sheet)
    # Extracting IDs from sheet and removing header row
    ids = sheet.drop(1).map(&:first)

    # Selecting duplicate IDs
    ids.group_by { |id| id }.select { |_, group| group.size > 1 }.keys
  end
end
Fix import items to inventory (#2019) 2019-09-05 14:35:11 +08:00			`# frozen_string_literal: true`

Move duplicated code to service [SCI-1665] 2017-10-17 20:42:06 +08:00			`class SpreadsheetParser`
			`# Based on file's extension opens file (used for importing)`
			`def self.open_spreadsheet(file)`
Extend inventory import to support new data types [SCI-4220] 2020-02-03 22:20:01 +08:00			`file_path = file.path`
			`filename = if file.class.name.split('::')[-1] == 'UploadedFile'`
			`file.original_filename`
			`else`
			`File.basename(file.path)`
			`end`
Move duplicated code to service [SCI-1665] 2017-10-17 20:42:06 +08:00
			`case File.extname(filename)`
			`when '.csv'`
			`Roo::CSV.new(file_path, extension: :csv)`
			`when '.tsv'`
			`Roo::CSV.new(file_path, csv_options: { col_sep: "\t" })`
			`when '.txt'`
			`# This assumption is based purely on biologist's habits`
			`Roo::CSV.new(file_path, csv_options: { col_sep: "\t" })`
			`when '.xlsx'`
Remove Creek XLSX parser gem as it causes conflicts [SCI-1891] 2017-12-19 23:17:11 +08:00			`Roo::Excelx.new(file_path)`
Move duplicated code to service [SCI-1665] 2017-10-17 20:42:06 +08:00			`else`
			`raise TypeError`
			`end`
			`end`

			`def self.spreadsheet_enumerator(sheet)`
			`if sheet.is_a?(Roo::CSV)`
			`sheet`
			`elsif sheet.is_a?(Roo::Excelx)`
Fix issue with empty cells for xlsx inventory imports [SCI-4003] 2019-10-21 18:06:45 +08:00			`sheet.each_row_streaming(pad_cells: true)`
Move duplicated code to service [SCI-1665] 2017-10-17 20:42:06 +08:00			`else`
			`sheet.rows`
			`end`
			`end`

Properly format Excell dates in import preview [SCI-7192] 2022-12-02 21:17:50 +08:00			`def self.first_two_rows(sheet, date_format: nil)`
Move duplicated code to service [SCI-1665] 2017-10-17 20:42:06 +08:00			`rows = spreadsheet_enumerator(sheet)`
			`header = []`
			`columns = []`
Fix excel header parsing 2020-05-18 15:52:37 +08:00			`rows.take(2).each_with_index do \|row_values, i\|`
Properly format Excell dates in import preview [SCI-7192] 2022-12-02 21:17:50 +08:00			`row = parse_row(row_values, sheet, header: i.zero?, date_format: date_format)`
Fix excel header parsing 2020-05-18 15:52:37 +08:00			`if row && i.zero?`
			`header = row`
			`else`
			`columns = row`
			`end`
Move duplicated code to service [SCI-1665] 2017-10-17 20:42:06 +08:00			`end`
Fix excel header parsing 2020-05-18 15:52:37 +08:00
Move duplicated code to service [SCI-1665] 2017-10-17 20:42:06 +08:00			`return header, columns`
			`end`
Improve XLSX parsing with Roo [SCI-1915] 2018-01-12 00:52:57 +08:00
Fix import issues with date formatting [SCI-7111] 2022-08-31 15:06:16 +08:00			`def self.parse_row(row, sheet, header: false, date_format: nil)`
Fix excel header parsing 2020-05-18 15:52:37 +08:00			`if sheet.is_a?(Roo::Excelx) && !header`
Fix value rounding for General excel type 2020-04-22 18:30:52 +08:00			`row.map do \|cell\|`
			`if cell.is_a?(Roo::Excelx::Cell::Number) && cell.format == 'General'`
			`cell&.value&.to_d`
Fix import issues with date formatting [SCI-7111] 2022-08-31 15:06:16 +08:00			`elsif date_format && cell&.value.is_a?(Date)`
			`cell&.value&.strftime(date_format)`
Fix value rounding for General excel type 2020-04-22 18:30:52 +08:00			`else`
			`cell&.formatted_value`
			`end`
			`end`
Improve XLSX parsing with Roo [SCI-1915] 2018-01-12 00:52:57 +08:00			`else`
			`row.map(&:to_s)`
			`end`
			`end`
(dev) Detect duplicated item IDs when parsing a spreadsheet [SCI-10399] 2024-03-13 00:11:45 +08:00
			`def self.duplicate_ids(sheet)`
			`# Extracting IDs from sheet and removing header row`
			`ids = sheet.drop(1).map(&:first)`

			`# Selecting duplicate IDs`
			`ids.group_by { \|id\| id }.select { \|_, group\| group.size > 1 }.keys`
			`end`
Move duplicated code to service [SCI-1665] 2017-10-17 20:42:06 +08:00			`end`